ixgbe: add prefetch to improve slow-path tx perf
authorBruce Richardson <bruce.richardson@intel.com>
Tue, 23 Sep 2014 11:08:14 +0000 (12:08 +0100)
committerThomas Monjalon <thomas.monjalon@6wind.com>
Wed, 8 Oct 2014 12:24:59 +0000 (14:24 +0200)
commitd803387a7f3faeb50c126f9ec065a86cb0dc7f70
tree6cc96c9297fd49e459c161f7d932dbdefdf2288f
parenta62bfb72b9ca4b0e3b1db5af125b63a16a3e507c
ixgbe: add prefetch to improve slow-path tx perf

Make a small improvement to slow path TX performance by adding in a
prefetch for the second mbuf cache line.
Also move assignment of l2/l3 length values only when needed.

What I've done with the prefetches is two-fold:
1) changed it from prefetching the mbuf (first cache line) to prefetching
the mbuf pool pointer (second cache line) so that when we go to access
the pool pointer to free transmitted mbufs we don't get a cache miss. When
clearing the ring and freeing mbufs, the pool pointer is the only mbuf
field used, so we don't need that first cache line.
2) changed the code to prefetch earlier - in effect to prefetch one mbuf
ahead. The original code prefetched the mbuf to be freed as soon as it
started processing the mbuf to replace it. Instead now, every time we
calculate what the next mbuf position is going to be we prefetch the mbuf
in that position (i.e. the mbuf pool pointer we are going to free the mbuf
to), even while we are still updating the previous mbuf slot on the ring.
This gives the prefetch much more time to resolve and get the data we need
in the cache before we need it.

In terms of performance difference, a quick sanity test using testpmd
on a Xeon (Sandy Bridge uarch) platform showed performance increases
between approx 8-18%, depending on the particular RX path used in
conjuntion with this TX path code.

Signed-off-by: Bruce Richardson <bruce.richardson@intel.com>
Acked-by: Pablo de Lara <pablo.de.lara.guarch@intel.com>
lib/librte_pmd_ixgbe/ixgbe_rxtx.c