]> git.droids-corp.org - dpdk.git/commitdiff
net/mlx5: support inline send
authorYaacov Hazan <yaacovh@mellanox.com>
Fri, 24 Jun 2016 13:17:56 +0000 (15:17 +0200)
committerBruce Richardson <bruce.richardson@intel.com>
Mon, 27 Jun 2016 14:17:52 +0000 (16:17 +0200)
Implement send inline feature which copies packet data directly into
work queue entries (WQEs) for improved latency. The maximum packet
size and the minimum number of Tx queues to qualify for inline send
are user-configurable.

This feature is effective when HW causes a performance bottleneck.

Signed-off-by: Yaacov Hazan <yaacovh@mellanox.com>
Signed-off-by: Adrien Mazarguil <adrien.mazarguil@6wind.com>
Signed-off-by: Nelio Laranjeiro <nelio.laranjeiro@6wind.com>
doc/guides/nics/mlx5.rst
drivers/net/mlx5/mlx5.c
drivers/net/mlx5/mlx5.h
drivers/net/mlx5/mlx5_ethdev.c
drivers/net/mlx5/mlx5_rxtx.c
drivers/net/mlx5/mlx5_rxtx.h
drivers/net/mlx5/mlx5_txq.c

index 756153bdba44533a3054b53486ec0f3167d29e0c..9ada22180959ad42858e8d558643dc634f7c7216 100644 (file)
@@ -154,6 +154,23 @@ Run-time configuration
   allows to save PCI bandwidth and improve performance at the cost of a
   slightly higher CPU usage.  Enabled by default.
 
+- ``txq_inline`` parameter [int]
+
+  Amount of data to be inlined during TX operations. Improves latency.
+  Can improve PPS performance when PCI back pressure is detected and may be
+  useful for scenarios involving heavy traffic on many queues.
+
+  It is not enabled by default (set to 0) since the additional software
+  logic necessary to handle this mode can lower performance when back
+  pressure is not expected.
+
+- ``txqs_min_inline`` parameter [int]
+
+  Enable inline send only when the number of TX queues is greater or equal
+  to this value.
+
+  This option should be used in combination with ``txq_inline`` above.
+
 Prerequisites
 -------------
 
index 630e5e43aafc397909163947a80be790ebc0670c..73069d22712a28e7a30cb2bb92703a1029b4e740 100644 (file)
 /* Device parameter to enable RX completion queue compression. */
 #define MLX5_RXQ_CQE_COMP_EN "rxq_cqe_comp_en"
 
+/* Device parameter to configure inline send. */
+#define MLX5_TXQ_INLINE "txq_inline"
+
+/*
+ * Device parameter to configure the number of TX queues threshold for
+ * enabling inline send.
+ */
+#define MLX5_TXQS_MIN_INLINE "txqs_min_inline"
+
 /**
  * Retrieve integer value from environment variable.
  *
@@ -269,6 +278,10 @@ mlx5_args_check(const char *key, const char *val, void *opaque)
        }
        if (strcmp(MLX5_RXQ_CQE_COMP_EN, key) == 0) {
                priv->cqe_comp = !!tmp;
+       } else if (strcmp(MLX5_TXQ_INLINE, key) == 0) {
+               priv->txq_inline = tmp;
+       } else if (strcmp(MLX5_TXQS_MIN_INLINE, key) == 0) {
+               priv->txqs_inline = tmp;
        } else {
                WARN("%s: unknown parameter", key);
                return -EINVAL;
@@ -292,6 +305,8 @@ mlx5_args(struct priv *priv, struct rte_devargs *devargs)
 {
        const char **params = (const char *[]){
                MLX5_RXQ_CQE_COMP_EN,
+               MLX5_TXQ_INLINE,
+               MLX5_TXQS_MIN_INLINE,
                NULL,
        };
        struct rte_kvargs *kvlist;
index 8f5a6df7533dfda2a724ba3f2fb3b0ffd7385dca..3a86609867b3e2af963db4c211bc70ae02c5ab0a 100644 (file)
@@ -113,6 +113,8 @@ struct priv {
        unsigned int mps:1; /* Whether multi-packet send is supported. */
        unsigned int cqe_comp:1; /* Whether CQE compression is enabled. */
        unsigned int pending_alarm:1; /* An alarm is pending. */
+       unsigned int txq_inline; /* Maximum packet size for inlining. */
+       unsigned int txqs_inline; /* Queue number threshold for inlining. */
        /* RX/TX queues. */
        unsigned int rxqs_n; /* RX queues array size. */
        unsigned int txqs_n; /* TX queues array size. */
index 47e64b2a7ef26301b441d1cd1587755734af0a3e..aeea4ff4f883af013a3c7b4df2f7f771b9e77a0f 100644 (file)
@@ -1318,6 +1318,11 @@ void
 priv_select_tx_function(struct priv *priv)
 {
        priv->dev->tx_pkt_burst = mlx5_tx_burst;
+       if (priv->txq_inline && (priv->txqs_n >= priv->txqs_inline)) {
+               priv->dev->tx_pkt_burst = mlx5_tx_burst_inline;
+               DEBUG("selected inline TX function (%u >= %u queues)",
+                     priv->txqs_n, priv->txqs_inline);
+       }
 }
 
 /**
index 1e9972b0c3fd1ea6f742495e3b731ea220b01bf1..2ca133ecf534d2ec160046465b0ec69b29e5ee09 100644 (file)
@@ -375,6 +375,139 @@ mlx5_wqe_write_vlan(struct txq *txq, volatile union mlx5_wqe *wqe,
        ++txq->wqe_ci;
 }
 
+/**
+ * Write a inline WQE.
+ *
+ * @param txq
+ *   Pointer to TX queue structure.
+ * @param wqe
+ *   Pointer to the WQE to fill.
+ * @param addr
+ *   Buffer data address.
+ * @param length
+ *   Packet length.
+ * @param lkey
+ *   Memory region lkey.
+ */
+static inline void
+mlx5_wqe_write_inline(struct txq *txq, volatile union mlx5_wqe *wqe,
+                     uintptr_t addr, uint32_t length)
+{
+       uint32_t size;
+       uint16_t wqe_cnt = txq->wqe_n - 1;
+       uint16_t wqe_ci = txq->wqe_ci + 1;
+
+       /* Copy the first 16 bytes into inline header. */
+       rte_memcpy((void *)(uintptr_t)wqe->inl.eseg.inline_hdr_start,
+                  (void *)(uintptr_t)addr,
+                  MLX5_ETH_INLINE_HEADER_SIZE);
+       addr += MLX5_ETH_INLINE_HEADER_SIZE;
+       length -= MLX5_ETH_INLINE_HEADER_SIZE;
+       size = 3 + ((4 + length + 15) / 16);
+       wqe->inl.byte_cnt = htonl(length | MLX5_INLINE_SEG);
+       rte_memcpy((void *)(uintptr_t)&wqe->inl.data[0],
+                  (void *)addr, MLX5_WQE64_INL_DATA);
+       addr += MLX5_WQE64_INL_DATA;
+       length -= MLX5_WQE64_INL_DATA;
+       while (length) {
+               volatile union mlx5_wqe *wqe_next =
+                       &(*txq->wqes)[wqe_ci & wqe_cnt];
+               uint32_t copy_bytes = (length > sizeof(*wqe)) ?
+                                     sizeof(*wqe) :
+                                     length;
+
+               rte_mov64((uint8_t *)(uintptr_t)&wqe_next->data[0],
+                         (uint8_t *)addr);
+               addr += copy_bytes;
+               length -= copy_bytes;
+               ++wqe_ci;
+       }
+       assert(size < 64);
+       wqe->inl.ctrl.data[0] = htonl((txq->wqe_ci << 8) | MLX5_OPCODE_SEND);
+       wqe->inl.ctrl.data[1] = htonl(txq->qp_num_8s | size);
+       wqe->inl.ctrl.data[3] = 0;
+       wqe->inl.eseg.rsvd0 = 0;
+       wqe->inl.eseg.rsvd1 = 0;
+       wqe->inl.eseg.mss = 0;
+       wqe->inl.eseg.rsvd2 = 0;
+       wqe->inl.eseg.inline_hdr_sz = htons(MLX5_ETH_INLINE_HEADER_SIZE);
+       /* Increment consumer index. */
+       txq->wqe_ci = wqe_ci;
+}
+
+/**
+ * Write a inline WQE with VLAN.
+ *
+ * @param txq
+ *   Pointer to TX queue structure.
+ * @param wqe
+ *   Pointer to the WQE to fill.
+ * @param addr
+ *   Buffer data address.
+ * @param length
+ *   Packet length.
+ * @param lkey
+ *   Memory region lkey.
+ * @param vlan_tci
+ *   VLAN field to insert in packet.
+ */
+static inline void
+mlx5_wqe_write_inline_vlan(struct txq *txq, volatile union mlx5_wqe *wqe,
+                          uintptr_t addr, uint32_t length, uint16_t vlan_tci)
+{
+       uint32_t size;
+       uint32_t wqe_cnt = txq->wqe_n - 1;
+       uint16_t wqe_ci = txq->wqe_ci + 1;
+       uint32_t vlan = htonl(0x81000000 | vlan_tci);
+
+       /*
+        * Copy 12 bytes of source & destination MAC address.
+        * Copy 4 bytes of VLAN.
+        * Copy 2 bytes of Ether type.
+        */
+       rte_memcpy((uint8_t *)(uintptr_t)wqe->inl.eseg.inline_hdr_start,
+                  (uint8_t *)addr, 12);
+       rte_memcpy((uint8_t *)(uintptr_t)wqe->inl.eseg.inline_hdr_start + 12,
+                  &vlan, sizeof(vlan));
+       rte_memcpy((uint8_t *)(uintptr_t)wqe->inl.eseg.inline_hdr_start + 16,
+                  ((uint8_t *)addr + 12), 2);
+       addr += MLX5_ETH_VLAN_INLINE_HEADER_SIZE - sizeof(vlan);
+       length -= MLX5_ETH_VLAN_INLINE_HEADER_SIZE - sizeof(vlan);
+       size = (sizeof(wqe->inl.ctrl.ctrl) +
+               sizeof(wqe->inl.eseg) +
+               sizeof(wqe->inl.byte_cnt) +
+               length + 15) / 16;
+       wqe->inl.byte_cnt = htonl(length | MLX5_INLINE_SEG);
+       rte_memcpy((void *)(uintptr_t)&wqe->inl.data[0],
+                  (void *)addr, MLX5_WQE64_INL_DATA);
+       addr += MLX5_WQE64_INL_DATA;
+       length -= MLX5_WQE64_INL_DATA;
+       while (length) {
+               volatile union mlx5_wqe *wqe_next =
+                       &(*txq->wqes)[wqe_ci & wqe_cnt];
+               uint32_t copy_bytes = (length > sizeof(*wqe)) ?
+                                     sizeof(*wqe) :
+                                     length;
+
+               rte_mov64((uint8_t *)(uintptr_t)&wqe_next->data[0],
+                         (uint8_t *)addr);
+               addr += copy_bytes;
+               length -= copy_bytes;
+               ++wqe_ci;
+       }
+       assert(size < 64);
+       wqe->inl.ctrl.data[0] = htonl((txq->wqe_ci << 8) | MLX5_OPCODE_SEND);
+       wqe->inl.ctrl.data[1] = htonl(txq->qp_num_8s | size);
+       wqe->inl.ctrl.data[3] = 0;
+       wqe->inl.eseg.rsvd0 = 0;
+       wqe->inl.eseg.rsvd1 = 0;
+       wqe->inl.eseg.mss = 0;
+       wqe->inl.eseg.rsvd2 = 0;
+       wqe->inl.eseg.inline_hdr_sz = htons(MLX5_ETH_VLAN_INLINE_HEADER_SIZE);
+       /* Increment consumer index. */
+       txq->wqe_ci = wqe_ci;
+}
+
 /**
  * Ring TX queue doorbell.
  *
@@ -416,6 +549,23 @@ tx_prefetch_cqe(struct txq *txq, uint16_t ci)
        rte_prefetch0(cqe);
 }
 
+/**
+ * Prefetch a WQE.
+ *
+ * @param txq
+ *   Pointer to TX queue structure.
+ * @param  wqe_ci
+ *   WQE consumer index.
+ */
+static inline void
+tx_prefetch_wqe(struct txq *txq, uint16_t ci)
+{
+       volatile union mlx5_wqe *wqe;
+
+       wqe = &(*txq->wqes)[ci & (txq->wqe_n - 1)];
+       rte_prefetch0(wqe);
+}
+
 /**
  * DPDK callback for TX.
  *
@@ -528,6 +678,129 @@ mlx5_tx_burst(void *dpdk_txq, struct rte_mbuf **pkts, uint16_t pkts_n)
        return i;
 }
 
+/**
+ * DPDK callback for TX with inline support.
+ *
+ * @param dpdk_txq
+ *   Generic pointer to TX queue structure.
+ * @param[in] pkts
+ *   Packets to transmit.
+ * @param pkts_n
+ *   Number of packets in array.
+ *
+ * @return
+ *   Number of packets successfully transmitted (<= pkts_n).
+ */
+uint16_t
+mlx5_tx_burst_inline(void *dpdk_txq, struct rte_mbuf **pkts, uint16_t pkts_n)
+{
+       struct txq *txq = (struct txq *)dpdk_txq;
+       uint16_t elts_head = txq->elts_head;
+       const unsigned int elts_n = txq->elts_n;
+       unsigned int i;
+       unsigned int max;
+       unsigned int comp;
+       volatile union mlx5_wqe *wqe;
+       struct rte_mbuf *buf;
+       unsigned int max_inline = txq->max_inline;
+
+       if (unlikely(!pkts_n))
+               return 0;
+       buf = pkts[0];
+       /* Prefetch first packet cacheline. */
+       tx_prefetch_cqe(txq, txq->cq_ci);
+       tx_prefetch_cqe(txq, txq->cq_ci + 1);
+       rte_prefetch0(buf);
+       /* Start processing. */
+       txq_complete(txq);
+       max = (elts_n - (elts_head - txq->elts_tail));
+       if (max > elts_n)
+               max -= elts_n;
+       assert(max >= 1);
+       assert(max <= elts_n);
+       /* Always leave one free entry in the ring. */
+       --max;
+       if (max == 0)
+               return 0;
+       if (max > pkts_n)
+               max = pkts_n;
+       for (i = 0; (i != max); ++i) {
+               unsigned int elts_head_next = (elts_head + 1) & (elts_n - 1);
+               uintptr_t addr;
+               uint32_t length;
+               uint32_t lkey;
+
+               wqe = &(*txq->wqes)[txq->wqe_ci & (txq->wqe_n - 1)];
+               tx_prefetch_wqe(txq, txq->wqe_ci);
+               tx_prefetch_wqe(txq, txq->wqe_ci + 1);
+               if (i + 1 < max)
+                       rte_prefetch0(pkts[i + 1]);
+               /* Should we enable HW CKSUM offload */
+               if (buf->ol_flags &
+                   (PKT_TX_IP_CKSUM | PKT_TX_TCP_CKSUM | PKT_TX_UDP_CKSUM)) {
+                       wqe->inl.eseg.cs_flags =
+                               MLX5_ETH_WQE_L3_CSUM |
+                               MLX5_ETH_WQE_L4_CSUM;
+               } else {
+                       wqe->inl.eseg.cs_flags = 0;
+               }
+               /* Retrieve buffer information. */
+               addr = rte_pktmbuf_mtod(buf, uintptr_t);
+               length = DATA_LEN(buf);
+               /* Update element. */
+               (*txq->elts)[elts_head] = buf;
+               /* Prefetch next buffer data. */
+               if (i + 1 < max)
+                       rte_prefetch0(rte_pktmbuf_mtod(pkts[i + 1],
+                                                      volatile void *));
+               if (length <= max_inline) {
+                       if (buf->ol_flags & PKT_TX_VLAN_PKT)
+                               mlx5_wqe_write_inline_vlan(txq, wqe,
+                                                          addr, length,
+                                                          buf->vlan_tci);
+                       else
+                               mlx5_wqe_write_inline(txq, wqe, addr, length);
+               } else {
+                       /* Retrieve Memory Region key for this memory pool. */
+                       lkey = txq_mp2mr(txq, txq_mb2mp(buf));
+                       if (buf->ol_flags & PKT_TX_VLAN_PKT)
+                               mlx5_wqe_write_vlan(txq, wqe, addr, length,
+                                                   lkey, buf->vlan_tci);
+                       else
+                               mlx5_wqe_write(txq, wqe, addr, length, lkey);
+               }
+               wqe->inl.ctrl.data[2] = 0;
+               elts_head = elts_head_next;
+               buf = pkts[i + 1];
+#ifdef MLX5_PMD_SOFT_COUNTERS
+               /* Increment sent bytes counter. */
+               txq->stats.obytes += length;
+#endif
+       }
+       /* Take a shortcut if nothing must be sent. */
+       if (unlikely(i == 0))
+               return 0;
+       /* Check whether completion threshold has been reached. */
+       comp = txq->elts_comp + i;
+       if (comp >= MLX5_TX_COMP_THRESH) {
+               /* Request completion on last WQE. */
+               wqe->inl.ctrl.data[2] = htonl(8);
+               /* Save elts_head in unused "immediate" field of WQE. */
+               wqe->inl.ctrl.data[3] = elts_head;
+               txq->elts_comp = 0;
+       } else {
+               txq->elts_comp = comp;
+       }
+#ifdef MLX5_PMD_SOFT_COUNTERS
+       /* Increment sent packets counter. */
+       txq->stats.opackets += i;
+#endif
+       /* Ring QP doorbell. */
+       mlx5_tx_dbrec(txq);
+       txq->elts_head = elts_head;
+       return i;
+}
+
 /**
  * Translate RX completion flags to packet type.
  *
index f900e657fa1236e05b133844845e90bbcdefbc86..3c8314815f05c12b073ed5737beb3f97b2a5c209 100644 (file)
@@ -246,6 +246,7 @@ struct txq {
        uint16_t wqe_n; /* Number of WQ elements. */
        uint16_t bf_offset; /* Blueflame offset. */
        uint16_t bf_buf_size; /* Blueflame size. */
+       uint16_t max_inline; /* Maximum size to inline in a WQE. */
        uint32_t qp_num_8s; /* QP number shifted by 8. */
        volatile struct mlx5_cqe (*cqes)[]; /* Completion queue. */
        volatile union mlx5_wqe (*wqes)[]; /* Work queue. */
@@ -310,6 +311,7 @@ uint16_t mlx5_tx_burst_secondary_setup(void *, struct rte_mbuf **, uint16_t);
 /* mlx5_rxtx.c */
 
 uint16_t mlx5_tx_burst(void *, struct rte_mbuf **, uint16_t);
+uint16_t mlx5_tx_burst_inline(void *, struct rte_mbuf **, uint16_t);
 uint16_t mlx5_rx_burst(void *, struct rte_mbuf **, uint16_t);
 uint16_t removed_tx_burst(void *, struct rte_mbuf **, uint16_t);
 uint16_t removed_rx_burst(void *, struct rte_mbuf **, uint16_t);
index 7b2dc7c8e00beb284dc1f8aad56b757218b315b9..6a4a96e6c1be97a428d0bd951b22e0e523bdf796 100644 (file)
@@ -332,6 +332,10 @@ txq_ctrl_setup(struct rte_eth_dev *dev, struct txq_ctrl *txq_ctrl,
                .comp_mask = (IBV_EXP_QP_INIT_ATTR_PD |
                              IBV_EXP_QP_INIT_ATTR_RES_DOMAIN),
        };
+       if (priv->txq_inline && priv->txqs_n >= priv->txqs_inline) {
+               tmpl.txq.max_inline = priv->txq_inline;
+               attr.init.cap.max_inline_data = tmpl.txq.max_inline;
+       }
        tmpl.qp = ibv_exp_create_qp(priv->ctx, &attr.init);
        if (tmpl.qp == NULL) {
                ret = (errno ? errno : EINVAL);