net/mlx5: separate DPDK from verbs Tx queue objects
[dpdk.git] / drivers / net / mlx5 / mlx5_rxtx.h
index 033e70f..30ad363 100644 (file)
@@ -36,6 +36,7 @@
 
 #include <stddef.h>
 #include <stdint.h>
+#include <sys/queue.h>
 
 /* Verbs header. */
 /* ISO C doesn't support unnamed structs/unions, disabling -pedantic. */
@@ -43,7 +44,7 @@
 #pragma GCC diagnostic ignored "-Wpedantic"
 #endif
 #include <infiniband/verbs.h>
-#include <infiniband/mlx5_hw.h>
+#include <infiniband/mlx5dv.h>
 #ifdef PEDANTIC
 #pragma GCC diagnostic error "-Wpedantic"
 #endif
@@ -52,6 +53,7 @@
 #include <rte_mempool.h>
 #include <rte_common.h>
 #include <rte_hexdump.h>
+#include <rte_atomic.h>
 
 #include "mlx5_utils.h"
 #include "mlx5.h"
@@ -75,19 +77,22 @@ struct mlx5_txq_stats {
        uint64_t opackets; /**< Total of successfully sent packets. */
        uint64_t obytes; /**< Total of successfully sent bytes. */
 #endif
-       uint64_t odropped; /**< Total of packets not sent when TX ring full. */
-};
-
-/* Flow director queue structure. */
-struct fdir_queue {
-       struct ibv_qp *qp; /* Associated RX QP. */
-       struct ibv_exp_rwq_ind_table *ind_table; /* Indirection table. */
-       struct ibv_exp_wq *wq; /* Work queue. */
-       struct ibv_cq *cq; /* Completion queue. */
+       uint64_t oerrors; /**< Total number of failed transmitted packets. */
 };
 
 struct priv;
 
+/* Memory region queue object. */
+struct mlx5_mr {
+       LIST_ENTRY(mlx5_mr) next; /**< Pointer to the next element. */
+       rte_atomic32_t refcnt; /*<< Reference counter. */
+       uint32_t lkey; /*<< rte_cpu_to_be_32(mr->lkey) */
+       uintptr_t start; /* Start address of MR */
+       uintptr_t end; /* End address of MR */
+       struct ibv_mr *mr; /*<< Memory Region. */
+       struct rte_mempool *mp; /*<< Memory Pool. */
+};
+
 /* Compressed CQE context. */
 struct rxq_zip {
        uint16_t ai; /* Array index. */
@@ -98,7 +103,7 @@ struct rxq_zip {
 };
 
 /* RX queue descriptor. */
-struct rxq {
+struct mlx5_rxq_data {
        unsigned int csum:1; /* Enable checksum offloading. */
        unsigned int csum_l2tun:1; /* Same for L2 tunnels. */
        unsigned int vlan_strip:1; /* Enable VLAN stripping. */
@@ -106,13 +111,13 @@ struct rxq {
        unsigned int sges_n:2; /* Log 2 of SGEs (max buffers per packet). */
        unsigned int cqe_n:4; /* Log 2 of CQ elements. */
        unsigned int elts_n:4; /* Log 2 of Mbufs. */
-       unsigned int port_id:8;
        unsigned int rss_hash:1; /* RSS hash result is enabled. */
        unsigned int mark:1; /* Marked flow available on the queue. */
        unsigned int pending_err:1; /* CQE error needs to be handled. */
-       unsigned int :7; /* Remaining bits. */
+       unsigned int :15; /* Remaining bits. */
        volatile uint32_t *rq_db;
        volatile uint32_t *cq_db;
+       uint16_t port_id;
        uint16_t rq_ci;
        uint16_t rq_pi;
        uint16_t cq_ci;
@@ -124,18 +129,29 @@ struct rxq {
        struct mlx5_rxq_stats stats;
        uint64_t mbuf_initializer; /* Default rearm_data for vectorized Rx. */
        struct rte_mbuf fake_mbuf; /* elts padding for vectorized Rx. */
+       void *cq_uar; /* CQ user access region. */
+       uint32_t cqn; /* CQ number. */
+       uint8_t cq_arm_sn; /* CQ arm seq number. */
 } __rte_cache_aligned;
 
-/* RX queue control descriptor. */
-struct rxq_ctrl {
-       struct priv *priv; /* Back pointer to private data. */
+/* Verbs Rx queue elements. */
+struct mlx5_rxq_ibv {
+       LIST_ENTRY(mlx5_rxq_ibv) next; /* Pointer to the next element. */
+       rte_atomic32_t refcnt; /* Reference counter. */
+       struct mlx5_rxq_ctrl *rxq_ctrl; /* Back pointer to parent. */
        struct ibv_cq *cq; /* Completion Queue. */
-       struct ibv_exp_wq *wq; /* Work Queue. */
-       struct fdir_queue *fdir_queue; /* Flow director queue. */
-       struct ibv_mr *mr; /* Memory Region (for mp). */
+       struct ibv_wq *wq; /* Work Queue. */
        struct ibv_comp_channel *channel;
+       struct mlx5_mr *mr; /* Memory Region (for mp). */
+};
+
+/* RX queue control descriptor. */
+struct mlx5_rxq_ctrl {
+       struct priv *priv; /* Back pointer to private data. */
+       struct mlx5_rxq_ibv *ibv; /* Verbs elements. */
+       struct mlx5_rxq_data rxq; /* Data path structure. */
        unsigned int socket; /* CPU socket ID for allocations. */
-       struct rxq rxq; /* Data path structure. */
+       unsigned int irq:1; /* Whether IRQ is enabled. */
 };
 
 /* Hash RX queue types. */
@@ -152,8 +168,8 @@ enum hash_rxq_type {
 /* Flow structure with Ethernet specification. It is packed to prevent padding
  * between attr and spec as this layout is expected by libibverbs. */
 struct flow_attr_spec_eth {
-       struct ibv_exp_flow_attr attr;
-       struct ibv_exp_flow_spec_eth spec;
+       struct ibv_flow_attr attr;
+       struct ibv_flow_spec_eth spec;
 } __attribute__((packed));
 
 /* Define a struct flow_attr_spec_eth object as an array of at least
@@ -171,13 +187,13 @@ struct hash_rxq_init {
        unsigned int flow_priority; /* Flow priority to use. */
        union {
                struct {
-                       enum ibv_exp_flow_spec_type type;
+                       enum ibv_flow_spec_type type;
                        uint16_t size;
                } hdr;
-               struct ibv_exp_flow_spec_tcp_udp tcp_udp;
-               struct ibv_exp_flow_spec_ipv4 ipv4;
-               struct ibv_exp_flow_spec_ipv6 ipv6;
-               struct ibv_exp_flow_spec_eth eth;
+               struct ibv_flow_spec_tcp_udp tcp_udp;
+               struct ibv_flow_spec_ipv4 ipv4;
+               struct ibv_flow_spec_ipv6 ipv6;
+               struct ibv_flow_spec_eth eth;
        } flow_spec; /* Flow specification template. */
        const struct hash_rxq_init *underlayer; /* Pointer to underlayer. */
 };
@@ -231,15 +247,15 @@ struct hash_rxq {
        struct ibv_qp *qp; /* Hash RX QP. */
        enum hash_rxq_type type; /* Hash RX queue type. */
        /* MAC flow steering rules, one per VLAN ID. */
-       struct ibv_exp_flow *mac_flow
+       struct ibv_flow *mac_flow
                [MLX5_MAX_MAC_ADDRESSES][MLX5_MAX_VLAN_IDS];
-       struct ibv_exp_flow *special_flow
+       struct ibv_flow *special_flow
                [MLX5_MAX_SPECIAL_FLOWS][MLX5_MAX_VLAN_IDS];
 };
 
 /* TX queue descriptor. */
 __extension__
-struct txq {
+struct mlx5_txq_data {
        uint16_t elts_head; /* Current counter in (*elts)[]. */
        uint16_t elts_tail; /* Counter of first element awaiting completion. */
        uint16_t elts_comp; /* Counter since last completion request. */
@@ -258,6 +274,7 @@ struct txq {
        uint16_t mpw_hdr_dseg:1; /* Enable DSEGs in the title WQEBB. */
        uint16_t max_inline; /* Multiple of RTE_CACHE_LINE_SIZE to inline. */
        uint16_t inline_max_packet_sz; /* Max packet size for inlining. */
+       uint16_t mr_cache_idx; /* Index of last hit entry. */
        uint32_t qp_num_8s; /* QP number shifted by 8. */
        uint32_t flags; /* Flags for Tx Queue. */
        volatile struct mlx5_cqe (*cqes)[]; /* Completion queue. */
@@ -265,24 +282,28 @@ struct txq {
        volatile uint32_t *qp_db; /* Work queue doorbell. */
        volatile uint32_t *cq_db; /* Completion queue doorbell. */
        volatile void *bf_reg; /* Blueflame register. */
-       struct {
-               uintptr_t start; /* Start address of MR */
-               uintptr_t end; /* End address of MR */
-               struct ibv_mr *mr; /* Memory Region (for mp). */
-               uint32_t lkey; /* htonl(mr->lkey) */
-       } mp2mr[MLX5_PMD_TX_MP_CACHE]; /* MP to MR translation table. */
-       uint16_t mr_cache_idx; /* Index of last hit entry. */
+       struct mlx5_mr *mp2mr[MLX5_PMD_TX_MP_CACHE]; /* MR translation table. */
        struct rte_mbuf *(*elts)[]; /* TX elements. */
        struct mlx5_txq_stats stats; /* TX queue counters. */
 } __rte_cache_aligned;
 
-/* TX queue control descriptor. */
-struct txq_ctrl {
-       struct priv *priv; /* Back pointer to private data. */
+/* Verbs Rx queue elements. */
+struct mlx5_txq_ibv {
+       LIST_ENTRY(mlx5_txq_ibv) next; /* Pointer to the next element. */
+       rte_atomic32_t refcnt; /* Reference counter. */
        struct ibv_cq *cq; /* Completion Queue. */
        struct ibv_qp *qp; /* Queue Pair. */
+};
+
+/* TX queue control descriptor. */
+struct mlx5_txq_ctrl {
+       struct priv *priv; /* Back pointer to private data. */
        unsigned int socket; /* CPU socket ID for allocations. */
-       struct txq txq; /* Data path structure. */
+       unsigned int max_inline_data; /* Max inline data. */
+       unsigned int max_tso_header; /* Max TSO header size. */
+       struct mlx5_txq_ibv *ibv; /* Verbs queue object. */
+       struct mlx5_txq_data txq; /* Data path structure. */
+       off_t uar_mmap_offset; /* UAR mmap offset for non-primary process. */
 };
 
 /* mlx5_rxq.c */
@@ -293,31 +314,40 @@ extern const unsigned int hash_rxq_init_n;
 extern uint8_t rss_hash_default_key[];
 extern const size_t rss_hash_default_key_len;
 
-size_t priv_flow_attr(struct priv *, struct ibv_exp_flow_attr *,
+size_t priv_flow_attr(struct priv *, struct ibv_flow_attr *,
                      size_t, enum hash_rxq_type);
 int priv_create_hash_rxqs(struct priv *);
 void priv_destroy_hash_rxqs(struct priv *);
 int priv_allow_flow_type(struct priv *, enum hash_rxq_flow_type);
 int priv_rehash_flows(struct priv *);
-void rxq_cleanup(struct rxq_ctrl *);
+void mlx5_rxq_cleanup(struct mlx5_rxq_ctrl *);
 int mlx5_rx_queue_setup(struct rte_eth_dev *, uint16_t, uint16_t, unsigned int,
                        const struct rte_eth_rxconf *, struct rte_mempool *);
 void mlx5_rx_queue_release(void *);
 int priv_rx_intr_vec_enable(struct priv *priv);
 void priv_rx_intr_vec_disable(struct priv *priv);
-#ifdef HAVE_UPDATE_CQ_CI
 int mlx5_rx_intr_enable(struct rte_eth_dev *dev, uint16_t rx_queue_id);
 int mlx5_rx_intr_disable(struct rte_eth_dev *dev, uint16_t rx_queue_id);
-#endif /* HAVE_UPDATE_CQ_CI */
+struct mlx5_rxq_ibv *mlx5_priv_rxq_ibv_new(struct priv *, uint16_t);
+struct mlx5_rxq_ibv *mlx5_priv_rxq_ibv_get(struct priv *, uint16_t);
+int mlx5_priv_rxq_ibv_release(struct priv *, struct mlx5_rxq_ibv *);
+int mlx5_priv_rxq_ibv_releasable(struct priv *, struct mlx5_rxq_ibv *);
+int mlx5_priv_rxq_ibv_verify(struct priv *);
 
 /* mlx5_txq.c */
 
-void txq_cleanup(struct txq_ctrl *);
-int txq_ctrl_setup(struct rte_eth_dev *, struct txq_ctrl *, uint16_t,
-                  unsigned int, const struct rte_eth_txconf *);
+void mlx5_txq_cleanup(struct mlx5_txq_ctrl *);
+int mlx5_txq_ctrl_setup(struct rte_eth_dev *, struct mlx5_txq_ctrl *, uint16_t,
+                       unsigned int, const struct rte_eth_txconf *);
 int mlx5_tx_queue_setup(struct rte_eth_dev *, uint16_t, uint16_t, unsigned int,
                        const struct rte_eth_txconf *);
 void mlx5_tx_queue_release(void *);
+int priv_tx_uar_remap(struct priv *priv, int fd);
+struct mlx5_txq_ibv *mlx5_priv_txq_ibv_new(struct priv *, uint16_t);
+struct mlx5_txq_ibv *mlx5_priv_txq_ibv_get(struct priv *, uint16_t);
+int mlx5_priv_txq_ibv_release(struct priv *, struct mlx5_txq_ibv *);
+int mlx5_priv_txq_ibv_releasable(struct priv *, struct mlx5_txq_ibv *);
+int mlx5_priv_txq_ibv_verify(struct priv *);
 
 /* mlx5_rxtx.c */
 
@@ -337,7 +367,7 @@ int mlx5_tx_descriptor_status(void *, uint16_t);
 /* Vectorized version of mlx5_rxtx.c */
 int priv_check_raw_vec_tx_support(struct priv *);
 int priv_check_vec_tx_support(struct priv *);
-int rxq_check_vec_support(struct rxq *);
+int rxq_check_vec_support(struct mlx5_rxq_data *);
 int priv_check_vec_rx_support(struct priv *);
 uint16_t mlx5_tx_burst_raw_vec(void *, struct rte_mbuf **, uint16_t);
 uint16_t mlx5_tx_burst_vec(void *, struct rte_mbuf **, uint16_t);
@@ -345,9 +375,9 @@ uint16_t mlx5_rx_burst_vec(void *, struct rte_mbuf **, uint16_t);
 
 /* mlx5_mr.c */
 
-struct ibv_mr *mlx5_mp2mr(struct ibv_pd *, struct rte_mempool *);
-void txq_mp2mr_iter(struct rte_mempool *, void *);
-uint32_t txq_mp2mr_reg(struct txq *, struct rte_mempool *, unsigned int);
+void mlx5_txq_mp2mr_iter(struct rte_mempool *, void *);
+struct mlx5_mr *mlx5_txq_mp2mr_reg(struct mlx5_txq_data *, struct rte_mempool *,
+                                  unsigned int);
 
 #ifndef NDEBUG
 /**
@@ -445,7 +475,7 @@ check_cqe(volatile struct mlx5_cqe *cqe,
  *   WQE address.
  */
 static inline uintptr_t *
-tx_mlx5_wqe(struct txq *txq, uint16_t ci)
+tx_mlx5_wqe(struct mlx5_txq_data *txq, uint16_t ci)
 {
        ci &= ((1 << txq->wqe_n) - 1);
        return (uintptr_t *)((uintptr_t)txq->wqes + ci * MLX5_WQE_SIZE);
@@ -460,7 +490,7 @@ tx_mlx5_wqe(struct txq *txq, uint16_t ci)
  *   Pointer to TX queue structure.
  */
 static __rte_always_inline void
-mlx5_tx_complete(struct txq *txq)
+mlx5_tx_complete(struct mlx5_txq_data *txq)
 {
        const uint16_t elts_n = 1 << txq->elts_n;
        const uint16_t elts_m = elts_n - 1;
@@ -492,7 +522,7 @@ mlx5_tx_complete(struct txq *txq)
        }
 #endif /* NDEBUG */
        ++cq_ci;
-       txq->wqe_pi = ntohs(cqe->wqe_counter);
+       txq->wqe_pi = rte_be_to_cpu_16(cqe->wqe_counter);
        ctrl = (volatile struct mlx5_wqe_ctrl *)
                tx_mlx5_wqe(txq, txq->wqe_pi);
        elts_tail = ctrl->ctrl3;
@@ -530,7 +560,7 @@ mlx5_tx_complete(struct txq *txq)
        txq->elts_tail = elts_tail;
        /* Update the consumer index. */
        rte_wmb();
-       *txq->cq_db = htonl(cq_ci);
+       *txq->cq_db = rte_cpu_to_be_32(cq_ci);
 }
 
 /**
@@ -565,30 +595,40 @@ mlx5_tx_mb2mp(struct rte_mbuf *buf)
  *   mr->lkey on success, (uint32_t)-1 on failure.
  */
 static __rte_always_inline uint32_t
-mlx5_tx_mb2mr(struct txq *txq, struct rte_mbuf *mb)
+mlx5_tx_mb2mr(struct mlx5_txq_data *txq, struct rte_mbuf *mb)
 {
        uint16_t i = txq->mr_cache_idx;
        uintptr_t addr = rte_pktmbuf_mtod(mb, uintptr_t);
+       struct mlx5_mr *mr;
 
        assert(i < RTE_DIM(txq->mp2mr));
-       if (likely(txq->mp2mr[i].start <= addr && txq->mp2mr[i].end >= addr))
-               return txq->mp2mr[i].lkey;
+       if (likely(txq->mp2mr[i]->start <= addr && txq->mp2mr[i]->end >= addr))
+               return txq->mp2mr[i]->lkey;
        for (i = 0; (i != RTE_DIM(txq->mp2mr)); ++i) {
-               if (unlikely(txq->mp2mr[i].mr == NULL)) {
+               if (unlikely(txq->mp2mr[i]->mr == NULL)) {
                        /* Unknown MP, add a new MR for it. */
                        break;
                }
-               if (txq->mp2mr[i].start <= addr &&
-                   txq->mp2mr[i].end >= addr) {
-                       assert(txq->mp2mr[i].lkey != (uint32_t)-1);
-                       assert(htonl(txq->mp2mr[i].mr->lkey) ==
-                              txq->mp2mr[i].lkey);
+               if (txq->mp2mr[i]->start <= addr &&
+                   txq->mp2mr[i]->end >= addr) {
+                       assert(txq->mp2mr[i]->lkey != (uint32_t)-1);
+                       assert(rte_cpu_to_be_32(txq->mp2mr[i]->mr->lkey) ==
+                              txq->mp2mr[i]->lkey);
                        txq->mr_cache_idx = i;
-                       return txq->mp2mr[i].lkey;
+                       return txq->mp2mr[i]->lkey;
                }
        }
        txq->mr_cache_idx = 0;
-       return txq_mp2mr_reg(txq, mlx5_tx_mb2mp(mb), i);
+       mr = mlx5_txq_mp2mr_reg(txq, mlx5_tx_mb2mp(mb), i);
+       /*
+        * Request the reference to use in this queue, the original one is
+        * kept by the control plane.
+        */
+       if (mr) {
+               rte_atomic32_inc(&mr->refcnt);
+               return mr->lkey;
+       }
+       return (uint32_t)-1;
 }
 
 /**
@@ -600,13 +640,13 @@ mlx5_tx_mb2mr(struct txq *txq, struct rte_mbuf *mb)
  *   Pointer to the last WQE posted in the NIC.
  */
 static __rte_always_inline void
-mlx5_tx_dbrec(struct txq *txq, volatile struct mlx5_wqe *wqe)
+mlx5_tx_dbrec(struct mlx5_txq_data *txq, volatile struct mlx5_wqe *wqe)
 {
        uint64_t *dst = (uint64_t *)((uintptr_t)txq->bf_reg);
        volatile uint64_t *src = ((volatile uint64_t *)wqe);
 
        rte_io_wmb();
-       *txq->qp_db = htonl(txq->wqe_ci);
+       *txq->qp_db = rte_cpu_to_be_32(txq->wqe_ci);
        /* Ensure ordering between DB record and BF copy. */
        rte_wmb();
        *dst = *src;