ring: guarantee load/load order in enqueue and dequeue
[dpdk.git] / lib / librte_ring / rte_ring.h
index 439698b..e924438 100644 (file)
@@ -101,6 +101,7 @@ extern "C" {
 #include <rte_atomic.h>
 #include <rte_branch_prediction.h>
 #include <rte_memzone.h>
+#include <rte_pause.h>
 
 #define RTE_TAILQ_RING_NAME "RTE_RING"
 
@@ -147,27 +148,39 @@ struct rte_ring {
         * compatibility requirements, it could be changed to RTE_RING_NAMESIZE
         * next time the ABI changes
         */
-       char name[RTE_MEMZONE_NAMESIZE];    /**< Name of the ring. */
+       char name[RTE_MEMZONE_NAMESIZE] __rte_cache_aligned; /**< Name of the ring. */
        int flags;               /**< Flags supplied at creation. */
        const struct rte_memzone *memzone;
                        /**< Memzone, if any, containing the rte_ring */
        uint32_t size;           /**< Size of ring. */
        uint32_t mask;           /**< Mask (size-1) of ring. */
+       uint32_t capacity;       /**< Usable size of ring */
 
        /** Ring producer status. */
        struct rte_ring_headtail prod __rte_aligned(PROD_ALIGN);
 
        /** Ring consumer status. */
        struct rte_ring_headtail cons __rte_aligned(CONS_ALIGN);
-
-       void *ring[] __rte_cache_aligned;   /**< Memory space of ring starts here.
-                                            * not volatile so need to be careful
-                                            * about compiler re-ordering */
 };
 
 #define RING_F_SP_ENQ 0x0001 /**< The default enqueue is "single-producer". */
 #define RING_F_SC_DEQ 0x0002 /**< The default dequeue is "single-consumer". */
-#define RTE_RING_SZ_MASK  (unsigned)(0x0fffffff) /**< Ring size mask */
+/**
+ * Ring is to hold exactly requested number of entries.
+ * Without this flag set, the ring size requested must be a power of 2, and the
+ * usable space will be that size - 1. With the flag, the requested size will
+ * be rounded up to the next power of two, but the usable space will be exactly
+ * that requested. Worst case, if a power-of-2 size is requested, half the
+ * ring space will be wasted.
+ */
+#define RING_F_EXACT_SZ 0x0004
+#define RTE_RING_SZ_MASK  (0x7fffffffU) /**< Ring size mask */
+
+/* @internal defines for passing to the enqueue dequeue worker functions */
+#define __IS_SP 1
+#define __IS_MP 0
+#define __IS_SC 1
+#define __IS_MC 0
 
 /**
  * Calculate the memory size needed for a ring
@@ -284,134 +297,155 @@ void rte_ring_dump(FILE *f, const struct rte_ring *r);
 /* the actual enqueue of pointers on the ring.
  * Placed here since identical code needed in both
  * single and multi producer enqueue functions */
-#define ENQUEUE_PTRS() do { \
-       const uint32_t size = r->size; \
-       uint32_t idx = prod_head & mask; \
+#define ENQUEUE_PTRS(r, ring_start, prod_head, obj_table, n, obj_type) do { \
+       unsigned int i; \
+       const uint32_t size = (r)->size; \
+       uint32_t idx = prod_head & (r)->mask; \
+       obj_type *ring = (obj_type *)ring_start; \
        if (likely(idx + n < size)) { \
                for (i = 0; i < (n & ((~(unsigned)0x3))); i+=4, idx+=4) { \
-                       r->ring[idx] = obj_table[i]; \
-                       r->ring[idx+1] = obj_table[i+1]; \
-                       r->ring[idx+2] = obj_table[i+2]; \
-                       r->ring[idx+3] = obj_table[i+3]; \
+                       ring[idx] = obj_table[i]; \
+                       ring[idx+1] = obj_table[i+1]; \
+                       ring[idx+2] = obj_table[i+2]; \
+                       ring[idx+3] = obj_table[i+3]; \
                } \
                switch (n & 0x3) { \
-                       case 3: r->ring[idx++] = obj_table[i++]; \
-                       case 2: r->ring[idx++] = obj_table[i++]; \
-                       case 1: r->ring[idx++] = obj_table[i++]; \
+               case 3: \
+                       ring[idx++] = obj_table[i++]; /* fallthrough */ \
+               case 2: \
+                       ring[idx++] = obj_table[i++]; /* fallthrough */ \
+               case 1: \
+                       ring[idx++] = obj_table[i++]; \
                } \
        } else { \
                for (i = 0; idx < size; i++, idx++)\
-                       r->ring[idx] = obj_table[i]; \
+                       ring[idx] = obj_table[i]; \
                for (idx = 0; i < n; i++, idx++) \
-                       r->ring[idx] = obj_table[i]; \
+                       ring[idx] = obj_table[i]; \
        } \
-} while(0)
+} while (0)
 
 /* the actual copy of pointers on the ring to obj_table.
  * Placed here since identical code needed in both
  * single and multi consumer dequeue functions */
-#define DEQUEUE_PTRS() do { \
-       uint32_t idx = cons_head & mask; \
-       const uint32_t size = r->size; \
+#define DEQUEUE_PTRS(r, ring_start, cons_head, obj_table, n, obj_type) do { \
+       unsigned int i; \
+       uint32_t idx = cons_head & (r)->mask; \
+       const uint32_t size = (r)->size; \
+       obj_type *ring = (obj_type *)ring_start; \
        if (likely(idx + n < size)) { \
                for (i = 0; i < (n & (~(unsigned)0x3)); i+=4, idx+=4) {\
-                       obj_table[i] = r->ring[idx]; \
-                       obj_table[i+1] = r->ring[idx+1]; \
-                       obj_table[i+2] = r->ring[idx+2]; \
-                       obj_table[i+3] = r->ring[idx+3]; \
+                       obj_table[i] = ring[idx]; \
+                       obj_table[i+1] = ring[idx+1]; \
+                       obj_table[i+2] = ring[idx+2]; \
+                       obj_table[i+3] = ring[idx+3]; \
                } \
                switch (n & 0x3) { \
-                       case 3: obj_table[i++] = r->ring[idx++]; \
-                       case 2: obj_table[i++] = r->ring[idx++]; \
-                       case 1: obj_table[i++] = r->ring[idx++]; \
+               case 3: \
+                       obj_table[i++] = ring[idx++]; /* fallthrough */ \
+               case 2: \
+                       obj_table[i++] = ring[idx++]; /* fallthrough */ \
+               case 1: \
+                       obj_table[i++] = ring[idx++]; \
                } \
        } else { \
                for (i = 0; idx < size; i++, idx++) \
-                       obj_table[i] = r->ring[idx]; \
+                       obj_table[i] = ring[idx]; \
                for (idx = 0; i < n; i++, idx++) \
-                       obj_table[i] = r->ring[idx]; \
+                       obj_table[i] = ring[idx]; \
        } \
 } while (0)
 
+static __rte_always_inline void
+update_tail(struct rte_ring_headtail *ht, uint32_t old_val, uint32_t new_val,
+               uint32_t single)
+{
+       /*
+        * If there are other enqueues/dequeues in progress that preceded us,
+        * we need to wait for them to complete
+        */
+       if (!single)
+               while (unlikely(ht->tail != old_val))
+                       rte_pause();
+
+       ht->tail = new_val;
+}
+
 /**
- * @internal Enqueue several objects on the ring (multi-producers safe).
- *
- * This function uses a "compare and set" instruction to move the
- * producer index atomically.
+ * @internal This function updates the producer head for enqueue
  *
  * @param r
- *   A pointer to the ring structure.
- * @param obj_table
- *   A pointer to a table of void * pointers (objects).
+ *   A pointer to the ring structure
+ * @param is_sp
+ *   Indicates whether multi-producer path is needed or not
  * @param n
- *   The number of objects to add in the ring from the obj_table.
+ *   The number of elements we will want to enqueue, i.e. how far should the
+ *   head be moved
  * @param behavior
  *   RTE_RING_QUEUE_FIXED:    Enqueue a fixed number of items from a ring
- *   RTE_RING_QUEUE_VARIABLE: Enqueue as many items a possible from ring
+ *   RTE_RING_QUEUE_VARIABLE: Enqueue as many items as possible from ring
+ * @param old_head
+ *   Returns head value as it was before the move, i.e. where enqueue starts
+ * @param new_head
+ *   Returns the current/new head value i.e. where enqueue finishes
+ * @param free_entries
+ *   Returns the amount of free space in the ring BEFORE head was moved
  * @return
  *   Actual number of objects enqueued.
  *   If behavior == RTE_RING_QUEUE_FIXED, this will be 0 or n only.
  */
-static inline unsigned int __attribute__((always_inline))
-__rte_ring_mp_do_enqueue(struct rte_ring *r, void * const *obj_table,
-                        unsigned int n, enum rte_ring_queue_behavior behavior,
-                        unsigned int *free_space)
+static __rte_always_inline unsigned int
+__rte_ring_move_prod_head(struct rte_ring *r, int is_sp,
+               unsigned int n, enum rte_ring_queue_behavior behavior,
+               uint32_t *old_head, uint32_t *new_head,
+               uint32_t *free_entries)
 {
-       uint32_t prod_head, prod_next;
-       uint32_t cons_tail, free_entries;
-       const unsigned int max = n;
+       const uint32_t capacity = r->capacity;
+       unsigned int max = n;
        int success;
-       unsigned int i;
-       uint32_t mask = r->mask;
 
-       /* move prod.head atomically */
        do {
                /* Reset n to the initial burst count */
                n = max;
 
-               prod_head = r->prod.head;
-               cons_tail = r->cons.tail;
-               /* The subtraction is done between two unsigned 32bits value
+               *old_head = r->prod.head;
+
+               /* add rmb barrier to avoid load/load reorder in weak
+                * memory model. It is noop on x86
+                */
+               rte_smp_rmb();
+
+               const uint32_t cons_tail = r->cons.tail;
+               /*
+                *  The subtraction is done between two unsigned 32bits value
                 * (the result is always modulo 32 bits even if we have
-                * prod_head > cons_tail). So 'free_entries' is always between 0
-                * and size(ring)-1. */
-               free_entries = (mask + cons_tail - prod_head);
+                * *old_head > cons_tail). So 'free_entries' is always between 0
+                * and capacity (which is < size).
+                */
+               *free_entries = (capacity + cons_tail - *old_head);
 
                /* check that we have enough room in ring */
-               if (unlikely(n > free_entries))
+               if (unlikely(n > *free_entries))
                        n = (behavior == RTE_RING_QUEUE_FIXED) ?
-                                       0 : free_entries;
+                                       0 : *free_entries;
 
                if (n == 0)
-                       goto end;
+                       return 0;
 
-               prod_next = prod_head + n;
-               success = rte_atomic32_cmpset(&r->prod.head, prod_head,
-                                             prod_next);
+               *new_head = *old_head + n;
+               if (is_sp)
+                       r->prod.head = *new_head, success = 1;
+               else
+                       success = rte_atomic32_cmpset(&r->prod.head,
+                                       *old_head, *new_head);
        } while (unlikely(success == 0));
-
-       /* write entries in ring */
-       ENQUEUE_PTRS();
-       rte_smp_wmb();
-
-       /*
-        * If there are other enqueues in progress that preceded us,
-        * we need to wait for them to complete
-        */
-       while (unlikely(r->prod.tail != prod_head))
-               rte_pause();
-
-       r->prod.tail = prod_next;
-end:
-       if (free_space != NULL)
-               *free_space = free_entries - n;
        return n;
 }
 
 /**
- * @internal Enqueue several objects on a ring (NOT multi-producers safe).
+ * @internal Enqueue several objects on the ring
  *
- * @param r
 * @param r
  *   A pointer to the ring structure.
  * @param obj_table
  *   A pointer to a table of void * pointers (objects).
@@ -419,45 +453,32 @@ end:
  *   The number of objects to add in the ring from the obj_table.
  * @param behavior
  *   RTE_RING_QUEUE_FIXED:    Enqueue a fixed number of items from a ring
- *   RTE_RING_QUEUE_VARIABLE: Enqueue as many items a possible from ring
+ *   RTE_RING_QUEUE_VARIABLE: Enqueue as many items as possible from ring
+ * @param is_sp
+ *   Indicates whether to use single producer or multi-producer head update
+ * @param free_space
+ *   returns the amount of space after the enqueue operation has finished
  * @return
  *   Actual number of objects enqueued.
  *   If behavior == RTE_RING_QUEUE_FIXED, this will be 0 or n only.
  */
-static inline unsigned int __attribute__((always_inline))
-__rte_ring_sp_do_enqueue(struct rte_ring *r, void * const *obj_table,
-                        unsigned int n, enum rte_ring_queue_behavior behavior,
-                        unsigned int *free_space)
+static __rte_always_inline unsigned int
+__rte_ring_do_enqueue(struct rte_ring *r, void * const *obj_table,
+                unsigned int n, enum rte_ring_queue_behavior behavior,
+                int is_sp, unsigned int *free_space)
 {
-       uint32_t prod_head, cons_tail;
-       uint32_t prod_next, free_entries;
-       unsigned int i;
-       uint32_t mask = r->mask;
-
-       prod_head = r->prod.head;
-       cons_tail = r->cons.tail;
-       /* The subtraction is done between two unsigned 32bits value
-        * (the result is always modulo 32 bits even if we have
-        * prod_head > cons_tail). So 'free_entries' is always between 0
-        * and size(ring)-1. */
-       free_entries = mask + cons_tail - prod_head;
-
-       /* check that we have enough room in ring */
-       if (unlikely(n > free_entries))
-               n = (behavior == RTE_RING_QUEUE_FIXED) ? 0 : free_entries;
+       uint32_t prod_head, prod_next;
+       uint32_t free_entries;
 
+       n = __rte_ring_move_prod_head(r, is_sp, n, behavior,
+                       &prod_head, &prod_next, &free_entries);
        if (n == 0)
                goto end;
 
-
-       prod_next = prod_head + n;
-       r->prod.head = prod_next;
-
-       /* write entries in ring */
-       ENQUEUE_PTRS();
+       ENQUEUE_PTRS(r, &r[1], prod_head, obj_table, n, void *);
        rte_smp_wmb();
 
-       r->prod.tail = prod_next;
+       update_tail(&r->prod, prod_head, prod_next, is_sp);
 end:
        if (free_space != NULL)
                *free_space = free_entries - n;
@@ -465,141 +486,114 @@ end:
 }
 
 /**
- * @internal Dequeue several objects from a ring (multi-consumers safe). When
- * the request objects are more than the available objects, only dequeue the
- * actual number of objects
- *
- * This function uses a "compare and set" instruction to move the
- * consumer index atomically.
+ * @internal This function updates the consumer head for dequeue
  *
  * @param r
- *   A pointer to the ring structure.
- * @param obj_table
- *   A pointer to a table of void * pointers (objects) that will be filled.
+ *   A pointer to the ring structure
+ * @param is_sc
+ *   Indicates whether multi-consumer path is needed or not
  * @param n
- *   The number of objects to dequeue from the ring to the obj_table.
+ *   The number of elements we will want to enqueue, i.e. how far should the
+ *   head be moved
  * @param behavior
  *   RTE_RING_QUEUE_FIXED:    Dequeue a fixed number of items from a ring
- *   RTE_RING_QUEUE_VARIABLE: Dequeue as many items a possible from ring
+ *   RTE_RING_QUEUE_VARIABLE: Dequeue as many items as possible from ring
+ * @param old_head
+ *   Returns head value as it was before the move, i.e. where dequeue starts
+ * @param new_head
+ *   Returns the current/new head value i.e. where dequeue finishes
+ * @param entries
+ *   Returns the number of entries in the ring BEFORE head was moved
  * @return
  *   - Actual number of objects dequeued.
  *     If behavior == RTE_RING_QUEUE_FIXED, this will be 0 or n only.
  */
-
-static inline unsigned int __attribute__((always_inline))
-__rte_ring_mc_do_dequeue(struct rte_ring *r, void **obj_table,
-                unsigned n, enum rte_ring_queue_behavior behavior)
+static __rte_always_inline unsigned int
+__rte_ring_move_cons_head(struct rte_ring *r, int is_sc,
+               unsigned int n, enum rte_ring_queue_behavior behavior,
+               uint32_t *old_head, uint32_t *new_head,
+               uint32_t *entries)
 {
-       uint32_t cons_head, prod_tail;
-       uint32_t cons_next, entries;
-       const unsigned max = n;
+       unsigned int max = n;
        int success;
-       unsigned int i;
-       uint32_t mask = r->mask;
-
-       /* Avoid the unnecessary cmpset operation below, which is also
-        * potentially harmful when n equals 0. */
-       if (n == 0)
-               return 0;
 
        /* move cons.head atomically */
        do {
                /* Restore n as it may change every loop */
                n = max;
 
-               cons_head = r->cons.head;
-               prod_tail = r->prod.tail;
+               *old_head = r->cons.head;
+
+               /* add rmb barrier to avoid load/load reorder in weak
+                * memory model. It is noop on x86
+                */
+               rte_smp_rmb();
+
+               const uint32_t prod_tail = r->prod.tail;
                /* The subtraction is done between two unsigned 32bits value
                 * (the result is always modulo 32 bits even if we have
                 * cons_head > prod_tail). So 'entries' is always between 0
                 * and size(ring)-1. */
-               entries = (prod_tail - cons_head);
+               *entries = (prod_tail - *old_head);
 
                /* Set the actual entries for dequeue */
-               if (n > entries) {
-                       if (behavior == RTE_RING_QUEUE_FIXED)
-                               return 0;
-                       else {
-                               if (unlikely(entries == 0))
-                                       return 0;
-                               n = entries;
-                       }
-               }
-
-               cons_next = cons_head + n;
-               success = rte_atomic32_cmpset(&r->cons.head, cons_head,
-                                             cons_next);
-       } while (unlikely(success == 0));
+               if (n > *entries)
+                       n = (behavior == RTE_RING_QUEUE_FIXED) ? 0 : *entries;
 
-       /* copy in table */
-       DEQUEUE_PTRS();
-       rte_smp_rmb();
-
-       /*
-        * If there are other dequeues in progress that preceded us,
-        * we need to wait for them to complete
-        */
-       while (unlikely(r->cons.tail != cons_head))
-               rte_pause();
-
-       r->cons.tail = cons_next;
+               if (unlikely(n == 0))
+                       return 0;
 
+               *new_head = *old_head + n;
+               if (is_sc)
+                       r->cons.head = *new_head, success = 1;
+               else
+                       success = rte_atomic32_cmpset(&r->cons.head, *old_head,
+                                       *new_head);
+       } while (unlikely(success == 0));
        return n;
 }
 
 /**
- * @internal Dequeue several objects from a ring (NOT multi-consumers safe).
- * When the request objects are more than the available objects, only dequeue
- * the actual number of objects
+ * @internal Dequeue several objects from the ring
  *
  * @param r
  *   A pointer to the ring structure.
  * @param obj_table
- *   A pointer to a table of void * pointers (objects) that will be filled.
+ *   A pointer to a table of void * pointers (objects).
  * @param n
- *   The number of objects to dequeue from the ring to the obj_table.
+ *   The number of objects to pull from the ring.
  * @param behavior
  *   RTE_RING_QUEUE_FIXED:    Dequeue a fixed number of items from a ring
- *   RTE_RING_QUEUE_VARIABLE: Dequeue as many items a possible from ring
+ *   RTE_RING_QUEUE_VARIABLE: Dequeue as many items as possible from ring
+ * @param is_sc
+ *   Indicates whether to use single consumer or multi-consumer head update
+ * @param available
+ *   returns the number of remaining ring entries after the dequeue has finished
  * @return
  *   - Actual number of objects dequeued.
  *     If behavior == RTE_RING_QUEUE_FIXED, this will be 0 or n only.
  */
-static inline unsigned int __attribute__((always_inline))
-__rte_ring_sc_do_dequeue(struct rte_ring *r, void **obj_table,
-                unsigned n, enum rte_ring_queue_behavior behavior)
+static __rte_always_inline unsigned int
+__rte_ring_do_dequeue(struct rte_ring *r, void **obj_table,
+                unsigned int n, enum rte_ring_queue_behavior behavior,
+                int is_sc, unsigned int *available)
 {
-       uint32_t cons_head, prod_tail;
-       uint32_t cons_next, entries;
-       unsigned int i;
-       uint32_t mask = r->mask;
-
-       cons_head = r->cons.head;
-       prod_tail = r->prod.tail;
-       /* The subtraction is done between two unsigned 32bits value
-        * (the result is always modulo 32 bits even if we have
-        * cons_head > prod_tail). So 'entries' is always between 0
-        * and size(ring)-1. */
-       entries = prod_tail - cons_head;
-
-       if (n > entries) {
-               if (behavior == RTE_RING_QUEUE_FIXED)
-                       return 0;
-               else {
-                       if (unlikely(entries == 0))
-                               return 0;
-                       n = entries;
-               }
-       }
-
-       cons_next = cons_head + n;
-       r->cons.head = cons_next;
-
-       /* copy in table */
-       DEQUEUE_PTRS();
+       uint32_t cons_head, cons_next;
+       uint32_t entries;
+
+       n = __rte_ring_move_cons_head(r, is_sc, n, behavior,
+                       &cons_head, &cons_next, &entries);
+       if (n == 0)
+               goto end;
+
+       DEQUEUE_PTRS(r, &r[1], cons_head, obj_table, n, void *);
        rte_smp_rmb();
 
-       r->cons.tail = cons_next;
+       update_tail(&r->cons, cons_head, cons_next, is_sc);
+
+end:
+       if (available != NULL)
+               *available = entries - n;
        return n;
 }
 
@@ -621,12 +615,12 @@ __rte_ring_sc_do_dequeue(struct rte_ring *r, void **obj_table,
  * @return
  *   The number of objects enqueued, either 0 or n
  */
-static inline unsigned int __attribute__((always_inline))
+static __rte_always_inline unsigned int
 rte_ring_mp_enqueue_bulk(struct rte_ring *r, void * const *obj_table,
                         unsigned int n, unsigned int *free_space)
 {
-       return __rte_ring_mp_do_enqueue(r, obj_table, n, RTE_RING_QUEUE_FIXED,
-                       free_space);
+       return __rte_ring_do_enqueue(r, obj_table, n, RTE_RING_QUEUE_FIXED,
+                       __IS_MP, free_space);
 }
 
 /**
@@ -644,12 +638,12 @@ rte_ring_mp_enqueue_bulk(struct rte_ring *r, void * const *obj_table,
  * @return
  *   The number of objects enqueued, either 0 or n
  */
-static inline unsigned int __attribute__((always_inline))
+static __rte_always_inline unsigned int
 rte_ring_sp_enqueue_bulk(struct rte_ring *r, void * const *obj_table,
                         unsigned int n, unsigned int *free_space)
 {
-       return __rte_ring_sp_do_enqueue(r, obj_table, n, RTE_RING_QUEUE_FIXED,
-                       free_space);
+       return __rte_ring_do_enqueue(r, obj_table, n, RTE_RING_QUEUE_FIXED,
+                       __IS_SP, free_space);
 }
 
 /**
@@ -671,14 +665,12 @@ rte_ring_sp_enqueue_bulk(struct rte_ring *r, void * const *obj_table,
  * @return
  *   The number of objects enqueued, either 0 or n
  */
-static inline unsigned int __attribute__((always_inline))
+static __rte_always_inline unsigned int
 rte_ring_enqueue_bulk(struct rte_ring *r, void * const *obj_table,
                      unsigned int n, unsigned int *free_space)
 {
-       if (r->prod.single)
-               return rte_ring_sp_enqueue_bulk(r, obj_table, n, free_space);
-       else
-               return rte_ring_mp_enqueue_bulk(r, obj_table, n, free_space);
+       return __rte_ring_do_enqueue(r, obj_table, n, RTE_RING_QUEUE_FIXED,
+                       r->prod.single, free_space);
 }
 
 /**
@@ -695,7 +687,7 @@ rte_ring_enqueue_bulk(struct rte_ring *r, void * const *obj_table,
  *   - 0: Success; objects enqueued.
  *   - -ENOBUFS: Not enough room in the ring to enqueue; no object is enqueued.
  */
-static inline int __attribute__((always_inline))
+static __rte_always_inline int
 rte_ring_mp_enqueue(struct rte_ring *r, void *obj)
 {
        return rte_ring_mp_enqueue_bulk(r, &obj, 1, NULL) ? 0 : -ENOBUFS;
@@ -712,7 +704,7 @@ rte_ring_mp_enqueue(struct rte_ring *r, void *obj)
  *   - 0: Success; objects enqueued.
  *   - -ENOBUFS: Not enough room in the ring to enqueue; no object is enqueued.
  */
-static inline int __attribute__((always_inline))
+static __rte_always_inline int
 rte_ring_sp_enqueue(struct rte_ring *r, void *obj)
 {
        return rte_ring_sp_enqueue_bulk(r, &obj, 1, NULL) ? 0 : -ENOBUFS;
@@ -733,7 +725,7 @@ rte_ring_sp_enqueue(struct rte_ring *r, void *obj)
  *   - 0: Success; objects enqueued.
  *   - -ENOBUFS: Not enough room in the ring to enqueue; no object is enqueued.
  */
-static inline int __attribute__((always_inline))
+static __rte_always_inline int
 rte_ring_enqueue(struct rte_ring *r, void *obj)
 {
        return rte_ring_enqueue_bulk(r, &obj, 1, NULL) ? 0 : -ENOBUFS;
@@ -751,13 +743,18 @@ rte_ring_enqueue(struct rte_ring *r, void *obj)
  *   A pointer to a table of void * pointers (objects) that will be filled.
  * @param n
  *   The number of objects to dequeue from the ring to the obj_table.
+ * @param available
+ *   If non-NULL, returns the number of remaining ring entries after the
+ *   dequeue has finished.
  * @return
  *   The number of objects dequeued, either 0 or n
  */
-static inline unsigned int __attribute__((always_inline))
-rte_ring_mc_dequeue_bulk(struct rte_ring *r, void **obj_table, unsigned n)
+static __rte_always_inline unsigned int
+rte_ring_mc_dequeue_bulk(struct rte_ring *r, void **obj_table,
+               unsigned int n, unsigned int *available)
 {
-       return __rte_ring_mc_do_dequeue(r, obj_table, n, RTE_RING_QUEUE_FIXED);
+       return __rte_ring_do_dequeue(r, obj_table, n, RTE_RING_QUEUE_FIXED,
+                       __IS_MC, available);
 }
 
 /**
@@ -770,13 +767,18 @@ rte_ring_mc_dequeue_bulk(struct rte_ring *r, void **obj_table, unsigned n)
  * @param n
  *   The number of objects to dequeue from the ring to the obj_table,
  *   must be strictly positive.
+ * @param available
+ *   If non-NULL, returns the number of remaining ring entries after the
+ *   dequeue has finished.
  * @return
  *   The number of objects dequeued, either 0 or n
  */
-static inline unsigned int __attribute__((always_inline))
-rte_ring_sc_dequeue_bulk(struct rte_ring *r, void **obj_table, unsigned n)
+static __rte_always_inline unsigned int
+rte_ring_sc_dequeue_bulk(struct rte_ring *r, void **obj_table,
+               unsigned int n, unsigned int *available)
 {
-       return __rte_ring_sc_do_dequeue(r, obj_table, n, RTE_RING_QUEUE_FIXED);
+       return __rte_ring_do_dequeue(r, obj_table, n, RTE_RING_QUEUE_FIXED,
+                       __IS_SC, available);
 }
 
 /**
@@ -792,16 +794,18 @@ rte_ring_sc_dequeue_bulk(struct rte_ring *r, void **obj_table, unsigned n)
  *   A pointer to a table of void * pointers (objects) that will be filled.
  * @param n
  *   The number of objects to dequeue from the ring to the obj_table.
+ * @param available
+ *   If non-NULL, returns the number of remaining ring entries after the
+ *   dequeue has finished.
  * @return
  *   The number of objects dequeued, either 0 or n
  */
-static inline unsigned int __attribute__((always_inline))
-rte_ring_dequeue_bulk(struct rte_ring *r, void **obj_table, unsigned n)
+static __rte_always_inline unsigned int
+rte_ring_dequeue_bulk(struct rte_ring *r, void **obj_table, unsigned int n,
+               unsigned int *available)
 {
-       if (r->cons.single)
-               return rte_ring_sc_dequeue_bulk(r, obj_table, n);
-       else
-               return rte_ring_mc_dequeue_bulk(r, obj_table, n);
+       return __rte_ring_do_dequeue(r, obj_table, n, RTE_RING_QUEUE_FIXED,
+                               r->cons.single, available);
 }
 
 /**
@@ -819,10 +823,10 @@ rte_ring_dequeue_bulk(struct rte_ring *r, void **obj_table, unsigned n)
  *   - -ENOENT: Not enough entries in the ring to dequeue; no object is
  *     dequeued.
  */
-static inline int __attribute__((always_inline))
+static __rte_always_inline int
 rte_ring_mc_dequeue(struct rte_ring *r, void **obj_p)
 {
-       return rte_ring_mc_dequeue_bulk(r, obj_p, 1)  ? 0 : -ENOBUFS;
+       return rte_ring_mc_dequeue_bulk(r, obj_p, 1, NULL)  ? 0 : -ENOENT;
 }
 
 /**
@@ -837,10 +841,10 @@ rte_ring_mc_dequeue(struct rte_ring *r, void **obj_p)
  *   - -ENOENT: Not enough entries in the ring to dequeue, no object is
  *     dequeued.
  */
-static inline int __attribute__((always_inline))
+static __rte_always_inline int
 rte_ring_sc_dequeue(struct rte_ring *r, void **obj_p)
 {
-       return rte_ring_sc_dequeue_bulk(r, obj_p, 1) ? 0 : -ENOBUFS;
+       return rte_ring_sc_dequeue_bulk(r, obj_p, 1, NULL) ? 0 : -ENOENT;
 }
 
 /**
@@ -859,76 +863,71 @@ rte_ring_sc_dequeue(struct rte_ring *r, void **obj_p)
  *   - -ENOENT: Not enough entries in the ring to dequeue, no object is
  *     dequeued.
  */
-static inline int __attribute__((always_inline))
+static __rte_always_inline int
 rte_ring_dequeue(struct rte_ring *r, void **obj_p)
 {
-       return rte_ring_dequeue_bulk(r, obj_p, 1) ? 0 : -ENOBUFS;
+       return rte_ring_dequeue_bulk(r, obj_p, 1, NULL) ? 0 : -ENOENT;
 }
 
 /**
- * Test if a ring is full.
+ * Return the number of entries in a ring.
  *
  * @param r
  *   A pointer to the ring structure.
  * @return
- *   - 1: The ring is full.
- *   - 0: The ring is not full.
+ *   The number of entries in the ring.
  */
-static inline int
-rte_ring_full(const struct rte_ring *r)
+static inline unsigned
+rte_ring_count(const struct rte_ring *r)
 {
        uint32_t prod_tail = r->prod.tail;
        uint32_t cons_tail = r->cons.tail;
-       return ((cons_tail - prod_tail - 1) & r->mask) == 0;
+       uint32_t count = (prod_tail - cons_tail) & r->mask;
+       return (count > r->capacity) ? r->capacity : count;
 }
 
 /**
- * Test if a ring is empty.
+ * Return the number of free entries in a ring.
  *
  * @param r
  *   A pointer to the ring structure.
  * @return
- *   - 1: The ring is empty.
- *   - 0: The ring is not empty.
+ *   The number of free entries in the ring.
  */
-static inline int
-rte_ring_empty(const struct rte_ring *r)
+static inline unsigned
+rte_ring_free_count(const struct rte_ring *r)
 {
-       uint32_t prod_tail = r->prod.tail;
-       uint32_t cons_tail = r->cons.tail;
-       return !!(cons_tail == prod_tail);
+       return r->capacity - rte_ring_count(r);
 }
 
 /**
- * Return the number of entries in a ring.
+ * Test if a ring is full.
  *
  * @param r
  *   A pointer to the ring structure.
  * @return
- *   The number of entries in the ring.
+ *   - 1: The ring is full.
+ *   - 0: The ring is not full.
  */
-static inline unsigned
-rte_ring_count(const struct rte_ring *r)
+static inline int
+rte_ring_full(const struct rte_ring *r)
 {
-       uint32_t prod_tail = r->prod.tail;
-       uint32_t cons_tail = r->cons.tail;
-       return (prod_tail - cons_tail) & r->mask;
+       return rte_ring_free_count(r) == 0;
 }
 
 /**
- * Return the number of free entries in a ring.
+ * Test if a ring is empty.
  *
  * @param r
  *   A pointer to the ring structure.
  * @return
- *   The number of free entries in the ring.
+ *   - 1: The ring is empty.
+ *   - 0: The ring is not empty.
  */
-static inline unsigned
-rte_ring_free_count(const struct rte_ring *r)
+static inline int
+rte_ring_empty(const struct rte_ring *r)
 {
-       uint32_t prod_tail = r->prod.tail;
-       uint32_t cons_tail = r->cons.tail;
-       return (cons_tail - prod_tail - 1) & r->mask;
+       return rte_ring_count(r) == 0;
 }
 
 /**
@@ -937,7 +936,9 @@ rte_ring_free_count(const struct rte_ring *r)
  * @param r
  *   A pointer to the ring structure.
  * @return
- *   The number of elements which can be stored in the ring.
+ *   The size of the data store used by the ring.
+ *   NOTE: this is not the same as the usable space in the ring. To query that
+ *   use ``rte_ring_get_capacity()``.
  */
 static inline unsigned int
 rte_ring_get_size(const struct rte_ring *r)
@@ -945,6 +946,20 @@ rte_ring_get_size(const struct rte_ring *r)
        return r->size;
 }
 
+/**
+ * Return the number of elements which can be stored in the ring.
+ *
+ * @param r
+ *   A pointer to the ring structure.
+ * @return
+ *   The usable size of the ring.
+ */
+static inline unsigned int
+rte_ring_get_capacity(const struct rte_ring *r)
+{
+       return r->capacity;
+}
+
 /**
  * Dump the status of all rings on the console
  *
@@ -983,12 +998,12 @@ struct rte_ring *rte_ring_lookup(const char *name);
  * @return
  *   - n: Actual number of objects enqueued.
  */
-static inline unsigned __attribute__((always_inline))
+static __rte_always_inline unsigned
 rte_ring_mp_enqueue_burst(struct rte_ring *r, void * const *obj_table,
                         unsigned int n, unsigned int *free_space)
 {
-       return __rte_ring_mp_do_enqueue(r, obj_table, n,
-                       RTE_RING_QUEUE_VARIABLE, free_space);
+       return __rte_ring_do_enqueue(r, obj_table, n,
+                       RTE_RING_QUEUE_VARIABLE, __IS_MP, free_space);
 }
 
 /**
@@ -1006,12 +1021,12 @@ rte_ring_mp_enqueue_burst(struct rte_ring *r, void * const *obj_table,
  * @return
  *   - n: Actual number of objects enqueued.
  */
-static inline unsigned __attribute__((always_inline))
+static __rte_always_inline unsigned
 rte_ring_sp_enqueue_burst(struct rte_ring *r, void * const *obj_table,
                         unsigned int n, unsigned int *free_space)
 {
-       return __rte_ring_sp_do_enqueue(r, obj_table, n,
-                       RTE_RING_QUEUE_VARIABLE, free_space);
+       return __rte_ring_do_enqueue(r, obj_table, n,
+                       RTE_RING_QUEUE_VARIABLE, __IS_SP, free_space);
 }
 
 /**
@@ -1033,14 +1048,12 @@ rte_ring_sp_enqueue_burst(struct rte_ring *r, void * const *obj_table,
  * @return
  *   - n: Actual number of objects enqueued.
  */
-static inline unsigned __attribute__((always_inline))
+static __rte_always_inline unsigned
 rte_ring_enqueue_burst(struct rte_ring *r, void * const *obj_table,
                      unsigned int n, unsigned int *free_space)
 {
-       if (r->prod.single)
-               return rte_ring_sp_enqueue_burst(r, obj_table, n, free_space);
-       else
-               return rte_ring_mp_enqueue_burst(r, obj_table, n, free_space);
+       return __rte_ring_do_enqueue(r, obj_table, n, RTE_RING_QUEUE_VARIABLE,
+                       r->prod.single, free_space);
 }
 
 /**
@@ -1057,13 +1070,18 @@ rte_ring_enqueue_burst(struct rte_ring *r, void * const *obj_table,
  *   A pointer to a table of void * pointers (objects) that will be filled.
  * @param n
  *   The number of objects to dequeue from the ring to the obj_table.
+ * @param available
+ *   If non-NULL, returns the number of remaining ring entries after the
+ *   dequeue has finished.
  * @return
  *   - n: Actual number of objects dequeued, 0 if ring is empty
  */
-static inline unsigned __attribute__((always_inline))
-rte_ring_mc_dequeue_burst(struct rte_ring *r, void **obj_table, unsigned n)
+static __rte_always_inline unsigned
+rte_ring_mc_dequeue_burst(struct rte_ring *r, void **obj_table,
+               unsigned int n, unsigned int *available)
 {
-       return __rte_ring_mc_do_dequeue(r, obj_table, n, RTE_RING_QUEUE_VARIABLE);
+       return __rte_ring_do_dequeue(r, obj_table, n,
+                       RTE_RING_QUEUE_VARIABLE, __IS_MC, available);
 }
 
 /**
@@ -1077,13 +1095,18 @@ rte_ring_mc_dequeue_burst(struct rte_ring *r, void **obj_table, unsigned n)
  *   A pointer to a table of void * pointers (objects) that will be filled.
  * @param n
  *   The number of objects to dequeue from the ring to the obj_table.
+ * @param available
+ *   If non-NULL, returns the number of remaining ring entries after the
+ *   dequeue has finished.
  * @return
  *   - n: Actual number of objects dequeued, 0 if ring is empty
  */
-static inline unsigned __attribute__((always_inline))
-rte_ring_sc_dequeue_burst(struct rte_ring *r, void **obj_table, unsigned n)
+static __rte_always_inline unsigned
+rte_ring_sc_dequeue_burst(struct rte_ring *r, void **obj_table,
+               unsigned int n, unsigned int *available)
 {
-       return __rte_ring_sc_do_dequeue(r, obj_table, n, RTE_RING_QUEUE_VARIABLE);
+       return __rte_ring_do_dequeue(r, obj_table, n,
+                       RTE_RING_QUEUE_VARIABLE, __IS_SC, available);
 }
 
 /**
@@ -1099,16 +1122,19 @@ rte_ring_sc_dequeue_burst(struct rte_ring *r, void **obj_table, unsigned n)
  *   A pointer to a table of void * pointers (objects) that will be filled.
  * @param n
  *   The number of objects to dequeue from the ring to the obj_table.
+ * @param available
+ *   If non-NULL, returns the number of remaining ring entries after the
+ *   dequeue has finished.
  * @return
  *   - Number of objects dequeued
  */
-static inline unsigned __attribute__((always_inline))
-rte_ring_dequeue_burst(struct rte_ring *r, void **obj_table, unsigned n)
+static __rte_always_inline unsigned
+rte_ring_dequeue_burst(struct rte_ring *r, void **obj_table,
+               unsigned int n, unsigned int *available)
 {
-       if (r->cons.single)
-               return rte_ring_sc_dequeue_burst(r, obj_table, n);
-       else
-               return rte_ring_mc_dequeue_burst(r, obj_table, n);
+       return __rte_ring_do_dequeue(r, obj_table, n,
+                               RTE_RING_QUEUE_VARIABLE,
+                               r->cons.single, available);
 }
 
 #ifdef __cplusplus