mbuf: remove control mbuf
[dpdk.git] / lib / librte_mbuf / rte_mbuf.c
1 /*-
2  *   BSD LICENSE
3  *
4  *   Copyright(c) 2010-2014 Intel Corporation. All rights reserved.
5  *   Copyright 2014 6WIND S.A.
6  *   All rights reserved.
7  *
8  *   Redistribution and use in source and binary forms, with or without
9  *   modification, are permitted provided that the following conditions
10  *   are met:
11  *
12  *     * Redistributions of source code must retain the above copyright
13  *       notice, this list of conditions and the following disclaimer.
14  *     * Redistributions in binary form must reproduce the above copyright
15  *       notice, this list of conditions and the following disclaimer in
16  *       the documentation and/or other materials provided with the
17  *       distribution.
18  *     * Neither the name of Intel Corporation nor the names of its
19  *       contributors may be used to endorse or promote products derived
20  *       from this software without specific prior written permission.
21  *
22  *   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
23  *   "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
24  *   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
25  *   A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
26  *   OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
27  *   SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
28  *   LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
29  *   DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
30  *   THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
31  *   (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
32  *   OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
33  */
34
35 #include <string.h>
36 #include <stdio.h>
37 #include <stdlib.h>
38 #include <stdint.h>
39 #include <stdarg.h>
40 #include <inttypes.h>
41 #include <errno.h>
42 #include <ctype.h>
43 #include <sys/queue.h>
44
45 #include <rte_debug.h>
46 #include <rte_common.h>
47 #include <rte_log.h>
48 #include <rte_memory.h>
49 #include <rte_launch.h>
50 #include <rte_eal.h>
51 #include <rte_per_lcore.h>
52 #include <rte_lcore.h>
53 #include <rte_atomic.h>
54 #include <rte_branch_prediction.h>
55 #include <rte_mempool.h>
56 #include <rte_mbuf.h>
57 #include <rte_string_fns.h>
58 #include <rte_hexdump.h>
59 #include <rte_errno.h>
60 #include <rte_memcpy.h>
61
62 /*
63  * pktmbuf pool constructor, given as a callback function to
64  * rte_mempool_create(), or called directly if using
65  * rte_mempool_create_empty()/rte_mempool_populate()
66  */
67 void
68 rte_pktmbuf_pool_init(struct rte_mempool *mp, void *opaque_arg)
69 {
70         struct rte_pktmbuf_pool_private *user_mbp_priv, *mbp_priv;
71         struct rte_pktmbuf_pool_private default_mbp_priv;
72         uint16_t roomsz;
73
74         RTE_ASSERT(mp->elt_size >= sizeof(struct rte_mbuf));
75
76         /* if no structure is provided, assume no mbuf private area */
77         user_mbp_priv = opaque_arg;
78         if (user_mbp_priv == NULL) {
79                 default_mbp_priv.mbuf_priv_size = 0;
80                 if (mp->elt_size > sizeof(struct rte_mbuf))
81                         roomsz = mp->elt_size - sizeof(struct rte_mbuf);
82                 else
83                         roomsz = 0;
84                 default_mbp_priv.mbuf_data_room_size = roomsz;
85                 user_mbp_priv = &default_mbp_priv;
86         }
87
88         RTE_ASSERT(mp->elt_size >= sizeof(struct rte_mbuf) +
89                 user_mbp_priv->mbuf_data_room_size +
90                 user_mbp_priv->mbuf_priv_size);
91
92         mbp_priv = rte_mempool_get_priv(mp);
93         memcpy(mbp_priv, user_mbp_priv, sizeof(*mbp_priv));
94 }
95
96 /*
97  * pktmbuf constructor, given as a callback function to
98  * rte_mempool_obj_iter() or rte_mempool_create().
99  * Set the fields of a packet mbuf to their default values.
100  */
101 void
102 rte_pktmbuf_init(struct rte_mempool *mp,
103                  __attribute__((unused)) void *opaque_arg,
104                  void *_m,
105                  __attribute__((unused)) unsigned i)
106 {
107         struct rte_mbuf *m = _m;
108         uint32_t mbuf_size, buf_len, priv_size;
109
110         priv_size = rte_pktmbuf_priv_size(mp);
111         mbuf_size = sizeof(struct rte_mbuf) + priv_size;
112         buf_len = rte_pktmbuf_data_room_size(mp);
113
114         RTE_ASSERT(RTE_ALIGN(priv_size, RTE_MBUF_PRIV_ALIGN) == priv_size);
115         RTE_ASSERT(mp->elt_size >= mbuf_size);
116         RTE_ASSERT(buf_len <= UINT16_MAX);
117
118         memset(m, 0, mbuf_size);
119         /* start of buffer is after mbuf structure and priv data */
120         m->priv_size = priv_size;
121         m->buf_addr = (char *)m + mbuf_size;
122         m->buf_iova = rte_mempool_virt2iova(m) + mbuf_size;
123         m->buf_len = (uint16_t)buf_len;
124
125         /* keep some headroom between start of buffer and data */
126         m->data_off = RTE_MIN(RTE_PKTMBUF_HEADROOM, (uint16_t)m->buf_len);
127
128         /* init some constant fields */
129         m->pool = mp;
130         m->nb_segs = 1;
131         m->port = MBUF_INVALID_PORT;
132         rte_mbuf_refcnt_set(m, 1);
133         m->next = NULL;
134 }
135
136 /* helper to create a mbuf pool */
137 struct rte_mempool *
138 rte_pktmbuf_pool_create(const char *name, unsigned n,
139         unsigned cache_size, uint16_t priv_size, uint16_t data_room_size,
140         int socket_id)
141 {
142         struct rte_mempool *mp;
143         struct rte_pktmbuf_pool_private mbp_priv;
144         const char *mp_ops_name;
145         unsigned elt_size;
146         int ret;
147
148         if (RTE_ALIGN(priv_size, RTE_MBUF_PRIV_ALIGN) != priv_size) {
149                 RTE_LOG(ERR, MBUF, "mbuf priv_size=%u is not aligned\n",
150                         priv_size);
151                 rte_errno = EINVAL;
152                 return NULL;
153         }
154         elt_size = sizeof(struct rte_mbuf) + (unsigned)priv_size +
155                 (unsigned)data_room_size;
156         mbp_priv.mbuf_data_room_size = data_room_size;
157         mbp_priv.mbuf_priv_size = priv_size;
158
159         mp = rte_mempool_create_empty(name, n, elt_size, cache_size,
160                  sizeof(struct rte_pktmbuf_pool_private), socket_id, 0);
161         if (mp == NULL)
162                 return NULL;
163
164         mp_ops_name = rte_eal_mbuf_default_mempool_ops();
165         ret = rte_mempool_set_ops_byname(mp, mp_ops_name, NULL);
166         if (ret != 0) {
167                 RTE_LOG(ERR, MBUF, "error setting mempool handler\n");
168                 rte_mempool_free(mp);
169                 rte_errno = -ret;
170                 return NULL;
171         }
172         rte_pktmbuf_pool_init(mp, &mbp_priv);
173
174         ret = rte_mempool_populate_default(mp);
175         if (ret < 0) {
176                 rte_mempool_free(mp);
177                 rte_errno = -ret;
178                 return NULL;
179         }
180
181         rte_mempool_obj_iter(mp, rte_pktmbuf_init, NULL);
182
183         return mp;
184 }
185
186 /* do some sanity checks on a mbuf: panic if it fails */
187 void
188 rte_mbuf_sanity_check(const struct rte_mbuf *m, int is_header)
189 {
190         const struct rte_mbuf *m_seg;
191         unsigned int nb_segs;
192
193         if (m == NULL)
194                 rte_panic("mbuf is NULL\n");
195
196         /* generic checks */
197         if (m->pool == NULL)
198                 rte_panic("bad mbuf pool\n");
199         if (m->buf_iova == 0)
200                 rte_panic("bad IO addr\n");
201         if (m->buf_addr == NULL)
202                 rte_panic("bad virt addr\n");
203
204         uint16_t cnt = rte_mbuf_refcnt_read(m);
205         if ((cnt == 0) || (cnt == UINT16_MAX))
206                 rte_panic("bad ref cnt\n");
207
208         /* nothing to check for sub-segments */
209         if (is_header == 0)
210                 return;
211
212         nb_segs = m->nb_segs;
213         m_seg = m;
214         while (m_seg && nb_segs != 0) {
215                 m_seg = m_seg->next;
216                 nb_segs--;
217         }
218         if (nb_segs != 0)
219                 rte_panic("bad nb_segs\n");
220 }
221
222 /* dump a mbuf on console */
223 void
224 rte_pktmbuf_dump(FILE *f, const struct rte_mbuf *m, unsigned dump_len)
225 {
226         unsigned int len;
227         unsigned int nb_segs;
228
229         __rte_mbuf_sanity_check(m, 1);
230
231         fprintf(f, "dump mbuf at %p, iova=%"PRIx64", buf_len=%u\n",
232                m, (uint64_t)m->buf_iova, (unsigned)m->buf_len);
233         fprintf(f, "  pkt_len=%"PRIu32", ol_flags=%"PRIx64", nb_segs=%u, "
234                "in_port=%u\n", m->pkt_len, m->ol_flags,
235                (unsigned)m->nb_segs, (unsigned)m->port);
236         nb_segs = m->nb_segs;
237
238         while (m && nb_segs != 0) {
239                 __rte_mbuf_sanity_check(m, 0);
240
241                 fprintf(f, "  segment at %p, data=%p, data_len=%u\n",
242                         m, rte_pktmbuf_mtod(m, void *), (unsigned)m->data_len);
243                 len = dump_len;
244                 if (len > m->data_len)
245                         len = m->data_len;
246                 if (len != 0)
247                         rte_hexdump(f, NULL, rte_pktmbuf_mtod(m, void *), len);
248                 dump_len -= len;
249                 m = m->next;
250                 nb_segs --;
251         }
252 }
253
254 /* read len data bytes in a mbuf at specified offset (internal) */
255 const void *__rte_pktmbuf_read(const struct rte_mbuf *m, uint32_t off,
256         uint32_t len, void *buf)
257 {
258         const struct rte_mbuf *seg = m;
259         uint32_t buf_off = 0, copy_len;
260
261         if (off + len > rte_pktmbuf_pkt_len(m))
262                 return NULL;
263
264         while (off >= rte_pktmbuf_data_len(seg)) {
265                 off -= rte_pktmbuf_data_len(seg);
266                 seg = seg->next;
267         }
268
269         if (off + len <= rte_pktmbuf_data_len(seg))
270                 return rte_pktmbuf_mtod_offset(seg, char *, off);
271
272         /* rare case: header is split among several segments */
273         while (len > 0) {
274                 copy_len = rte_pktmbuf_data_len(seg) - off;
275                 if (copy_len > len)
276                         copy_len = len;
277                 rte_memcpy((char *)buf + buf_off,
278                         rte_pktmbuf_mtod_offset(seg, char *, off), copy_len);
279                 off = 0;
280                 buf_off += copy_len;
281                 len -= copy_len;
282                 seg = seg->next;
283         }
284
285         return buf;
286 }
287
288 /*
289  * Get the name of a RX offload flag. Must be kept synchronized with flag
290  * definitions in rte_mbuf.h.
291  */
292 const char *rte_get_rx_ol_flag_name(uint64_t mask)
293 {
294         switch (mask) {
295         case PKT_RX_VLAN: return "PKT_RX_VLAN";
296         case PKT_RX_RSS_HASH: return "PKT_RX_RSS_HASH";
297         case PKT_RX_FDIR: return "PKT_RX_FDIR";
298         case PKT_RX_L4_CKSUM_BAD: return "PKT_RX_L4_CKSUM_BAD";
299         case PKT_RX_L4_CKSUM_GOOD: return "PKT_RX_L4_CKSUM_GOOD";
300         case PKT_RX_L4_CKSUM_NONE: return "PKT_RX_L4_CKSUM_NONE";
301         case PKT_RX_IP_CKSUM_BAD: return "PKT_RX_IP_CKSUM_BAD";
302         case PKT_RX_IP_CKSUM_GOOD: return "PKT_RX_IP_CKSUM_GOOD";
303         case PKT_RX_IP_CKSUM_NONE: return "PKT_RX_IP_CKSUM_NONE";
304         case PKT_RX_EIP_CKSUM_BAD: return "PKT_RX_EIP_CKSUM_BAD";
305         case PKT_RX_VLAN_STRIPPED: return "PKT_RX_VLAN_STRIPPED";
306         case PKT_RX_IEEE1588_PTP: return "PKT_RX_IEEE1588_PTP";
307         case PKT_RX_IEEE1588_TMST: return "PKT_RX_IEEE1588_TMST";
308         case PKT_RX_QINQ_STRIPPED: return "PKT_RX_QINQ_STRIPPED";
309         case PKT_RX_LRO: return "PKT_RX_LRO";
310         case PKT_RX_TIMESTAMP: return "PKT_RX_TIMESTAMP";
311         case PKT_RX_SEC_OFFLOAD: return "PKT_RX_SEC_OFFLOAD";
312         case PKT_RX_SEC_OFFLOAD_FAILED: return "PKT_RX_SEC_OFFLOAD_FAILED";
313         default: return NULL;
314         }
315 }
316
317 struct flag_mask {
318         uint64_t flag;
319         uint64_t mask;
320         const char *default_name;
321 };
322
323 /* write the list of rx ol flags in buffer buf */
324 int
325 rte_get_rx_ol_flag_list(uint64_t mask, char *buf, size_t buflen)
326 {
327         const struct flag_mask rx_flags[] = {
328                 { PKT_RX_VLAN, PKT_RX_VLAN, NULL },
329                 { PKT_RX_RSS_HASH, PKT_RX_RSS_HASH, NULL },
330                 { PKT_RX_FDIR, PKT_RX_FDIR, NULL },
331                 { PKT_RX_L4_CKSUM_BAD, PKT_RX_L4_CKSUM_MASK, NULL },
332                 { PKT_RX_L4_CKSUM_GOOD, PKT_RX_L4_CKSUM_MASK, NULL },
333                 { PKT_RX_L4_CKSUM_NONE, PKT_RX_L4_CKSUM_MASK, NULL },
334                 { PKT_RX_L4_CKSUM_UNKNOWN, PKT_RX_L4_CKSUM_MASK,
335                   "PKT_RX_L4_CKSUM_UNKNOWN" },
336                 { PKT_RX_IP_CKSUM_BAD, PKT_RX_IP_CKSUM_MASK, NULL },
337                 { PKT_RX_IP_CKSUM_GOOD, PKT_RX_IP_CKSUM_MASK, NULL },
338                 { PKT_RX_IP_CKSUM_NONE, PKT_RX_IP_CKSUM_MASK, NULL },
339                 { PKT_RX_IP_CKSUM_UNKNOWN, PKT_RX_IP_CKSUM_MASK,
340                   "PKT_RX_IP_CKSUM_UNKNOWN" },
341                 { PKT_RX_EIP_CKSUM_BAD, PKT_RX_EIP_CKSUM_BAD, NULL },
342                 { PKT_RX_VLAN_STRIPPED, PKT_RX_VLAN_STRIPPED, NULL },
343                 { PKT_RX_IEEE1588_PTP, PKT_RX_IEEE1588_PTP, NULL },
344                 { PKT_RX_IEEE1588_TMST, PKT_RX_IEEE1588_TMST, NULL },
345                 { PKT_RX_QINQ_STRIPPED, PKT_RX_QINQ_STRIPPED, NULL },
346                 { PKT_RX_LRO, PKT_RX_LRO, NULL },
347                 { PKT_RX_TIMESTAMP, PKT_RX_TIMESTAMP, NULL },
348                 { PKT_RX_SEC_OFFLOAD, PKT_RX_SEC_OFFLOAD, NULL },
349                 { PKT_RX_SEC_OFFLOAD_FAILED, PKT_RX_SEC_OFFLOAD_FAILED, NULL },
350                 { PKT_RX_QINQ, PKT_RX_QINQ, NULL },
351         };
352         const char *name;
353         unsigned int i;
354         int ret;
355
356         if (buflen == 0)
357                 return -1;
358
359         buf[0] = '\0';
360         for (i = 0; i < RTE_DIM(rx_flags); i++) {
361                 if ((mask & rx_flags[i].mask) != rx_flags[i].flag)
362                         continue;
363                 name = rte_get_rx_ol_flag_name(rx_flags[i].flag);
364                 if (name == NULL)
365                         name = rx_flags[i].default_name;
366                 ret = snprintf(buf, buflen, "%s ", name);
367                 if (ret < 0)
368                         return -1;
369                 if ((size_t)ret >= buflen)
370                         return -1;
371                 buf += ret;
372                 buflen -= ret;
373         }
374
375         return 0;
376 }
377
378 /*
379  * Get the name of a TX offload flag. Must be kept synchronized with flag
380  * definitions in rte_mbuf.h.
381  */
382 const char *rte_get_tx_ol_flag_name(uint64_t mask)
383 {
384         switch (mask) {
385         case PKT_TX_VLAN_PKT: return "PKT_TX_VLAN_PKT";
386         case PKT_TX_IP_CKSUM: return "PKT_TX_IP_CKSUM";
387         case PKT_TX_TCP_CKSUM: return "PKT_TX_TCP_CKSUM";
388         case PKT_TX_SCTP_CKSUM: return "PKT_TX_SCTP_CKSUM";
389         case PKT_TX_UDP_CKSUM: return "PKT_TX_UDP_CKSUM";
390         case PKT_TX_IEEE1588_TMST: return "PKT_TX_IEEE1588_TMST";
391         case PKT_TX_TCP_SEG: return "PKT_TX_TCP_SEG";
392         case PKT_TX_IPV4: return "PKT_TX_IPV4";
393         case PKT_TX_IPV6: return "PKT_TX_IPV6";
394         case PKT_TX_OUTER_IP_CKSUM: return "PKT_TX_OUTER_IP_CKSUM";
395         case PKT_TX_OUTER_IPV4: return "PKT_TX_OUTER_IPV4";
396         case PKT_TX_OUTER_IPV6: return "PKT_TX_OUTER_IPV6";
397         case PKT_TX_TUNNEL_VXLAN: return "PKT_TX_TUNNEL_VXLAN";
398         case PKT_TX_TUNNEL_GRE: return "PKT_TX_TUNNEL_GRE";
399         case PKT_TX_TUNNEL_IPIP: return "PKT_TX_TUNNEL_IPIP";
400         case PKT_TX_TUNNEL_GENEVE: return "PKT_TX_TUNNEL_GENEVE";
401         case PKT_TX_TUNNEL_MPLSINUDP: return "PKT_TX_TUNNEL_MPLSINUDP";
402         case PKT_TX_MACSEC: return "PKT_TX_MACSEC";
403         case PKT_TX_SEC_OFFLOAD: return "PKT_TX_SEC_OFFLOAD";
404         default: return NULL;
405         }
406 }
407
408 /* write the list of tx ol flags in buffer buf */
409 int
410 rte_get_tx_ol_flag_list(uint64_t mask, char *buf, size_t buflen)
411 {
412         const struct flag_mask tx_flags[] = {
413                 { PKT_TX_VLAN_PKT, PKT_TX_VLAN_PKT, NULL },
414                 { PKT_TX_IP_CKSUM, PKT_TX_IP_CKSUM, NULL },
415                 { PKT_TX_TCP_CKSUM, PKT_TX_L4_MASK, NULL },
416                 { PKT_TX_SCTP_CKSUM, PKT_TX_L4_MASK, NULL },
417                 { PKT_TX_UDP_CKSUM, PKT_TX_L4_MASK, NULL },
418                 { PKT_TX_L4_NO_CKSUM, PKT_TX_L4_MASK, "PKT_TX_L4_NO_CKSUM" },
419                 { PKT_TX_IEEE1588_TMST, PKT_TX_IEEE1588_TMST, NULL },
420                 { PKT_TX_TCP_SEG, PKT_TX_TCP_SEG, NULL },
421                 { PKT_TX_IPV4, PKT_TX_IPV4, NULL },
422                 { PKT_TX_IPV6, PKT_TX_IPV6, NULL },
423                 { PKT_TX_OUTER_IP_CKSUM, PKT_TX_OUTER_IP_CKSUM, NULL },
424                 { PKT_TX_OUTER_IPV4, PKT_TX_OUTER_IPV4, NULL },
425                 { PKT_TX_OUTER_IPV6, PKT_TX_OUTER_IPV6, NULL },
426                 { PKT_TX_TUNNEL_VXLAN, PKT_TX_TUNNEL_MASK,
427                   "PKT_TX_TUNNEL_NONE" },
428                 { PKT_TX_TUNNEL_GRE, PKT_TX_TUNNEL_MASK,
429                   "PKT_TX_TUNNEL_NONE" },
430                 { PKT_TX_TUNNEL_IPIP, PKT_TX_TUNNEL_MASK,
431                   "PKT_TX_TUNNEL_NONE" },
432                 { PKT_TX_TUNNEL_GENEVE, PKT_TX_TUNNEL_MASK,
433                   "PKT_TX_TUNNEL_NONE" },
434                 { PKT_TX_TUNNEL_MPLSINUDP, PKT_TX_TUNNEL_MASK,
435                   "PKT_TX_TUNNEL_NONE" },
436                 { PKT_TX_MACSEC, PKT_TX_MACSEC, NULL },
437                 { PKT_TX_SEC_OFFLOAD, PKT_TX_SEC_OFFLOAD, NULL },
438         };
439         const char *name;
440         unsigned int i;
441         int ret;
442
443         if (buflen == 0)
444                 return -1;
445
446         buf[0] = '\0';
447         for (i = 0; i < RTE_DIM(tx_flags); i++) {
448                 if ((mask & tx_flags[i].mask) != tx_flags[i].flag)
449                         continue;
450                 name = rte_get_tx_ol_flag_name(tx_flags[i].flag);
451                 if (name == NULL)
452                         name = tx_flags[i].default_name;
453                 ret = snprintf(buf, buflen, "%s ", name);
454                 if (ret < 0)
455                         return -1;
456                 if ((size_t)ret >= buflen)
457                         return -1;
458                 buf += ret;
459                 buflen -= ret;
460         }
461
462         return 0;
463 }