net/enic: support flow counter action
[dpdk.git] / doc / guides / nics / enic.rst
1 ..  SPDX-License-Identifier: BSD-3-Clause
2     Copyright (c) 2017, Cisco Systems, Inc.
3     All rights reserved.
4
5 ENIC Poll Mode Driver
6 =====================
7
8 ENIC PMD is the DPDK poll-mode driver for the Cisco System Inc. VIC Ethernet
9 NICs. These adapters are also referred to as vNICs below. If you are running
10 or would like to run DPDK software applications on Cisco UCS servers using
11 Cisco VIC adapters the following documentation is relevant.
12
13 How to obtain ENIC PMD integrated DPDK
14 --------------------------------------
15
16 ENIC PMD support is integrated into the DPDK suite. dpdk-<version>.tar.gz
17 should be downloaded from http://dpdk.org
18
19
20 Configuration information
21 -------------------------
22
23 - **DPDK Configuration Parameters**
24
25   The following configuration options are available for the ENIC PMD:
26
27   - **CONFIG_RTE_LIBRTE_ENIC_PMD** (default y): Enables or disables inclusion
28     of the ENIC PMD driver in the DPDK compilation.
29
30 - **vNIC Configuration Parameters**
31
32   - **Number of Queues**
33
34     The maximum number of receive queues (RQs), work queues (WQs) and
35     completion queues (CQs) are configurable on a per vNIC basis
36     through the Cisco UCS Manager (CIMC or UCSM).
37
38     These values should be configured as follows:
39
40     - The number of WQs should be greater or equal to the value of the
41       expected nb_tx_q parameter in the call to
42       rte_eth_dev_configure()
43
44     - The number of RQs configured in the vNIC should be greater or
45       equal to *twice* the value of the expected nb_rx_q parameter in
46       the call to rte_eth_dev_configure().  With the addition of Rx
47       scatter, a pair of RQs on the vnic is needed for each receive
48       queue used by DPDK, even if Rx scatter is not being used.
49       Having a vNIC with only 1 RQ is not a valid configuration, and
50       will fail with an error message.
51
52     - The number of CQs should set so that there is one CQ for each
53       WQ, and one CQ for each pair of RQs.
54
55     For example: If the application requires 3 Rx queues, and 3 Tx
56     queues, the vNIC should be configured to have at least 3 WQs, 6
57     RQs (3 pairs), and 6 CQs (3 for use by WQs + 3 for use by the 3
58     pairs of RQs).
59
60   - **Size of Queues**
61
62     Likewise, the number of receive and transmit descriptors are configurable on
63     a per-vNIC basis via the UCS Manager and should be greater than or equal to
64     the nb_rx_desc and   nb_tx_desc parameters expected to be used in the calls
65     to rte_eth_rx_queue_setup() and rte_eth_tx_queue_setup() respectively.
66     An application requesting more than the set size will be limited to that
67     size.
68
69     Unless there is a lack of resources due to creating many vNICs, it
70     is recommended that the WQ and RQ sizes be set to the maximum.  This
71     gives the application the greatest amount of flexibility in its
72     queue configuration.
73
74     - *Note*: Since the introduction of Rx scatter, for performance
75       reasons, this PMD uses two RQs on the vNIC per receive queue in
76       DPDK.  One RQ holds descriptors for the start of a packet, and the
77       second RQ holds the descriptors for the rest of the fragments of
78       a packet.  This means that the nb_rx_desc parameter to
79       rte_eth_rx_queue_setup() can be a greater than 4096.  The exact
80       amount will depend on the size of the mbufs being used for
81       receives, and the MTU size.
82
83       For example: If the mbuf size is 2048, and the MTU is 9000, then
84       receiving a full size packet will take 5 descriptors, 1 from the
85       start-of-packet queue, and 4 from the second queue.  Assuming
86       that the RQ size was set to the maximum of 4096, then the
87       application can specify up to 1024 + 4096 as the nb_rx_desc
88       parameter to rte_eth_rx_queue_setup().
89
90   - **Interrupts**
91
92     At least one interrupt per vNIC interface should be configured in the UCS
93     manager regardless of the number receive/transmit queues. The ENIC PMD
94     uses this interrupt to get information about link status and errors
95     in the fast path.
96
97     In addition to the interrupt for link status and errors, when using Rx queue
98     interrupts, increase the number of configured interrupts so that there is at
99     least one interrupt for each Rx queue. For example, if the app uses 3 Rx
100     queues and wants to use per-queue interrupts, configure 4 (3 + 1) interrupts.
101
102   - **Receive Side Scaling**
103
104     In order to fully utilize RSS in DPDK, enable all RSS related settings in
105     CIMC or UCSM. These include the following items listed under
106     Receive Side Scaling:
107     TCP, IPv4, TCP-IPv4, IPv6, TCP-IPv6, IPv6 Extension, TCP-IPv6 Extension.
108
109
110 .. _enic-flow-director:
111
112 Flow director support
113 ---------------------
114
115 Advanced filtering support was added to 1300 series VIC firmware starting
116 with version 2.0.13 for C-series UCS servers and version 3.1.2 for UCSM
117 managed blade servers. In order to enable advanced filtering the 'Advanced
118 filter' radio button should be enabled via CIMC or UCSM followed by a reboot
119 of the server.
120
121 With advanced filters, perfect matching of all fields of IPv4, IPv6 headers
122 as well as TCP, UDP and SCTP L4 headers is available through flow director.
123 Masking of these fields for partial match is also supported.
124
125 Without advanced filter support, the flow director is limited to IPv4
126 perfect filtering of the 5-tuple with no masking of fields supported.
127
128 SR-IOV mode utilization
129 -----------------------
130
131 UCS blade servers configured with dynamic vNIC connection policies in UCSM
132 are capable of supporting SR-IOV. SR-IOV virtual functions (VFs) are
133 specialized vNICs, distinct from regular Ethernet vNICs. These VFs can be
134 directly assigned to virtual machines (VMs) as 'passthrough' devices.
135
136 In UCS, SR-IOV VFs require the use of the Cisco Virtual Machine Fabric Extender
137 (VM-FEX), which gives the VM a dedicated
138 interface on the Fabric Interconnect (FI). Layer 2 switching is done at
139 the FI. This may eliminate the requirement for software switching on the
140 host to route intra-host VM traffic.
141
142 Please refer to `Creating a Dynamic vNIC Connection Policy
143 <http://www.cisco.com/c/en/us/td/docs/unified_computing/ucs/sw/vm_fex/vmware/gui/config_guide/b_GUI_VMware_VM-FEX_UCSM_Configuration_Guide/b_GUI_VMware_VM-FEX_UCSM_Configuration_Guide_chapter_010.html#task_433E01651F69464783A68E66DA8A47A5>`_
144 for information on configuring SR-IOV adapter policies and port profiles
145 using UCSM.
146
147 Once the policies are in place and the host OS is rebooted, VFs should be
148 visible on the host, E.g.:
149
150 .. code-block:: console
151
152      # lspci | grep Cisco | grep Ethernet
153      0d:00.0 Ethernet controller: Cisco Systems Inc VIC Ethernet NIC (rev a2)
154      0d:00.1 Ethernet controller: Cisco Systems Inc VIC SR-IOV VF (rev a2)
155      0d:00.2 Ethernet controller: Cisco Systems Inc VIC SR-IOV VF (rev a2)
156      0d:00.3 Ethernet controller: Cisco Systems Inc VIC SR-IOV VF (rev a2)
157      0d:00.4 Ethernet controller: Cisco Systems Inc VIC SR-IOV VF (rev a2)
158      0d:00.5 Ethernet controller: Cisco Systems Inc VIC SR-IOV VF (rev a2)
159      0d:00.6 Ethernet controller: Cisco Systems Inc VIC SR-IOV VF (rev a2)
160      0d:00.7 Ethernet controller: Cisco Systems Inc VIC SR-IOV VF (rev a2)
161
162 Enable Intel IOMMU on the host and install KVM and libvirt, and reboot again as
163 required. Then, using libvirt, create a VM instance with an assigned device.
164 Below is an example ``interface`` block (part of the domain configuration XML)
165 that adds the host VF 0d:00:01 to the VM. ``profileid='pp-vlan-25'`` indicates
166 the port profile that has been configured in UCSM.
167
168 .. code-block:: console
169
170     <interface type='hostdev' managed='yes'>
171       <mac address='52:54:00:ac:ff:b6'/>
172       <driver name='vfio'/>
173       <source>
174         <address type='pci' domain='0x0000' bus='0x0d' slot='0x00' function='0x1'/>
175       </source>
176       <virtualport type='802.1Qbh'>
177         <parameters profileid='pp-vlan-25'/>
178       </virtualport>
179     </interface>
180
181
182 Alternatively, the configuration can be done in a separate file using the
183 ``network`` keyword. These methods are described in the libvirt documentation for
184 `Network XML format <https://libvirt.org/formatnetwork.html>`_.
185
186 When the VM instance is started, libvirt will bind the host VF to
187 vfio, complete provisioning on the FI and bring up the link.
188
189 .. note::
190
191     It is not possible to use a VF directly from the host because it is not
192     fully provisioned until libvirt brings up the VM that it is assigned
193     to.
194
195 In the VM instance, the VF will now be visible. E.g., here the VF 00:04.0 is
196 seen on the VM instance and should be available for binding to a DPDK.
197
198 .. code-block:: console
199
200      # lspci | grep Ether
201      00:04.0 Ethernet controller: Cisco Systems Inc VIC SR-IOV VF (rev a2)
202
203 Follow the normal DPDK install procedure, binding the VF to either ``igb_uio``
204 or ``vfio`` in non-IOMMU mode.
205
206 In the VM, the kernel enic driver may be automatically bound to the VF during
207 boot. Unbinding it currently hangs due to a known issue with the driver. To
208 work around the issue, blacklist the enic module as follows.
209 Please see :ref:`Limitations <enic_limitations>` for limitations in
210 the use of SR-IOV.
211
212 .. code-block:: console
213
214      # cat /etc/modprobe.d/enic.conf
215      blacklist enic
216
217      # dracut --force
218
219 .. note::
220
221     Passthrough does not require SR-IOV. If VM-FEX is not desired, the user
222     may create as many regular vNICs as necessary and assign them to VMs as
223     passthrough devices. Since these vNICs are not SR-IOV VFs, using them as
224     passthrough devices do not require libvirt, port profiles, and VM-FEX.
225
226
227 .. _enic-genic-flow-api:
228
229 Generic Flow API support
230 ------------------------
231
232 Generic Flow API is supported. The baseline support is:
233
234 - **1200 series VICs**
235
236   5-tuple exact flow support for 1200 series adapters. This allows:
237
238   - Attributes: ingress
239   - Items: ipv4, ipv6, udp, tcp (must exactly match src/dst IP
240     addresses and ports and all must be specified)
241   - Actions: queue and void
242   - Selectors: 'is'
243
244 - **1300 and later series VICS with advanced filters disabled**
245
246   With advanced filters disabled, an IPv4 or IPv6 item must be specified
247   in the pattern.
248
249   - Attributes: ingress
250   - Items: eth, ipv4, ipv6, udp, tcp, vxlan, inner eth, ipv4, ipv6, udp, tcp
251   - Actions: queue and void
252   - Selectors: 'is', 'spec' and 'mask'. 'last' is not supported
253   - In total, up to 64 bytes of mask is allowed across all headers
254
255 - **1300 and later series VICS with advanced filters enabled**
256
257   - Attributes: ingress
258   - Items: eth, ipv4, ipv6, udp, tcp, vxlan, inner eth, ipv4, ipv6, udp, tcp
259   - Actions: queue, mark, drop, flag and void
260   - Selectors: 'is', 'spec' and 'mask'. 'last' is not supported
261   - In total, up to 64 bytes of mask is allowed across all headers
262
263 - **1400 and later series VICS with advanced filters enabled**
264
265   All the above plus:
266
267   - Action: count
268
269 More features may be added in future firmware and new versions of the VIC.
270 Please refer to the release notes.
271
272 .. _overlay_offload:
273
274 Overlay Offload
275 ---------------
276
277 Recent hardware models support overlay offload. When enabled, the NIC performs
278 the following operations for VXLAN, NVGRE, and GENEVE packets. In all cases,
279 inner and outer packets can be IPv4 or IPv6.
280
281 - TSO for VXLAN and GENEVE packets.
282
283   Hardware supports NVGRE TSO, but DPDK currently has no NVGRE offload flags.
284
285 - Tx checksum offloads.
286
287   The NIC fills in IPv4/UDP/TCP checksums for both inner and outer packets.
288
289 - Rx checksum offloads.
290
291   The NIC validates IPv4/UDP/TCP checksums of both inner and outer packets.
292   Good checksum flags (e.g. ``PKT_RX_L4_CKSUM_GOOD``) indicate that the inner
293   packet has the correct checksum, and if applicable, the outer packet also
294   has the correct checksum. Bad checksum flags (e.g. ``PKT_RX_L4_CKSUM_BAD``)
295   indicate that the inner and/or outer packets have invalid checksum values.
296
297 - Inner Rx packet type classification
298
299   PMD sets inner L3/L4 packet types (e.g. ``RTE_PTYPE_INNER_L4_TCP``), and
300   ``RTE_PTYPE_TUNNEL_GRENAT`` to indicate that the packet is tunneled.
301   PMD does not set L3/L4 packet types for outer packets.
302
303 - Inner RSS
304
305   RSS hash calculation, therefore queue selection, is done on inner packets.
306
307 In order to enable overlay offload, the 'Enable VXLAN' box should be checked
308 via CIMC or UCSM followed by a reboot of the server. When PMD successfully
309 enables overlay offload, it prints the following message on the console.
310
311 .. code-block:: console
312
313     Overlay offload is enabled
314
315 By default, PMD enables overlay offload if hardware supports it. To disable
316 it, set ``devargs`` parameter ``disable-overlay=1``. For example::
317
318     -w 12:00.0,disable-overlay=1
319
320 By default, the NIC uses 4789 as the VXLAN port. The user may change
321 it through ``rte_eth_dev_udp_tunnel_port_{add,delete}``. However, as
322 the current NIC has a single VXLAN port number, the user cannot
323 configure multiple port numbers.
324
325 Ingress VLAN Rewrite
326 --------------------
327
328 VIC adapters can tag, untag, or modify the VLAN headers of ingress
329 packets. The ingress VLAN rewrite mode controls this behavior. By
330 default, it is set to pass-through, where the NIC does not modify the
331 VLAN header in any way so that the application can see the original
332 header. This mode is sufficient for many applications, but may not be
333 suitable for others. Such applications may change the mode by setting
334 ``devargs`` parameter ``ig-vlan-rewrite`` to one of the following.
335
336 - ``pass``: Pass-through mode. The NIC does not modify the VLAN
337   header. This is the default mode.
338
339 - ``priority``: Priority-tag default VLAN mode. If the ingress packet
340   is tagged with the default VLAN, the NIC replaces its VLAN header
341   with the priority tag (VLAN ID 0).
342
343 - ``trunk``: Default trunk mode. The NIC tags untagged ingress packets
344   with the default VLAN. Tagged ingress packets are not modified. To
345   the application, every packet appears as tagged.
346
347 - ``untag``: Untag default VLAN mode. If the ingress packet is tagged
348   with the default VLAN, the NIC removes or untags its VLAN header so
349   that the application sees an untagged packet. As a result, the
350   default VLAN becomes `untagged`. This mode can be useful for
351   applications such as OVS-DPDK performance benchmarks that utilize
352   only the default VLAN and want to see only untagged packets.
353
354 .. _enic_limitations:
355
356 Limitations
357 -----------
358
359 - **VLAN 0 Priority Tagging**
360
361   If a vNIC is configured in TRUNK mode by the UCS manager, the adapter will
362   priority tag egress packets according to 802.1Q if they were not already
363   VLAN tagged by software. If the adapter is connected to a properly configured
364   switch, there will be no unexpected behavior.
365
366   In test setups where an Ethernet port of a Cisco adapter in TRUNK mode is
367   connected point-to-point to another adapter port or connected though a router
368   instead of a switch, all ingress packets will be VLAN tagged. Programs such
369   as l3fwd may not account for VLAN tags in packets and may misbehave. One
370   solution is to enable VLAN stripping on ingress so the VLAN tag is removed
371   from the packet and put into the mbuf->vlan_tci field. Here is an example
372   of how to accomplish this:
373
374 .. code-block:: console
375
376      vlan_offload = rte_eth_dev_get_vlan_offload(port);
377      vlan_offload |= ETH_VLAN_STRIP_OFFLOAD;
378      rte_eth_dev_set_vlan_offload(port, vlan_offload);
379
380 Another alternative is modify the adapter's ingress VLAN rewrite mode so that
381 packets with the default VLAN tag are stripped by the adapter and presented to
382 DPDK as untagged packets. In this case mbuf->vlan_tci and the PKT_RX_VLAN and
383 PKT_RX_VLAN_STRIPPED mbuf flags would not be set. This mode is enabled with the
384 ``devargs`` parameter ``ig-vlan-rewrite=untag``. For example::
385
386     -w 12:00.0,ig-vlan-rewrite=untag
387
388 - Limited flow director support on 1200 series and 1300 series Cisco VIC
389   adapters with old firmware. Please see :ref:`enic-flow-director`.
390
391 - Flow director features are not supported on generation 1 Cisco VIC adapters
392   (M81KR and P81E)
393
394 - **SR-IOV**
395
396   - KVM hypervisor support only. VMware has not been tested.
397   - Requires VM-FEX, and so is only available on UCS managed servers connected
398     to Fabric Interconnects. It is not on standalone C-Series servers.
399   - VF devices are not usable directly from the host. They can  only be used
400     as assigned devices on VM instances.
401   - Currently, unbind of the ENIC kernel mode driver 'enic.ko' on the VM
402     instance may hang. As a workaround, enic.ko should be blacklisted or removed
403     from the boot process.
404   - pci_generic cannot be used as the uio module in the VM. igb_uio or
405     vfio in non-IOMMU mode can be used.
406   - The number of RQs in UCSM dynamic vNIC configurations must be at least 2.
407   - The number of SR-IOV devices is limited to 256. Components on target system
408     might limit this number to fewer than 256.
409
410 - **Flow API**
411
412   - The number of filters that can be specified with the Generic Flow API is
413     dependent on how many header fields are being masked. Use 'flow create' in
414     a loop to determine how many filters your VIC will support (not more than
415     1000 for 1300 series VICs). Filters are checked for matching in the order they
416     were added. Since there currently is no grouping or priority support,
417     'catch-all' filters should be added last.
418
419 - **Statistics**
420
421   - ``rx_good_bytes`` (ibytes) always includes VLAN header (4B) and CRC bytes (4B).
422     This behavior applies to 1300 and older series VIC adapters.
423     1400 series VICs do not count CRC bytes, and count VLAN header only when VLAN
424     stripping is disabled.
425   - When the NIC drops a packet because the Rx queue has no free buffers,
426     ``rx_good_bytes`` still increments by 4B if the packet is not VLAN tagged or
427     VLAN stripping is disabled, or by 8B if the packet is VLAN tagged and stripping
428     is enabled.
429     This behavior applies to 1300 and older series VIC adapters. 1400 series VICs
430     do not increment this byte counter when packets are dropped.
431
432 - **RSS Hashing**
433
434   - Hardware enables and disables UDP and TCP RSS hashing together. The driver
435     cannot control UDP and TCP hashing individually.
436
437 How to build the suite
438 ----------------------
439
440 The build instructions for the DPDK suite should be followed. By default
441 the ENIC PMD library will be built into the DPDK library.
442
443 Refer to the document :ref:`compiling and testing a PMD for a NIC
444 <pmd_build_and_test>` for details.
445
446 For configuring and using UIO and VFIO frameworks, please refer to the
447 documentation that comes with DPDK suite.
448
449 Supported Cisco VIC adapters
450 ----------------------------
451
452 ENIC PMD supports all recent generations of Cisco VIC adapters including:
453
454 - VIC 1200 series
455 - VIC 1300 series
456 - VIC 1400 series
457
458 Supported Operating Systems
459 ---------------------------
460
461 Any Linux distribution fulfilling the conditions described in Dependencies
462 section of DPDK documentation.
463
464 Supported features
465 ------------------
466
467 - Unicast, multicast and broadcast transmission and reception
468 - Receive queue polling
469 - Port Hardware Statistics
470 - Hardware VLAN acceleration
471 - IP checksum offload
472 - Receive side VLAN stripping
473 - Multiple receive and transmit queues
474 - Flow Director ADD, UPDATE, DELETE, STATS operation support IPv4 and IPv6
475 - Promiscuous mode
476 - Setting RX VLAN (supported via UCSM/CIMC only)
477 - VLAN filtering (supported via UCSM/CIMC only)
478 - Execution of application by unprivileged system users
479 - IPV4, IPV6 and TCP RSS hashing
480 - UDP RSS hashing (1400 series and later adapters)
481 - Scattered Rx
482 - MTU update
483 - SR-IOV on UCS managed servers connected to Fabric Interconnects
484 - Flow API
485 - Overlay offload
486
487   - Rx/Tx checksum offloads for VXLAN, NVGRE, GENEVE
488   - TSO for VXLAN and GENEVE packets
489   - Inner RSS
490
491 Known bugs and unsupported features in this release
492 ---------------------------------------------------
493
494 - Signature or flex byte based flow direction
495 - Drop feature of flow direction
496 - VLAN based flow direction
497 - Non-IPV4 flow direction
498 - Setting of extended VLAN
499 - MTU update only works if Scattered Rx mode is disabled
500 - Maximum receive packet length is ignored if Scattered Rx mode is used
501
502 Prerequisites
503 -------------
504
505 - Prepare the system as recommended by DPDK suite.  This includes environment
506   variables, hugepages configuration, tool-chains and configuration.
507 - Insert vfio-pci kernel module using the command 'modprobe vfio-pci' if the
508   user wants to use VFIO framework.
509 - Insert uio kernel module using the command 'modprobe uio' if the user wants
510   to use UIO framework.
511 - DPDK suite should be configured based on the user's decision to use VFIO or
512   UIO framework.
513 - If the vNIC device(s) to be used is bound to the kernel mode Ethernet driver
514   use 'ip' to bring the interface down. The dpdk-devbind.py tool can
515   then be used to unbind the device's bus id from the ENIC kernel mode driver.
516 - Bind the intended vNIC to vfio-pci in case the user wants ENIC PMD to use
517   VFIO framework using dpdk-devbind.py.
518 - Bind the intended vNIC to igb_uio in case the user wants ENIC PMD to use
519   UIO framework using dpdk-devbind.py.
520
521 At this point the system should be ready to run DPDK applications. Once the
522 application runs to completion, the vNIC can be detached from vfio-pci or
523 igb_uio if necessary.
524
525 Root privilege is required to bind and unbind vNICs to/from VFIO/UIO.
526 VFIO framework helps an unprivileged user to run the applications.
527 For an unprivileged user to run the applications on DPDK and ENIC PMD,
528 it may be necessary to increase the maximum locked memory of the user.
529 The following command could be used to do this.
530
531 .. code-block:: console
532
533     sudo sh -c "ulimit -l <value in Kilo Bytes>"
534
535 The value depends on the memory configuration of the application, DPDK and
536 PMD.  Typically, the limit has to be raised to higher than 2GB.
537 e.g., 2621440
538
539 The compilation of any unused drivers can be disabled using the
540 configuration file in config/ directory (e.g., config/common_linuxapp).
541 This would help in bringing down the time taken for building the
542 libraries and the initialization time of the application.
543
544 Additional Reference
545 --------------------
546
547 - https://www.cisco.com/c/en/us/products/servers-unified-computing/index.html
548 - https://www.cisco.com/c/en/us/products/interfaces-modules/unified-computing-system-adapters/index.html
549
550 Contact Information
551 -------------------
552
553 Any questions or bugs should be reported to DPDK community and to the ENIC PMD
554 maintainers:
555
556 - John Daley <johndale@cisco.com>
557 - Hyong Youb Kim <hyonkim@cisco.com>