8cb3d793019086a4c5b6a7b5b54ba8a4ca79eeba
[dpdk.git] / doc / guides / linux_gsg / enable_func.rst
1 ..  BSD LICENSE
2     Copyright(c) 2010-2014 Intel Corporation. All rights reserved.
3     All rights reserved.
4
5     Redistribution and use in source and binary forms, with or without
6     modification, are permitted provided that the following conditions
7     are met:
8
9     * Redistributions of source code must retain the above copyright
10     notice, this list of conditions and the following disclaimer.
11     * Redistributions in binary form must reproduce the above copyright
12     notice, this list of conditions and the following disclaimer in
13     the documentation and/or other materials provided with the
14     distribution.
15     * Neither the name of Intel Corporation nor the names of its
16     contributors may be used to endorse or promote products derived
17     from this software without specific prior written permission.
18
19     THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
20     "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
21     LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
22     A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
23     OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
24     SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
25     LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
26     DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
27     THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
28     (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
29     OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
30
31 .. _Enabling_Additional_Functionality:
32
33 Enabling Additional Functionality
34 =================================
35
36 .. _High_Precision_Event_Timer:
37
38 High Precision Event Timer HPET) Functionality
39 ----------------------------------------------
40
41 BIOS Support
42 ~~~~~~~~~~~~
43
44 The High Precision Timer (HPET) must be enabled in the platform BIOS if the HPET is to be used.
45 Otherwise, the Time Stamp Counter (TSC) is used by default.
46 The BIOS is typically accessed by pressing F2 while the platform is starting up.
47 The user can then navigate to the HPET option. On the Crystal Forest platform BIOS, the path is:
48 **Advanced -> PCH-IO Configuration -> High Precision Timer ->** (Change from Disabled to Enabled if necessary).
49
50 On a system that has already booted, the following command can be issued to check if HPET is enabled::
51
52    grep hpet /proc/timer_list
53
54 If no entries are returned, HPET must be enabled in the BIOS (as per the instructions above) and the system rebooted.
55
56 Linux Kernel Support
57 ~~~~~~~~~~~~~~~~~~~~
58
59 The DPDK makes use of the platform HPET timer by mapping the timer counter into the process address space, and as such,
60 requires that the ``HPET_MMAP`` kernel configuration option be enabled.
61
62 .. warning::
63
64     On Fedora, and other common distributions such as Ubuntu, the ``HPET_MMAP`` kernel option is not enabled by default.
65     To recompile the Linux kernel with this option enabled, please consult the distributions documentation for the relevant instructions.
66
67 Enabling HPET in the DPDK
68 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
69
70 By default, HPET support is disabled in the DPDK build configuration files.
71 To use HPET, the ``CONFIG_RTE_LIBEAL_USE_HPET`` setting should be changed to ``y``, which will enable the HPET settings at compile time.
72
73 For an application to use the ``rte_get_hpet_cycles()`` and ``rte_get_hpet_hz()`` API calls,
74 and optionally to make the HPET the default time source for the rte_timer library,
75 the new ``rte_eal_hpet_init()`` API call should be called at application initialization.
76 This API call will ensure that the HPET is accessible, returning an error to the application if it is not,
77 for example, if ``HPET_MMAP`` is not enabled in the kernel.
78 The application can then determine what action to take, if any, if the HPET is not available at run-time.
79
80 .. note::
81
82     For applications that require timing APIs, but not the HPET timer specifically,
83     it is recommended that the ``rte_get_timer_cycles()`` and ``rte_get_timer_hz()`` API calls be used instead of the HPET-specific APIs.
84     These generic APIs can work with either TSC or HPET time sources, depending on what is requested by an application call to ``rte_eal_hpet_init()``,
85     if any, and on what is available on the system at runtime.
86
87 Running DPDK Applications Without Root Privileges
88 --------------------------------------------------------
89
90 Although applications using the DPDK use network ports and other hardware resources directly,
91 with a number of small permission adjustments it is possible to run these applications as a user other than "root".
92 To do so, the ownership, or permissions, on the following Linux file system objects should be adjusted to ensure that
93 the Linux user account being used to run the DPDK application has access to them:
94
95 *   All directories which serve as hugepage mount points, for example,   ``/mnt/huge``
96
97 *   The userspace-io device files in  ``/dev``, for example,  ``/dev/uio0``, ``/dev/uio1``, and so on
98
99 *   The userspace-io sysfs config and resource files, for example for ``uio0``::
100
101        /sys/class/uio/uio0/device/config
102        /sys/class/uio/uio0/device/resource*
103
104 *   If the HPET is to be used,  ``/dev/hpet``
105
106 .. note::
107
108     On some Linux installations, ``/dev/hugepages``  is also a hugepage mount point created by default.
109
110 Power Management and Power Saving Functionality
111 -----------------------------------------------
112
113 Enhanced Intel SpeedStep® Technology must be enabled in the platform BIOS if the power management feature of DPDK is to be used.
114 Otherwise, the sys file folder ``/sys/devices/system/cpu/cpu0/cpufreq`` will not exist, and the CPU frequency- based power management cannot be used.
115 Consult the relevant BIOS documentation to determine how these settings can be accessed.
116
117 For example, on some Intel reference platform BIOS variants, the path to Enhanced Intel SpeedStep® Technology is::
118
119    Advanced
120      -> Processor Configuration
121      -> Enhanced Intel SpeedStep® Tech
122
123 In addition, C3 and C6 should be enabled as well for power management. The path of C3 and C6 on the same platform BIOS is::
124
125    Advanced
126      -> Processor Configuration
127      -> Processor C3 Advanced
128      -> Processor Configuration
129      -> Processor C6
130
131 Using Linux Core Isolation to Reduce Context Switches
132 -----------------------------------------------------
133
134 While the threads used by an DPDK application are pinned to logical cores on the system,
135 it is possible for the Linux scheduler to run other tasks on those cores also.
136 To help prevent additional workloads from running on those cores,
137 it is possible to use the ``isolcpus`` Linux kernel parameter to isolate them from the general Linux scheduler.
138
139 For example, if DPDK applications are to run on logical cores 2, 4 and 6,
140 the following should be added to the kernel parameter list:
141
142 .. code-block:: console
143
144     isolcpus=2,4,6
145
146 Loading the DPDK KNI Kernel Module
147 ----------------------------------
148
149 To run the DPDK Kernel NIC Interface (KNI) sample application, an extra kernel module (the kni module) must be loaded into the running kernel.
150 The module is found in the kmod sub-directory of the DPDK target directory.
151 Similar to the loading of the ``igb_uio`` module, this module should be loaded using the insmod command as shown below
152 (assuming that the current directory is the DPDK target directory):
153
154 .. code-block:: console
155
156    insmod kmod/rte_kni.ko
157
158 .. note::
159
160    See the "Kernel NIC Interface Sample Application" chapter in the *DPDK Sample Applications User Guide* for more details.
161
162 Using Linux IOMMU Pass-Through to Run DPDK with Intel® VT-d
163 -----------------------------------------------------------
164
165 To enable Intel® VT-d in a Linux kernel, a number of kernel configuration options must be set. These include:
166
167 *   ``IOMMU_SUPPORT``
168
169 *   ``IOMMU_API``
170
171 *   ``INTEL_IOMMU``
172
173 In addition, to run the DPDK with Intel® VT-d, the ``iommu=pt`` kernel parameter must be used when using ``igb_uio`` driver.
174 This results in pass-through of the DMAR (DMA Remapping) lookup in the host.
175 Also, if ``INTEL_IOMMU_DEFAULT_ON`` is not set in the kernel, the ``intel_iommu=on`` kernel parameter must be used too.
176 This ensures that the Intel IOMMU is being initialized as expected.
177
178 Please note that while using ``iommu=pt`` is compulsory for ``igb_uio driver``, the ``vfio-pci`` driver can actually work with both ``iommu=pt`` and ``iommu=on``.
179
180 High Performance of Small Packets on 40G NIC
181 --------------------------------------------
182
183 As there might be firmware fixes for performance enhancement in latest version
184 of firmware image, the firmware update might be needed for getting high performance.
185 Check with the local Intel's Network Division application engineers for firmware updates.
186 The base driver to support firmware version of FVL3E will be integrated in the next
187 DPDK release, so currently the validated firmware version is 4.2.6.
188
189 Enabling Extended Tag and Setting Max Read Request Size
190 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
191
192 PCI configurations of ``extended_tag`` and max _read_requ st_size have big impacts on performance of small packets on 40G NIC.
193 Enabling extended_tag and setting ``max_read_request_size`` to small size such as 128 bytes provide great helps to high performance of small packets.
194
195 *   These can be done in some BIOS implementations.
196
197 *   For other BIOS implementations, PCI configurations can be changed by using command of ``setpci``, or special configurations in DPDK config file of ``common_linux``.
198
199     *   Bits 7:5 at address of 0xA8 of each PCI device is used for setting the max_read_request_size,
200         and bit 8 of 0xA8 of each PCI device is used for enabling/disabling the extended_tag.
201         lspci and setpci can be used to read the values of 0xA8 and then write it back after being changed.
202
203     *   In config file of common_linux, below three configurations can be changed for the same purpose.
204
205         ``CONFIG_RTE_PCI_CONFIG``
206
207         ``CONFIG_RTE_PCI_EXTENDED_TAG``
208
209         ``CONFIG_RTE_PCI_MAX_READ_REQUEST_SIZE``
210
211 * From release 16.04, ``extended_tag`` is enabled by default during port
212   initialization, users don't need to care about that anymore.
213
214 Use 16 Bytes RX Descriptor Size
215 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
216
217 As i40e PMD supports both 16 and 32 bytes RX descriptor sizes, and 16 bytes size can provide helps to high performance of small packets.
218 Configuration of ``CONFIG_RTE_LIBRTE_I40E_16BYTE_RX_DESC`` in config files can be changed to use 16 bytes size RX descriptors.
219
220 High Performance and per Packet Latency Tradeoff
221 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
222
223 Due to the hardware design, the interrupt signal inside NIC is needed for per
224 packet descriptor write-back. The minimum interval of interrupts could be set
225 at compile time by ``CONFIG_RTE_LIBRTE_I40E_ITR_INTERVAL`` in configuration files.
226 Though there is a default configuration, the interval could be tuned by the
227 users with that configuration item depends on what the user cares about more,
228 performance or per packet latency.