net/mlx4: fix default RSS hash fields
[dpdk.git] / drivers / net / mlx4 / mlx4.c
1 /* SPDX-License-Identifier: BSD-3-Clause
2  * Copyright 2012 6WIND S.A.
3  * Copyright 2012 Mellanox Technologies, Ltd
4  */
5
6 /**
7  * @file
8  * mlx4 driver initialization.
9  */
10
11 #include <assert.h>
12 #include <dlfcn.h>
13 #include <errno.h>
14 #include <inttypes.h>
15 #include <stddef.h>
16 #include <stdint.h>
17 #include <stdio.h>
18 #include <stdlib.h>
19 #include <string.h>
20 #include <unistd.h>
21
22 /* Verbs headers do not support -pedantic. */
23 #ifdef PEDANTIC
24 #pragma GCC diagnostic ignored "-Wpedantic"
25 #endif
26 #include <infiniband/verbs.h>
27 #ifdef PEDANTIC
28 #pragma GCC diagnostic error "-Wpedantic"
29 #endif
30
31 #include <rte_common.h>
32 #include <rte_config.h>
33 #include <rte_dev.h>
34 #include <rte_errno.h>
35 #include <rte_ethdev_driver.h>
36 #include <rte_ethdev_pci.h>
37 #include <rte_ether.h>
38 #include <rte_flow.h>
39 #include <rte_interrupts.h>
40 #include <rte_kvargs.h>
41 #include <rte_malloc.h>
42 #include <rte_mbuf.h>
43
44 #include "mlx4.h"
45 #include "mlx4_glue.h"
46 #include "mlx4_flow.h"
47 #include "mlx4_rxtx.h"
48 #include "mlx4_utils.h"
49
50 /** Configuration structure for device arguments. */
51 struct mlx4_conf {
52         struct {
53                 uint32_t present; /**< Bit-field for existing ports. */
54                 uint32_t enabled; /**< Bit-field for user-enabled ports. */
55         } ports;
56 };
57
58 /* Available parameters list. */
59 const char *pmd_mlx4_init_params[] = {
60         MLX4_PMD_PORT_KVARG,
61         NULL,
62 };
63
64 static void mlx4_dev_stop(struct rte_eth_dev *dev);
65
66 /**
67  * DPDK callback for Ethernet device configuration.
68  *
69  * @param dev
70  *   Pointer to Ethernet device structure.
71  *
72  * @return
73  *   0 on success, negative errno value otherwise and rte_errno is set.
74  */
75 static int
76 mlx4_dev_configure(struct rte_eth_dev *dev)
77 {
78         struct priv *priv = dev->data->dev_private;
79         struct rte_flow_error error;
80         int ret;
81
82         /* Prepare internal flow rules. */
83         ret = mlx4_flow_sync(priv, &error);
84         if (ret) {
85                 ERROR("cannot set up internal flow rules (code %d, \"%s\"),"
86                       " flow error type %d, cause %p, message: %s",
87                       -ret, strerror(-ret), error.type, error.cause,
88                       error.message ? error.message : "(unspecified)");
89                 goto exit;
90         }
91         ret = mlx4_intr_install(priv);
92         if (ret)
93                 ERROR("%p: interrupt handler installation failed",
94                       (void *)dev);
95 exit:
96         return ret;
97 }
98
99 /**
100  * DPDK callback to start the device.
101  *
102  * Simulate device start by initializing common RSS resources and attaching
103  * all configured flows.
104  *
105  * @param dev
106  *   Pointer to Ethernet device structure.
107  *
108  * @return
109  *   0 on success, negative errno value otherwise and rte_errno is set.
110  */
111 static int
112 mlx4_dev_start(struct rte_eth_dev *dev)
113 {
114         struct priv *priv = dev->data->dev_private;
115         struct rte_flow_error error;
116         int ret;
117
118         if (priv->started)
119                 return 0;
120         DEBUG("%p: attaching configured flows to all RX queues", (void *)dev);
121         priv->started = 1;
122         ret = mlx4_rss_init(priv);
123         if (ret) {
124                 ERROR("%p: cannot initialize RSS resources: %s",
125                       (void *)dev, strerror(-ret));
126                 goto err;
127         }
128         ret = mlx4_rxq_intr_enable(priv);
129         if (ret) {
130                 ERROR("%p: interrupt handler installation failed",
131                      (void *)dev);
132                 goto err;
133         }
134         ret = mlx4_flow_sync(priv, &error);
135         if (ret) {
136                 ERROR("%p: cannot attach flow rules (code %d, \"%s\"),"
137                       " flow error type %d, cause %p, message: %s",
138                       (void *)dev,
139                       -ret, strerror(-ret), error.type, error.cause,
140                       error.message ? error.message : "(unspecified)");
141                 goto err;
142         }
143         rte_wmb();
144         dev->tx_pkt_burst = mlx4_tx_burst;
145         dev->rx_pkt_burst = mlx4_rx_burst;
146         return 0;
147 err:
148         mlx4_dev_stop(dev);
149         return ret;
150 }
151
152 /**
153  * DPDK callback to stop the device.
154  *
155  * Simulate device stop by detaching all configured flows.
156  *
157  * @param dev
158  *   Pointer to Ethernet device structure.
159  */
160 static void
161 mlx4_dev_stop(struct rte_eth_dev *dev)
162 {
163         struct priv *priv = dev->data->dev_private;
164
165         if (!priv->started)
166                 return;
167         DEBUG("%p: detaching flows from all RX queues", (void *)dev);
168         priv->started = 0;
169         dev->tx_pkt_burst = mlx4_tx_burst_removed;
170         dev->rx_pkt_burst = mlx4_rx_burst_removed;
171         rte_wmb();
172         mlx4_flow_sync(priv, NULL);
173         mlx4_rxq_intr_disable(priv);
174         mlx4_rss_deinit(priv);
175 }
176
177 /**
178  * DPDK callback to close the device.
179  *
180  * Destroy all queues and objects, free memory.
181  *
182  * @param dev
183  *   Pointer to Ethernet device structure.
184  */
185 static void
186 mlx4_dev_close(struct rte_eth_dev *dev)
187 {
188         struct priv *priv = dev->data->dev_private;
189         unsigned int i;
190
191         DEBUG("%p: closing device \"%s\"",
192               (void *)dev,
193               ((priv->ctx != NULL) ? priv->ctx->device->name : ""));
194         dev->rx_pkt_burst = mlx4_rx_burst_removed;
195         dev->tx_pkt_burst = mlx4_tx_burst_removed;
196         rte_wmb();
197         mlx4_flow_clean(priv);
198         mlx4_rss_deinit(priv);
199         for (i = 0; i != dev->data->nb_rx_queues; ++i)
200                 mlx4_rx_queue_release(dev->data->rx_queues[i]);
201         for (i = 0; i != dev->data->nb_tx_queues; ++i)
202                 mlx4_tx_queue_release(dev->data->tx_queues[i]);
203         if (priv->pd != NULL) {
204                 assert(priv->ctx != NULL);
205                 claim_zero(mlx4_glue->dealloc_pd(priv->pd));
206                 claim_zero(mlx4_glue->close_device(priv->ctx));
207         } else
208                 assert(priv->ctx == NULL);
209         mlx4_intr_uninstall(priv);
210         memset(priv, 0, sizeof(*priv));
211 }
212
213 static const struct eth_dev_ops mlx4_dev_ops = {
214         .dev_configure = mlx4_dev_configure,
215         .dev_start = mlx4_dev_start,
216         .dev_stop = mlx4_dev_stop,
217         .dev_set_link_down = mlx4_dev_set_link_down,
218         .dev_set_link_up = mlx4_dev_set_link_up,
219         .dev_close = mlx4_dev_close,
220         .link_update = mlx4_link_update,
221         .promiscuous_enable = mlx4_promiscuous_enable,
222         .promiscuous_disable = mlx4_promiscuous_disable,
223         .allmulticast_enable = mlx4_allmulticast_enable,
224         .allmulticast_disable = mlx4_allmulticast_disable,
225         .mac_addr_remove = mlx4_mac_addr_remove,
226         .mac_addr_add = mlx4_mac_addr_add,
227         .mac_addr_set = mlx4_mac_addr_set,
228         .stats_get = mlx4_stats_get,
229         .stats_reset = mlx4_stats_reset,
230         .dev_infos_get = mlx4_dev_infos_get,
231         .dev_supported_ptypes_get = mlx4_dev_supported_ptypes_get,
232         .vlan_filter_set = mlx4_vlan_filter_set,
233         .rx_queue_setup = mlx4_rx_queue_setup,
234         .tx_queue_setup = mlx4_tx_queue_setup,
235         .rx_queue_release = mlx4_rx_queue_release,
236         .tx_queue_release = mlx4_tx_queue_release,
237         .flow_ctrl_get = mlx4_flow_ctrl_get,
238         .flow_ctrl_set = mlx4_flow_ctrl_set,
239         .mtu_set = mlx4_mtu_set,
240         .filter_ctrl = mlx4_filter_ctrl,
241         .rx_queue_intr_enable = mlx4_rx_intr_enable,
242         .rx_queue_intr_disable = mlx4_rx_intr_disable,
243         .is_removed = mlx4_is_removed,
244 };
245
246 /**
247  * Get PCI information from struct ibv_device.
248  *
249  * @param device
250  *   Pointer to Ethernet device structure.
251  * @param[out] pci_addr
252  *   PCI bus address output buffer.
253  *
254  * @return
255  *   0 on success, negative errno value otherwise and rte_errno is set.
256  */
257 static int
258 mlx4_ibv_device_to_pci_addr(const struct ibv_device *device,
259                             struct rte_pci_addr *pci_addr)
260 {
261         FILE *file;
262         char line[32];
263         MKSTR(path, "%s/device/uevent", device->ibdev_path);
264
265         file = fopen(path, "rb");
266         if (file == NULL) {
267                 rte_errno = errno;
268                 return -rte_errno;
269         }
270         while (fgets(line, sizeof(line), file) == line) {
271                 size_t len = strlen(line);
272                 int ret;
273
274                 /* Truncate long lines. */
275                 if (len == (sizeof(line) - 1))
276                         while (line[(len - 1)] != '\n') {
277                                 ret = fgetc(file);
278                                 if (ret == EOF)
279                                         break;
280                                 line[(len - 1)] = ret;
281                         }
282                 /* Extract information. */
283                 if (sscanf(line,
284                            "PCI_SLOT_NAME="
285                            "%" SCNx32 ":%" SCNx8 ":%" SCNx8 ".%" SCNx8 "\n",
286                            &pci_addr->domain,
287                            &pci_addr->bus,
288                            &pci_addr->devid,
289                            &pci_addr->function) == 4) {
290                         ret = 0;
291                         break;
292                 }
293         }
294         fclose(file);
295         return 0;
296 }
297
298 /**
299  * Verify and store value for device argument.
300  *
301  * @param[in] key
302  *   Key argument to verify.
303  * @param[in] val
304  *   Value associated with key.
305  * @param[in, out] conf
306  *   Shared configuration data.
307  *
308  * @return
309  *   0 on success, negative errno value otherwise and rte_errno is set.
310  */
311 static int
312 mlx4_arg_parse(const char *key, const char *val, struct mlx4_conf *conf)
313 {
314         unsigned long tmp;
315
316         errno = 0;
317         tmp = strtoul(val, NULL, 0);
318         if (errno) {
319                 rte_errno = errno;
320                 WARN("%s: \"%s\" is not a valid integer", key, val);
321                 return -rte_errno;
322         }
323         if (strcmp(MLX4_PMD_PORT_KVARG, key) == 0) {
324                 uint32_t ports = rte_log2_u32(conf->ports.present + 1);
325
326                 if (tmp >= ports) {
327                         ERROR("port index %lu outside range [0,%" PRIu32 ")",
328                               tmp, ports);
329                         return -EINVAL;
330                 }
331                 if (!(conf->ports.present & (1 << tmp))) {
332                         rte_errno = EINVAL;
333                         ERROR("invalid port index %lu", tmp);
334                         return -rte_errno;
335                 }
336                 conf->ports.enabled |= 1 << tmp;
337         } else {
338                 rte_errno = EINVAL;
339                 WARN("%s: unknown parameter", key);
340                 return -rte_errno;
341         }
342         return 0;
343 }
344
345 /**
346  * Parse device parameters.
347  *
348  * @param devargs
349  *   Device arguments structure.
350  *
351  * @return
352  *   0 on success, negative errno value otherwise and rte_errno is set.
353  */
354 static int
355 mlx4_args(struct rte_devargs *devargs, struct mlx4_conf *conf)
356 {
357         struct rte_kvargs *kvlist;
358         unsigned int arg_count;
359         int ret = 0;
360         int i;
361
362         if (devargs == NULL)
363                 return 0;
364         kvlist = rte_kvargs_parse(devargs->args, pmd_mlx4_init_params);
365         if (kvlist == NULL) {
366                 rte_errno = EINVAL;
367                 ERROR("failed to parse kvargs");
368                 return -rte_errno;
369         }
370         /* Process parameters. */
371         for (i = 0; pmd_mlx4_init_params[i]; ++i) {
372                 arg_count = rte_kvargs_count(kvlist, MLX4_PMD_PORT_KVARG);
373                 while (arg_count-- > 0) {
374                         ret = rte_kvargs_process(kvlist,
375                                                  MLX4_PMD_PORT_KVARG,
376                                                  (int (*)(const char *,
377                                                           const char *,
378                                                           void *))
379                                                  mlx4_arg_parse,
380                                                  conf);
381                         if (ret != 0)
382                                 goto free_kvlist;
383                 }
384         }
385 free_kvlist:
386         rte_kvargs_free(kvlist);
387         return ret;
388 }
389
390 static struct rte_pci_driver mlx4_driver;
391
392 /**
393  * DPDK callback to register a PCI device.
394  *
395  * This function creates an Ethernet device for each port of a given
396  * PCI device.
397  *
398  * @param[in] pci_drv
399  *   PCI driver structure (mlx4_driver).
400  * @param[in] pci_dev
401  *   PCI device information.
402  *
403  * @return
404  *   0 on success, negative errno value otherwise and rte_errno is set.
405  */
406 static int
407 mlx4_pci_probe(struct rte_pci_driver *pci_drv, struct rte_pci_device *pci_dev)
408 {
409         struct ibv_device **list;
410         struct ibv_device *ibv_dev;
411         int err = 0;
412         struct ibv_context *attr_ctx = NULL;
413         struct ibv_device_attr device_attr;
414         struct ibv_device_attr_ex device_attr_ex;
415         struct mlx4_conf conf = {
416                 .ports.present = 0,
417         };
418         unsigned int vf;
419         int i;
420
421         (void)pci_drv;
422         assert(pci_drv == &mlx4_driver);
423         list = mlx4_glue->get_device_list(&i);
424         if (list == NULL) {
425                 rte_errno = errno;
426                 assert(rte_errno);
427                 if (rte_errno == ENOSYS)
428                         ERROR("cannot list devices, is ib_uverbs loaded?");
429                 return -rte_errno;
430         }
431         assert(i >= 0);
432         /*
433          * For each listed device, check related sysfs entry against
434          * the provided PCI ID.
435          */
436         while (i != 0) {
437                 struct rte_pci_addr pci_addr;
438
439                 --i;
440                 DEBUG("checking device \"%s\"", list[i]->name);
441                 if (mlx4_ibv_device_to_pci_addr(list[i], &pci_addr))
442                         continue;
443                 if ((pci_dev->addr.domain != pci_addr.domain) ||
444                     (pci_dev->addr.bus != pci_addr.bus) ||
445                     (pci_dev->addr.devid != pci_addr.devid) ||
446                     (pci_dev->addr.function != pci_addr.function))
447                         continue;
448                 vf = (pci_dev->id.device_id ==
449                       PCI_DEVICE_ID_MELLANOX_CONNECTX3VF);
450                 INFO("PCI information matches, using device \"%s\" (VF: %s)",
451                      list[i]->name, (vf ? "true" : "false"));
452                 attr_ctx = mlx4_glue->open_device(list[i]);
453                 err = errno;
454                 break;
455         }
456         if (attr_ctx == NULL) {
457                 mlx4_glue->free_device_list(list);
458                 switch (err) {
459                 case 0:
460                         rte_errno = ENODEV;
461                         ERROR("cannot access device, is mlx4_ib loaded?");
462                         return -rte_errno;
463                 case EINVAL:
464                         rte_errno = EINVAL;
465                         ERROR("cannot use device, are drivers up to date?");
466                         return -rte_errno;
467                 }
468                 assert(err > 0);
469                 rte_errno = err;
470                 return -rte_errno;
471         }
472         ibv_dev = list[i];
473         DEBUG("device opened");
474         if (mlx4_glue->query_device(attr_ctx, &device_attr)) {
475                 rte_errno = ENODEV;
476                 goto error;
477         }
478         INFO("%u port(s) detected", device_attr.phys_port_cnt);
479         conf.ports.present |= (UINT64_C(1) << device_attr.phys_port_cnt) - 1;
480         if (mlx4_args(pci_dev->device.devargs, &conf)) {
481                 ERROR("failed to process device arguments");
482                 rte_errno = EINVAL;
483                 goto error;
484         }
485         /* Use all ports when none are defined */
486         if (!conf.ports.enabled)
487                 conf.ports.enabled = conf.ports.present;
488         /* Retrieve extended device attributes. */
489         if (mlx4_glue->query_device_ex(attr_ctx, NULL, &device_attr_ex)) {
490                 rte_errno = ENODEV;
491                 goto error;
492         }
493         assert(device_attr.max_sge >= MLX4_MAX_SGE);
494         for (i = 0; i < device_attr.phys_port_cnt; i++) {
495                 uint32_t port = i + 1; /* ports are indexed from one */
496                 struct ibv_context *ctx = NULL;
497                 struct ibv_port_attr port_attr;
498                 struct ibv_pd *pd = NULL;
499                 struct priv *priv = NULL;
500                 struct rte_eth_dev *eth_dev = NULL;
501                 struct ether_addr mac;
502
503                 /* If port is not enabled, skip. */
504                 if (!(conf.ports.enabled & (1 << i)))
505                         continue;
506                 DEBUG("using port %u", port);
507                 ctx = mlx4_glue->open_device(ibv_dev);
508                 if (ctx == NULL) {
509                         rte_errno = ENODEV;
510                         goto port_error;
511                 }
512                 /* Check port status. */
513                 err = mlx4_glue->query_port(ctx, port, &port_attr);
514                 if (err) {
515                         rte_errno = err;
516                         ERROR("port query failed: %s", strerror(rte_errno));
517                         goto port_error;
518                 }
519                 if (port_attr.link_layer != IBV_LINK_LAYER_ETHERNET) {
520                         rte_errno = ENOTSUP;
521                         ERROR("port %d is not configured in Ethernet mode",
522                               port);
523                         goto port_error;
524                 }
525                 if (port_attr.state != IBV_PORT_ACTIVE)
526                         DEBUG("port %d is not active: \"%s\" (%d)",
527                               port, mlx4_glue->port_state_str(port_attr.state),
528                               port_attr.state);
529                 /* Make asynchronous FD non-blocking to handle interrupts. */
530                 if (mlx4_fd_set_non_blocking(ctx->async_fd) < 0) {
531                         ERROR("cannot make asynchronous FD non-blocking: %s",
532                               strerror(rte_errno));
533                         goto port_error;
534                 }
535                 /* Allocate protection domain. */
536                 pd = mlx4_glue->alloc_pd(ctx);
537                 if (pd == NULL) {
538                         rte_errno = ENOMEM;
539                         ERROR("PD allocation failure");
540                         goto port_error;
541                 }
542                 /* from rte_ethdev.c */
543                 priv = rte_zmalloc("ethdev private structure",
544                                    sizeof(*priv),
545                                    RTE_CACHE_LINE_SIZE);
546                 if (priv == NULL) {
547                         rte_errno = ENOMEM;
548                         ERROR("priv allocation failure");
549                         goto port_error;
550                 }
551                 priv->ctx = ctx;
552                 priv->device_attr = device_attr;
553                 priv->port = port;
554                 priv->pd = pd;
555                 priv->mtu = ETHER_MTU;
556                 priv->vf = vf;
557                 priv->hw_csum = !!(device_attr.device_cap_flags &
558                                    IBV_DEVICE_RAW_IP_CSUM);
559                 DEBUG("checksum offloading is %ssupported",
560                       (priv->hw_csum ? "" : "not "));
561                 /* Only ConnectX-3 Pro supports tunneling. */
562                 priv->hw_csum_l2tun =
563                         priv->hw_csum &&
564                         (device_attr.vendor_part_id ==
565                          PCI_DEVICE_ID_MELLANOX_CONNECTX3PRO);
566                 DEBUG("L2 tunnel checksum offloads are %ssupported",
567                       priv->hw_csum_l2tun ? "" : "not ");
568                 priv->hw_rss_sup = device_attr_ex.rss_caps.rx_hash_fields_mask;
569                 if (!priv->hw_rss_sup) {
570                         WARN("no RSS capabilities reported; disabling support"
571                              " for UDP RSS and inner VXLAN RSS");
572                         priv->hw_rss_sup =
573                                 IBV_RX_HASH_SRC_IPV4 |
574                                 IBV_RX_HASH_DST_IPV4 |
575                                 IBV_RX_HASH_SRC_IPV6 |
576                                 IBV_RX_HASH_DST_IPV6 |
577                                 IBV_RX_HASH_SRC_PORT_TCP |
578                                 IBV_RX_HASH_DST_PORT_TCP;
579                 }
580                 DEBUG("supported RSS hash fields mask: %016" PRIx64,
581                       priv->hw_rss_sup);
582                 priv->hw_fcs_strip = !!(device_attr_ex.raw_packet_caps &
583                                         IBV_RAW_PACKET_CAP_SCATTER_FCS);
584                 DEBUG("FCS stripping toggling is %ssupported",
585                       priv->hw_fcs_strip ? "" : "not ");
586                 /* Configure the first MAC address by default. */
587                 if (mlx4_get_mac(priv, &mac.addr_bytes)) {
588                         ERROR("cannot get MAC address, is mlx4_en loaded?"
589                               " (rte_errno: %s)", strerror(rte_errno));
590                         goto port_error;
591                 }
592                 INFO("port %u MAC address is %02x:%02x:%02x:%02x:%02x:%02x",
593                      priv->port,
594                      mac.addr_bytes[0], mac.addr_bytes[1],
595                      mac.addr_bytes[2], mac.addr_bytes[3],
596                      mac.addr_bytes[4], mac.addr_bytes[5]);
597                 /* Register MAC address. */
598                 priv->mac[0] = mac;
599 #ifndef NDEBUG
600                 {
601                         char ifname[IF_NAMESIZE];
602
603                         if (mlx4_get_ifname(priv, &ifname) == 0)
604                                 DEBUG("port %u ifname is \"%s\"",
605                                       priv->port, ifname);
606                         else
607                                 DEBUG("port %u ifname is unknown", priv->port);
608                 }
609 #endif
610                 /* Get actual MTU if possible. */
611                 mlx4_mtu_get(priv, &priv->mtu);
612                 DEBUG("port %u MTU is %u", priv->port, priv->mtu);
613                 /* from rte_ethdev.c */
614                 {
615                         char name[RTE_ETH_NAME_MAX_LEN];
616
617                         snprintf(name, sizeof(name), "%s port %u",
618                                  mlx4_glue->get_device_name(ibv_dev), port);
619                         eth_dev = rte_eth_dev_allocate(name);
620                 }
621                 if (eth_dev == NULL) {
622                         ERROR("can not allocate rte ethdev");
623                         rte_errno = ENOMEM;
624                         goto port_error;
625                 }
626                 eth_dev->data->dev_private = priv;
627                 eth_dev->data->mac_addrs = priv->mac;
628                 eth_dev->device = &pci_dev->device;
629                 rte_eth_copy_pci_info(eth_dev, pci_dev);
630                 eth_dev->device->driver = &mlx4_driver.driver;
631                 /* Initialize local interrupt handle for current port. */
632                 priv->intr_handle = (struct rte_intr_handle){
633                         .fd = -1,
634                         .type = RTE_INTR_HANDLE_EXT,
635                 };
636                 /*
637                  * Override ethdev interrupt handle pointer with private
638                  * handle instead of that of the parent PCI device used by
639                  * default. This prevents it from being shared between all
640                  * ports of the same PCI device since each of them is
641                  * associated its own Verbs context.
642                  *
643                  * Rx interrupts in particular require this as the PMD has
644                  * no control over the registration of queue interrupts
645                  * besides setting up eth_dev->intr_handle, the rest is
646                  * handled by rte_intr_rx_ctl().
647                  */
648                 eth_dev->intr_handle = &priv->intr_handle;
649                 priv->dev = eth_dev;
650                 eth_dev->dev_ops = &mlx4_dev_ops;
651                 /* Bring Ethernet device up. */
652                 DEBUG("forcing Ethernet interface up");
653                 mlx4_dev_set_link_up(priv->dev);
654                 /* Update link status once if waiting for LSC. */
655                 if (eth_dev->data->dev_flags & RTE_ETH_DEV_INTR_LSC)
656                         mlx4_link_update(eth_dev, 0);
657                 continue;
658 port_error:
659                 rte_free(priv);
660                 if (pd)
661                         claim_zero(mlx4_glue->dealloc_pd(pd));
662                 if (ctx)
663                         claim_zero(mlx4_glue->close_device(ctx));
664                 if (eth_dev)
665                         rte_eth_dev_release_port(eth_dev);
666                 break;
667         }
668         if (i == device_attr.phys_port_cnt)
669                 return 0;
670         /*
671          * XXX if something went wrong in the loop above, there is a resource
672          * leak (ctx, pd, priv, dpdk ethdev) but we can do nothing about it as
673          * long as the dpdk does not provide a way to deallocate a ethdev and a
674          * way to enumerate the registered ethdevs to free the previous ones.
675          */
676 error:
677         if (attr_ctx)
678                 claim_zero(mlx4_glue->close_device(attr_ctx));
679         if (list)
680                 mlx4_glue->free_device_list(list);
681         assert(rte_errno >= 0);
682         return -rte_errno;
683 }
684
685 static const struct rte_pci_id mlx4_pci_id_map[] = {
686         {
687                 RTE_PCI_DEVICE(PCI_VENDOR_ID_MELLANOX,
688                                PCI_DEVICE_ID_MELLANOX_CONNECTX3)
689         },
690         {
691                 RTE_PCI_DEVICE(PCI_VENDOR_ID_MELLANOX,
692                                PCI_DEVICE_ID_MELLANOX_CONNECTX3PRO)
693         },
694         {
695                 RTE_PCI_DEVICE(PCI_VENDOR_ID_MELLANOX,
696                                PCI_DEVICE_ID_MELLANOX_CONNECTX3VF)
697         },
698         {
699                 .vendor_id = 0
700         }
701 };
702
703 static struct rte_pci_driver mlx4_driver = {
704         .driver = {
705                 .name = MLX4_DRIVER_NAME
706         },
707         .id_table = mlx4_pci_id_map,
708         .probe = mlx4_pci_probe,
709         .drv_flags = RTE_PCI_DRV_INTR_LSC |
710                      RTE_PCI_DRV_INTR_RMV,
711 };
712
713 #ifdef RTE_LIBRTE_MLX4_DLOPEN_DEPS
714
715 /**
716  * Suffix RTE_EAL_PMD_PATH with "-glue".
717  *
718  * This function performs a sanity check on RTE_EAL_PMD_PATH before
719  * suffixing its last component.
720  *
721  * @param buf[out]
722  *   Output buffer, should be large enough otherwise NULL is returned.
723  * @param size
724  *   Size of @p out.
725  *
726  * @return
727  *   Pointer to @p buf or @p NULL in case suffix cannot be appended.
728  */
729 static char *
730 mlx4_glue_path(char *buf, size_t size)
731 {
732         static const char *const bad[] = { "/", ".", "..", NULL };
733         const char *path = RTE_EAL_PMD_PATH;
734         size_t len = strlen(path);
735         size_t off;
736         int i;
737
738         while (len && path[len - 1] == '/')
739                 --len;
740         for (off = len; off && path[off - 1] != '/'; --off)
741                 ;
742         for (i = 0; bad[i]; ++i)
743                 if (!strncmp(path + off, bad[i], (int)(len - off)))
744                         goto error;
745         i = snprintf(buf, size, "%.*s-glue", (int)len, path);
746         if (i == -1 || (size_t)i >= size)
747                 goto error;
748         return buf;
749 error:
750         ERROR("unable to append \"-glue\" to last component of"
751               " RTE_EAL_PMD_PATH (\"" RTE_EAL_PMD_PATH "\"),"
752               " please re-configure DPDK");
753         return NULL;
754 }
755
756 /**
757  * Initialization routine for run-time dependency on rdma-core.
758  */
759 static int
760 mlx4_glue_init(void)
761 {
762         char glue_path[sizeof(RTE_EAL_PMD_PATH) - 1 + sizeof("-glue")];
763         const char *path[] = {
764                 /*
765                  * A basic security check is necessary before trusting
766                  * MLX4_GLUE_PATH, which may override RTE_EAL_PMD_PATH.
767                  */
768                 (geteuid() == getuid() && getegid() == getgid() ?
769                  getenv("MLX4_GLUE_PATH") : NULL),
770                 /*
771                  * When RTE_EAL_PMD_PATH is set, use its glue-suffixed
772                  * variant, otherwise let dlopen() look up libraries on its
773                  * own.
774                  */
775                 (*RTE_EAL_PMD_PATH ?
776                  mlx4_glue_path(glue_path, sizeof(glue_path)) : ""),
777         };
778         unsigned int i = 0;
779         void *handle = NULL;
780         void **sym;
781         const char *dlmsg;
782
783         while (!handle && i != RTE_DIM(path)) {
784                 const char *end;
785                 size_t len;
786                 int ret;
787
788                 if (!path[i]) {
789                         ++i;
790                         continue;
791                 }
792                 end = strpbrk(path[i], ":;");
793                 if (!end)
794                         end = path[i] + strlen(path[i]);
795                 len = end - path[i];
796                 ret = 0;
797                 do {
798                         char name[ret + 1];
799
800                         ret = snprintf(name, sizeof(name), "%.*s%s" MLX4_GLUE,
801                                        (int)len, path[i],
802                                        (!len || *(end - 1) == '/') ? "" : "/");
803                         if (ret == -1)
804                                 break;
805                         if (sizeof(name) != (size_t)ret + 1)
806                                 continue;
807                         DEBUG("looking for rdma-core glue as \"%s\"", name);
808                         handle = dlopen(name, RTLD_LAZY);
809                         break;
810                 } while (1);
811                 path[i] = end + 1;
812                 if (!*end)
813                         ++i;
814         }
815         if (!handle) {
816                 rte_errno = EINVAL;
817                 dlmsg = dlerror();
818                 if (dlmsg)
819                         WARN("cannot load glue library: %s", dlmsg);
820                 goto glue_error;
821         }
822         sym = dlsym(handle, "mlx4_glue");
823         if (!sym || !*sym) {
824                 rte_errno = EINVAL;
825                 dlmsg = dlerror();
826                 if (dlmsg)
827                         ERROR("cannot resolve glue symbol: %s", dlmsg);
828                 goto glue_error;
829         }
830         mlx4_glue = *sym;
831         return 0;
832 glue_error:
833         if (handle)
834                 dlclose(handle);
835         WARN("cannot initialize PMD due to missing run-time"
836              " dependency on rdma-core libraries (libibverbs,"
837              " libmlx4)");
838         return -rte_errno;
839 }
840
841 #endif
842
843 /**
844  * Driver initialization routine.
845  */
846 RTE_INIT(rte_mlx4_pmd_init);
847 static void
848 rte_mlx4_pmd_init(void)
849 {
850         /*
851          * MLX4_DEVICE_FATAL_CLEANUP tells ibv_destroy functions we
852          * want to get success errno value in case of calling them
853          * when the device was removed.
854          */
855         setenv("MLX4_DEVICE_FATAL_CLEANUP", "1", 1);
856         /*
857          * RDMAV_HUGEPAGES_SAFE tells ibv_fork_init() we intend to use
858          * huge pages. Calling ibv_fork_init() during init allows
859          * applications to use fork() safely for purposes other than
860          * using this PMD, which is not supported in forked processes.
861          */
862         setenv("RDMAV_HUGEPAGES_SAFE", "1", 1);
863 #ifdef RTE_LIBRTE_MLX4_DLOPEN_DEPS
864         if (mlx4_glue_init())
865                 return;
866         assert(mlx4_glue);
867 #endif
868 #ifndef NDEBUG
869         /* Glue structure must not contain any NULL pointers. */
870         {
871                 unsigned int i;
872
873                 for (i = 0; i != sizeof(*mlx4_glue) / sizeof(void *); ++i)
874                         assert(((const void *const *)mlx4_glue)[i]);
875         }
876 #endif
877         if (strcmp(mlx4_glue->version, MLX4_GLUE_VERSION)) {
878                 ERROR("rdma-core glue \"%s\" mismatch: \"%s\" is required",
879                       mlx4_glue->version, MLX4_GLUE_VERSION);
880                 return;
881         }
882         mlx4_glue->fork_init();
883         rte_pci_register(&mlx4_driver);
884 }
885
886 RTE_PMD_EXPORT_NAME(net_mlx4, __COUNTER__);
887 RTE_PMD_REGISTER_PCI_TABLE(net_mlx4, mlx4_pci_id_map);
888 RTE_PMD_REGISTER_KMOD_DEP(net_mlx4,
889         "* ib_uverbs & mlx4_en & mlx4_core & mlx4_ib");