net/mlx4: fix Rx resource leak in case of error
[dpdk.git] / drivers / net / mlx4 / mlx4.c
1 /* SPDX-License-Identifier: BSD-3-Clause
2  * Copyright 2012 6WIND S.A.
3  * Copyright 2012 Mellanox Technologies, Ltd
4  */
5
6 /**
7  * @file
8  * mlx4 driver initialization.
9  */
10
11 #include <assert.h>
12 #include <dlfcn.h>
13 #include <errno.h>
14 #include <inttypes.h>
15 #include <stddef.h>
16 #include <stdint.h>
17 #include <stdio.h>
18 #include <stdlib.h>
19 #include <string.h>
20 #include <unistd.h>
21
22 /* Verbs headers do not support -pedantic. */
23 #ifdef PEDANTIC
24 #pragma GCC diagnostic ignored "-Wpedantic"
25 #endif
26 #include <infiniband/verbs.h>
27 #ifdef PEDANTIC
28 #pragma GCC diagnostic error "-Wpedantic"
29 #endif
30
31 #include <rte_common.h>
32 #include <rte_config.h>
33 #include <rte_dev.h>
34 #include <rte_errno.h>
35 #include <rte_ethdev_driver.h>
36 #include <rte_ethdev_pci.h>
37 #include <rte_ether.h>
38 #include <rte_flow.h>
39 #include <rte_interrupts.h>
40 #include <rte_kvargs.h>
41 #include <rte_malloc.h>
42 #include <rte_mbuf.h>
43
44 #include "mlx4.h"
45 #include "mlx4_glue.h"
46 #include "mlx4_flow.h"
47 #include "mlx4_rxtx.h"
48 #include "mlx4_utils.h"
49
50 /** Configuration structure for device arguments. */
51 struct mlx4_conf {
52         struct {
53                 uint32_t present; /**< Bit-field for existing ports. */
54                 uint32_t enabled; /**< Bit-field for user-enabled ports. */
55         } ports;
56 };
57
58 /* Available parameters list. */
59 const char *pmd_mlx4_init_params[] = {
60         MLX4_PMD_PORT_KVARG,
61         NULL,
62 };
63
64 static void mlx4_dev_stop(struct rte_eth_dev *dev);
65
66 /**
67  * DPDK callback for Ethernet device configuration.
68  *
69  * @param dev
70  *   Pointer to Ethernet device structure.
71  *
72  * @return
73  *   0 on success, negative errno value otherwise and rte_errno is set.
74  */
75 static int
76 mlx4_dev_configure(struct rte_eth_dev *dev)
77 {
78         struct priv *priv = dev->data->dev_private;
79         struct rte_flow_error error;
80         int ret;
81
82         /* Prepare internal flow rules. */
83         ret = mlx4_flow_sync(priv, &error);
84         if (ret) {
85                 ERROR("cannot set up internal flow rules (code %d, \"%s\"),"
86                       " flow error type %d, cause %p, message: %s",
87                       -ret, strerror(-ret), error.type, error.cause,
88                       error.message ? error.message : "(unspecified)");
89                 goto exit;
90         }
91         ret = mlx4_intr_install(priv);
92         if (ret)
93                 ERROR("%p: interrupt handler installation failed",
94                       (void *)dev);
95 exit:
96         return ret;
97 }
98
99 /**
100  * DPDK callback to start the device.
101  *
102  * Simulate device start by initializing common RSS resources and attaching
103  * all configured flows.
104  *
105  * @param dev
106  *   Pointer to Ethernet device structure.
107  *
108  * @return
109  *   0 on success, negative errno value otherwise and rte_errno is set.
110  */
111 static int
112 mlx4_dev_start(struct rte_eth_dev *dev)
113 {
114         struct priv *priv = dev->data->dev_private;
115         struct rte_flow_error error;
116         int ret;
117
118         if (priv->started)
119                 return 0;
120         DEBUG("%p: attaching configured flows to all RX queues", (void *)dev);
121         priv->started = 1;
122         ret = mlx4_rss_init(priv);
123         if (ret) {
124                 ERROR("%p: cannot initialize RSS resources: %s",
125                       (void *)dev, strerror(-ret));
126                 goto err;
127         }
128         ret = mlx4_rxq_intr_enable(priv);
129         if (ret) {
130                 ERROR("%p: interrupt handler installation failed",
131                      (void *)dev);
132                 goto err;
133         }
134         ret = mlx4_flow_sync(priv, &error);
135         if (ret) {
136                 ERROR("%p: cannot attach flow rules (code %d, \"%s\"),"
137                       " flow error type %d, cause %p, message: %s",
138                       (void *)dev,
139                       -ret, strerror(-ret), error.type, error.cause,
140                       error.message ? error.message : "(unspecified)");
141                 goto err;
142         }
143         rte_wmb();
144         dev->tx_pkt_burst = mlx4_tx_burst;
145         dev->rx_pkt_burst = mlx4_rx_burst;
146         return 0;
147 err:
148         mlx4_dev_stop(dev);
149         return ret;
150 }
151
152 /**
153  * DPDK callback to stop the device.
154  *
155  * Simulate device stop by detaching all configured flows.
156  *
157  * @param dev
158  *   Pointer to Ethernet device structure.
159  */
160 static void
161 mlx4_dev_stop(struct rte_eth_dev *dev)
162 {
163         struct priv *priv = dev->data->dev_private;
164
165         if (!priv->started)
166                 return;
167         DEBUG("%p: detaching flows from all RX queues", (void *)dev);
168         priv->started = 0;
169         dev->tx_pkt_burst = mlx4_tx_burst_removed;
170         dev->rx_pkt_burst = mlx4_rx_burst_removed;
171         rte_wmb();
172         mlx4_flow_sync(priv, NULL);
173         mlx4_rxq_intr_disable(priv);
174         mlx4_rss_deinit(priv);
175 }
176
177 /**
178  * DPDK callback to close the device.
179  *
180  * Destroy all queues and objects, free memory.
181  *
182  * @param dev
183  *   Pointer to Ethernet device structure.
184  */
185 static void
186 mlx4_dev_close(struct rte_eth_dev *dev)
187 {
188         struct priv *priv = dev->data->dev_private;
189         unsigned int i;
190
191         DEBUG("%p: closing device \"%s\"",
192               (void *)dev,
193               ((priv->ctx != NULL) ? priv->ctx->device->name : ""));
194         dev->rx_pkt_burst = mlx4_rx_burst_removed;
195         dev->tx_pkt_burst = mlx4_tx_burst_removed;
196         rte_wmb();
197         mlx4_flow_clean(priv);
198         mlx4_rss_deinit(priv);
199         for (i = 0; i != dev->data->nb_rx_queues; ++i)
200                 mlx4_rx_queue_release(dev->data->rx_queues[i]);
201         for (i = 0; i != dev->data->nb_tx_queues; ++i)
202                 mlx4_tx_queue_release(dev->data->tx_queues[i]);
203         if (priv->pd != NULL) {
204                 assert(priv->ctx != NULL);
205                 claim_zero(mlx4_glue->dealloc_pd(priv->pd));
206                 claim_zero(mlx4_glue->close_device(priv->ctx));
207         } else
208                 assert(priv->ctx == NULL);
209         mlx4_intr_uninstall(priv);
210         memset(priv, 0, sizeof(*priv));
211 }
212
213 static const struct eth_dev_ops mlx4_dev_ops = {
214         .dev_configure = mlx4_dev_configure,
215         .dev_start = mlx4_dev_start,
216         .dev_stop = mlx4_dev_stop,
217         .dev_set_link_down = mlx4_dev_set_link_down,
218         .dev_set_link_up = mlx4_dev_set_link_up,
219         .dev_close = mlx4_dev_close,
220         .link_update = mlx4_link_update,
221         .promiscuous_enable = mlx4_promiscuous_enable,
222         .promiscuous_disable = mlx4_promiscuous_disable,
223         .allmulticast_enable = mlx4_allmulticast_enable,
224         .allmulticast_disable = mlx4_allmulticast_disable,
225         .mac_addr_remove = mlx4_mac_addr_remove,
226         .mac_addr_add = mlx4_mac_addr_add,
227         .mac_addr_set = mlx4_mac_addr_set,
228         .stats_get = mlx4_stats_get,
229         .stats_reset = mlx4_stats_reset,
230         .dev_infos_get = mlx4_dev_infos_get,
231         .dev_supported_ptypes_get = mlx4_dev_supported_ptypes_get,
232         .vlan_filter_set = mlx4_vlan_filter_set,
233         .rx_queue_setup = mlx4_rx_queue_setup,
234         .tx_queue_setup = mlx4_tx_queue_setup,
235         .rx_queue_release = mlx4_rx_queue_release,
236         .tx_queue_release = mlx4_tx_queue_release,
237         .flow_ctrl_get = mlx4_flow_ctrl_get,
238         .flow_ctrl_set = mlx4_flow_ctrl_set,
239         .mtu_set = mlx4_mtu_set,
240         .filter_ctrl = mlx4_filter_ctrl,
241         .rx_queue_intr_enable = mlx4_rx_intr_enable,
242         .rx_queue_intr_disable = mlx4_rx_intr_disable,
243         .is_removed = mlx4_is_removed,
244 };
245
246 /**
247  * Get PCI information from struct ibv_device.
248  *
249  * @param device
250  *   Pointer to Ethernet device structure.
251  * @param[out] pci_addr
252  *   PCI bus address output buffer.
253  *
254  * @return
255  *   0 on success, negative errno value otherwise and rte_errno is set.
256  */
257 static int
258 mlx4_ibv_device_to_pci_addr(const struct ibv_device *device,
259                             struct rte_pci_addr *pci_addr)
260 {
261         FILE *file;
262         char line[32];
263         MKSTR(path, "%s/device/uevent", device->ibdev_path);
264
265         file = fopen(path, "rb");
266         if (file == NULL) {
267                 rte_errno = errno;
268                 return -rte_errno;
269         }
270         while (fgets(line, sizeof(line), file) == line) {
271                 size_t len = strlen(line);
272                 int ret;
273
274                 /* Truncate long lines. */
275                 if (len == (sizeof(line) - 1))
276                         while (line[(len - 1)] != '\n') {
277                                 ret = fgetc(file);
278                                 if (ret == EOF)
279                                         break;
280                                 line[(len - 1)] = ret;
281                         }
282                 /* Extract information. */
283                 if (sscanf(line,
284                            "PCI_SLOT_NAME="
285                            "%" SCNx32 ":%" SCNx8 ":%" SCNx8 ".%" SCNx8 "\n",
286                            &pci_addr->domain,
287                            &pci_addr->bus,
288                            &pci_addr->devid,
289                            &pci_addr->function) == 4) {
290                         ret = 0;
291                         break;
292                 }
293         }
294         fclose(file);
295         return 0;
296 }
297
298 /**
299  * Verify and store value for device argument.
300  *
301  * @param[in] key
302  *   Key argument to verify.
303  * @param[in] val
304  *   Value associated with key.
305  * @param[in, out] conf
306  *   Shared configuration data.
307  *
308  * @return
309  *   0 on success, negative errno value otherwise and rte_errno is set.
310  */
311 static int
312 mlx4_arg_parse(const char *key, const char *val, struct mlx4_conf *conf)
313 {
314         unsigned long tmp;
315
316         errno = 0;
317         tmp = strtoul(val, NULL, 0);
318         if (errno) {
319                 rte_errno = errno;
320                 WARN("%s: \"%s\" is not a valid integer", key, val);
321                 return -rte_errno;
322         }
323         if (strcmp(MLX4_PMD_PORT_KVARG, key) == 0) {
324                 uint32_t ports = rte_log2_u32(conf->ports.present + 1);
325
326                 if (tmp >= ports) {
327                         ERROR("port index %lu outside range [0,%" PRIu32 ")",
328                               tmp, ports);
329                         return -EINVAL;
330                 }
331                 if (!(conf->ports.present & (1 << tmp))) {
332                         rte_errno = EINVAL;
333                         ERROR("invalid port index %lu", tmp);
334                         return -rte_errno;
335                 }
336                 conf->ports.enabled |= 1 << tmp;
337         } else {
338                 rte_errno = EINVAL;
339                 WARN("%s: unknown parameter", key);
340                 return -rte_errno;
341         }
342         return 0;
343 }
344
345 /**
346  * Parse device parameters.
347  *
348  * @param devargs
349  *   Device arguments structure.
350  *
351  * @return
352  *   0 on success, negative errno value otherwise and rte_errno is set.
353  */
354 static int
355 mlx4_args(struct rte_devargs *devargs, struct mlx4_conf *conf)
356 {
357         struct rte_kvargs *kvlist;
358         unsigned int arg_count;
359         int ret = 0;
360         int i;
361
362         if (devargs == NULL)
363                 return 0;
364         kvlist = rte_kvargs_parse(devargs->args, pmd_mlx4_init_params);
365         if (kvlist == NULL) {
366                 rte_errno = EINVAL;
367                 ERROR("failed to parse kvargs");
368                 return -rte_errno;
369         }
370         /* Process parameters. */
371         for (i = 0; pmd_mlx4_init_params[i]; ++i) {
372                 arg_count = rte_kvargs_count(kvlist, MLX4_PMD_PORT_KVARG);
373                 while (arg_count-- > 0) {
374                         ret = rte_kvargs_process(kvlist,
375                                                  MLX4_PMD_PORT_KVARG,
376                                                  (int (*)(const char *,
377                                                           const char *,
378                                                           void *))
379                                                  mlx4_arg_parse,
380                                                  conf);
381                         if (ret != 0)
382                                 goto free_kvlist;
383                 }
384         }
385 free_kvlist:
386         rte_kvargs_free(kvlist);
387         return ret;
388 }
389
390 static struct rte_pci_driver mlx4_driver;
391
392 /**
393  * DPDK callback to register a PCI device.
394  *
395  * This function creates an Ethernet device for each port of a given
396  * PCI device.
397  *
398  * @param[in] pci_drv
399  *   PCI driver structure (mlx4_driver).
400  * @param[in] pci_dev
401  *   PCI device information.
402  *
403  * @return
404  *   0 on success, negative errno value otherwise and rte_errno is set.
405  */
406 static int
407 mlx4_pci_probe(struct rte_pci_driver *pci_drv, struct rte_pci_device *pci_dev)
408 {
409         struct ibv_device **list;
410         struct ibv_device *ibv_dev;
411         int err = 0;
412         struct ibv_context *attr_ctx = NULL;
413         struct ibv_device_attr device_attr;
414         struct ibv_device_attr_ex device_attr_ex;
415         struct mlx4_conf conf = {
416                 .ports.present = 0,
417         };
418         unsigned int vf;
419         int i;
420
421         (void)pci_drv;
422         assert(pci_drv == &mlx4_driver);
423         list = mlx4_glue->get_device_list(&i);
424         if (list == NULL) {
425                 rte_errno = errno;
426                 assert(rte_errno);
427                 if (rte_errno == ENOSYS)
428                         ERROR("cannot list devices, is ib_uverbs loaded?");
429                 return -rte_errno;
430         }
431         assert(i >= 0);
432         /*
433          * For each listed device, check related sysfs entry against
434          * the provided PCI ID.
435          */
436         while (i != 0) {
437                 struct rte_pci_addr pci_addr;
438
439                 --i;
440                 DEBUG("checking device \"%s\"", list[i]->name);
441                 if (mlx4_ibv_device_to_pci_addr(list[i], &pci_addr))
442                         continue;
443                 if ((pci_dev->addr.domain != pci_addr.domain) ||
444                     (pci_dev->addr.bus != pci_addr.bus) ||
445                     (pci_dev->addr.devid != pci_addr.devid) ||
446                     (pci_dev->addr.function != pci_addr.function))
447                         continue;
448                 vf = (pci_dev->id.device_id ==
449                       PCI_DEVICE_ID_MELLANOX_CONNECTX3VF);
450                 INFO("PCI information matches, using device \"%s\" (VF: %s)",
451                      list[i]->name, (vf ? "true" : "false"));
452                 attr_ctx = mlx4_glue->open_device(list[i]);
453                 err = errno;
454                 break;
455         }
456         if (attr_ctx == NULL) {
457                 mlx4_glue->free_device_list(list);
458                 switch (err) {
459                 case 0:
460                         rte_errno = ENODEV;
461                         ERROR("cannot access device, is mlx4_ib loaded?");
462                         return -rte_errno;
463                 case EINVAL:
464                         rte_errno = EINVAL;
465                         ERROR("cannot use device, are drivers up to date?");
466                         return -rte_errno;
467                 }
468                 assert(err > 0);
469                 rte_errno = err;
470                 return -rte_errno;
471         }
472         ibv_dev = list[i];
473         DEBUG("device opened");
474         if (mlx4_glue->query_device(attr_ctx, &device_attr)) {
475                 rte_errno = ENODEV;
476                 goto error;
477         }
478         INFO("%u port(s) detected", device_attr.phys_port_cnt);
479         conf.ports.present |= (UINT64_C(1) << device_attr.phys_port_cnt) - 1;
480         if (mlx4_args(pci_dev->device.devargs, &conf)) {
481                 ERROR("failed to process device arguments");
482                 rte_errno = EINVAL;
483                 goto error;
484         }
485         /* Use all ports when none are defined */
486         if (!conf.ports.enabled)
487                 conf.ports.enabled = conf.ports.present;
488         /* Retrieve extended device attributes. */
489         if (mlx4_glue->query_device_ex(attr_ctx, NULL, &device_attr_ex)) {
490                 rte_errno = ENODEV;
491                 goto error;
492         }
493         assert(device_attr.max_sge >= MLX4_MAX_SGE);
494         for (i = 0; i < device_attr.phys_port_cnt; i++) {
495                 uint32_t port = i + 1; /* ports are indexed from one */
496                 struct ibv_context *ctx = NULL;
497                 struct ibv_port_attr port_attr;
498                 struct ibv_pd *pd = NULL;
499                 struct priv *priv = NULL;
500                 struct rte_eth_dev *eth_dev = NULL;
501                 struct ether_addr mac;
502
503                 /* If port is not enabled, skip. */
504                 if (!(conf.ports.enabled & (1 << i)))
505                         continue;
506                 DEBUG("using port %u", port);
507                 ctx = mlx4_glue->open_device(ibv_dev);
508                 if (ctx == NULL) {
509                         rte_errno = ENODEV;
510                         goto port_error;
511                 }
512                 /* Check port status. */
513                 err = mlx4_glue->query_port(ctx, port, &port_attr);
514                 if (err) {
515                         rte_errno = err;
516                         ERROR("port query failed: %s", strerror(rte_errno));
517                         goto port_error;
518                 }
519                 if (port_attr.link_layer != IBV_LINK_LAYER_ETHERNET) {
520                         rte_errno = ENOTSUP;
521                         ERROR("port %d is not configured in Ethernet mode",
522                               port);
523                         goto port_error;
524                 }
525                 if (port_attr.state != IBV_PORT_ACTIVE)
526                         DEBUG("port %d is not active: \"%s\" (%d)",
527                               port, mlx4_glue->port_state_str(port_attr.state),
528                               port_attr.state);
529                 /* Make asynchronous FD non-blocking to handle interrupts. */
530                 if (mlx4_fd_set_non_blocking(ctx->async_fd) < 0) {
531                         ERROR("cannot make asynchronous FD non-blocking: %s",
532                               strerror(rte_errno));
533                         goto port_error;
534                 }
535                 /* Allocate protection domain. */
536                 pd = mlx4_glue->alloc_pd(ctx);
537                 if (pd == NULL) {
538                         rte_errno = ENOMEM;
539                         ERROR("PD allocation failure");
540                         goto port_error;
541                 }
542                 /* from rte_ethdev.c */
543                 priv = rte_zmalloc("ethdev private structure",
544                                    sizeof(*priv),
545                                    RTE_CACHE_LINE_SIZE);
546                 if (priv == NULL) {
547                         rte_errno = ENOMEM;
548                         ERROR("priv allocation failure");
549                         goto port_error;
550                 }
551                 priv->ctx = ctx;
552                 priv->device_attr = device_attr;
553                 priv->port = port;
554                 priv->pd = pd;
555                 priv->mtu = ETHER_MTU;
556                 priv->vf = vf;
557                 priv->hw_csum = !!(device_attr.device_cap_flags &
558                                    IBV_DEVICE_RAW_IP_CSUM);
559                 DEBUG("checksum offloading is %ssupported",
560                       (priv->hw_csum ? "" : "not "));
561                 /* Only ConnectX-3 Pro supports tunneling. */
562                 priv->hw_csum_l2tun =
563                         priv->hw_csum &&
564                         (device_attr.vendor_part_id ==
565                          PCI_DEVICE_ID_MELLANOX_CONNECTX3PRO);
566                 DEBUG("L2 tunnel checksum offloads are %ssupported",
567                       priv->hw_csum_l2tun ? "" : "not ");
568                 priv->hw_rss_sup = device_attr_ex.rss_caps.rx_hash_fields_mask;
569                 if (!priv->hw_rss_sup) {
570                         WARN("no RSS capabilities reported; disabling support"
571                              " for UDP RSS and inner VXLAN RSS");
572                         /* Fake support for all possible RSS hash fields. */
573                         priv->hw_rss_sup = ~UINT64_C(0);
574                         priv->hw_rss_sup = mlx4_conv_rss_types(priv, -1);
575                         /* Filter out known unsupported fields. */
576                         priv->hw_rss_sup &=
577                                 ~(uint64_t)(IBV_RX_HASH_SRC_PORT_UDP |
578                                             IBV_RX_HASH_DST_PORT_UDP |
579                                             IBV_RX_HASH_INNER);
580                 }
581                 DEBUG("supported RSS hash fields mask: %016" PRIx64,
582                       priv->hw_rss_sup);
583                 priv->hw_fcs_strip = !!(device_attr_ex.raw_packet_caps &
584                                         IBV_RAW_PACKET_CAP_SCATTER_FCS);
585                 DEBUG("FCS stripping toggling is %ssupported",
586                       priv->hw_fcs_strip ? "" : "not ");
587                 /* Configure the first MAC address by default. */
588                 if (mlx4_get_mac(priv, &mac.addr_bytes)) {
589                         ERROR("cannot get MAC address, is mlx4_en loaded?"
590                               " (rte_errno: %s)", strerror(rte_errno));
591                         goto port_error;
592                 }
593                 INFO("port %u MAC address is %02x:%02x:%02x:%02x:%02x:%02x",
594                      priv->port,
595                      mac.addr_bytes[0], mac.addr_bytes[1],
596                      mac.addr_bytes[2], mac.addr_bytes[3],
597                      mac.addr_bytes[4], mac.addr_bytes[5]);
598                 /* Register MAC address. */
599                 priv->mac[0] = mac;
600 #ifndef NDEBUG
601                 {
602                         char ifname[IF_NAMESIZE];
603
604                         if (mlx4_get_ifname(priv, &ifname) == 0)
605                                 DEBUG("port %u ifname is \"%s\"",
606                                       priv->port, ifname);
607                         else
608                                 DEBUG("port %u ifname is unknown", priv->port);
609                 }
610 #endif
611                 /* Get actual MTU if possible. */
612                 mlx4_mtu_get(priv, &priv->mtu);
613                 DEBUG("port %u MTU is %u", priv->port, priv->mtu);
614                 /* from rte_ethdev.c */
615                 {
616                         char name[RTE_ETH_NAME_MAX_LEN];
617
618                         snprintf(name, sizeof(name), "%s port %u",
619                                  mlx4_glue->get_device_name(ibv_dev), port);
620                         eth_dev = rte_eth_dev_allocate(name);
621                 }
622                 if (eth_dev == NULL) {
623                         ERROR("can not allocate rte ethdev");
624                         rte_errno = ENOMEM;
625                         goto port_error;
626                 }
627                 eth_dev->data->dev_private = priv;
628                 eth_dev->data->mac_addrs = priv->mac;
629                 eth_dev->device = &pci_dev->device;
630                 rte_eth_copy_pci_info(eth_dev, pci_dev);
631                 eth_dev->device->driver = &mlx4_driver.driver;
632                 /* Initialize local interrupt handle for current port. */
633                 priv->intr_handle = (struct rte_intr_handle){
634                         .fd = -1,
635                         .type = RTE_INTR_HANDLE_EXT,
636                 };
637                 /*
638                  * Override ethdev interrupt handle pointer with private
639                  * handle instead of that of the parent PCI device used by
640                  * default. This prevents it from being shared between all
641                  * ports of the same PCI device since each of them is
642                  * associated its own Verbs context.
643                  *
644                  * Rx interrupts in particular require this as the PMD has
645                  * no control over the registration of queue interrupts
646                  * besides setting up eth_dev->intr_handle, the rest is
647                  * handled by rte_intr_rx_ctl().
648                  */
649                 eth_dev->intr_handle = &priv->intr_handle;
650                 priv->dev = eth_dev;
651                 eth_dev->dev_ops = &mlx4_dev_ops;
652                 /* Bring Ethernet device up. */
653                 DEBUG("forcing Ethernet interface up");
654                 mlx4_dev_set_link_up(priv->dev);
655                 /* Update link status once if waiting for LSC. */
656                 if (eth_dev->data->dev_flags & RTE_ETH_DEV_INTR_LSC)
657                         mlx4_link_update(eth_dev, 0);
658                 continue;
659 port_error:
660                 rte_free(priv);
661                 if (pd)
662                         claim_zero(mlx4_glue->dealloc_pd(pd));
663                 if (ctx)
664                         claim_zero(mlx4_glue->close_device(ctx));
665                 if (eth_dev)
666                         rte_eth_dev_release_port(eth_dev);
667                 break;
668         }
669         if (i == device_attr.phys_port_cnt)
670                 return 0;
671         /*
672          * XXX if something went wrong in the loop above, there is a resource
673          * leak (ctx, pd, priv, dpdk ethdev) but we can do nothing about it as
674          * long as the dpdk does not provide a way to deallocate a ethdev and a
675          * way to enumerate the registered ethdevs to free the previous ones.
676          */
677 error:
678         if (attr_ctx)
679                 claim_zero(mlx4_glue->close_device(attr_ctx));
680         if (list)
681                 mlx4_glue->free_device_list(list);
682         assert(rte_errno >= 0);
683         return -rte_errno;
684 }
685
686 static const struct rte_pci_id mlx4_pci_id_map[] = {
687         {
688                 RTE_PCI_DEVICE(PCI_VENDOR_ID_MELLANOX,
689                                PCI_DEVICE_ID_MELLANOX_CONNECTX3)
690         },
691         {
692                 RTE_PCI_DEVICE(PCI_VENDOR_ID_MELLANOX,
693                                PCI_DEVICE_ID_MELLANOX_CONNECTX3PRO)
694         },
695         {
696                 RTE_PCI_DEVICE(PCI_VENDOR_ID_MELLANOX,
697                                PCI_DEVICE_ID_MELLANOX_CONNECTX3VF)
698         },
699         {
700                 .vendor_id = 0
701         }
702 };
703
704 static struct rte_pci_driver mlx4_driver = {
705         .driver = {
706                 .name = MLX4_DRIVER_NAME
707         },
708         .id_table = mlx4_pci_id_map,
709         .probe = mlx4_pci_probe,
710         .drv_flags = RTE_PCI_DRV_INTR_LSC |
711                      RTE_PCI_DRV_INTR_RMV,
712 };
713
714 #ifdef RTE_LIBRTE_MLX4_DLOPEN_DEPS
715
716 /**
717  * Suffix RTE_EAL_PMD_PATH with "-glue".
718  *
719  * This function performs a sanity check on RTE_EAL_PMD_PATH before
720  * suffixing its last component.
721  *
722  * @param buf[out]
723  *   Output buffer, should be large enough otherwise NULL is returned.
724  * @param size
725  *   Size of @p out.
726  *
727  * @return
728  *   Pointer to @p buf or @p NULL in case suffix cannot be appended.
729  */
730 static char *
731 mlx4_glue_path(char *buf, size_t size)
732 {
733         static const char *const bad[] = { "/", ".", "..", NULL };
734         const char *path = RTE_EAL_PMD_PATH;
735         size_t len = strlen(path);
736         size_t off;
737         int i;
738
739         while (len && path[len - 1] == '/')
740                 --len;
741         for (off = len; off && path[off - 1] != '/'; --off)
742                 ;
743         for (i = 0; bad[i]; ++i)
744                 if (!strncmp(path + off, bad[i], (int)(len - off)))
745                         goto error;
746         i = snprintf(buf, size, "%.*s-glue", (int)len, path);
747         if (i == -1 || (size_t)i >= size)
748                 goto error;
749         return buf;
750 error:
751         ERROR("unable to append \"-glue\" to last component of"
752               " RTE_EAL_PMD_PATH (\"" RTE_EAL_PMD_PATH "\"),"
753               " please re-configure DPDK");
754         return NULL;
755 }
756
757 /**
758  * Initialization routine for run-time dependency on rdma-core.
759  */
760 static int
761 mlx4_glue_init(void)
762 {
763         char glue_path[sizeof(RTE_EAL_PMD_PATH) - 1 + sizeof("-glue")];
764         const char *path[] = {
765                 /*
766                  * A basic security check is necessary before trusting
767                  * MLX4_GLUE_PATH, which may override RTE_EAL_PMD_PATH.
768                  */
769                 (geteuid() == getuid() && getegid() == getgid() ?
770                  getenv("MLX4_GLUE_PATH") : NULL),
771                 /*
772                  * When RTE_EAL_PMD_PATH is set, use its glue-suffixed
773                  * variant, otherwise let dlopen() look up libraries on its
774                  * own.
775                  */
776                 (*RTE_EAL_PMD_PATH ?
777                  mlx4_glue_path(glue_path, sizeof(glue_path)) : ""),
778         };
779         unsigned int i = 0;
780         void *handle = NULL;
781         void **sym;
782         const char *dlmsg;
783
784         while (!handle && i != RTE_DIM(path)) {
785                 const char *end;
786                 size_t len;
787                 int ret;
788
789                 if (!path[i]) {
790                         ++i;
791                         continue;
792                 }
793                 end = strpbrk(path[i], ":;");
794                 if (!end)
795                         end = path[i] + strlen(path[i]);
796                 len = end - path[i];
797                 ret = 0;
798                 do {
799                         char name[ret + 1];
800
801                         ret = snprintf(name, sizeof(name), "%.*s%s" MLX4_GLUE,
802                                        (int)len, path[i],
803                                        (!len || *(end - 1) == '/') ? "" : "/");
804                         if (ret == -1)
805                                 break;
806                         if (sizeof(name) != (size_t)ret + 1)
807                                 continue;
808                         DEBUG("looking for rdma-core glue as \"%s\"", name);
809                         handle = dlopen(name, RTLD_LAZY);
810                         break;
811                 } while (1);
812                 path[i] = end + 1;
813                 if (!*end)
814                         ++i;
815         }
816         if (!handle) {
817                 rte_errno = EINVAL;
818                 dlmsg = dlerror();
819                 if (dlmsg)
820                         WARN("cannot load glue library: %s", dlmsg);
821                 goto glue_error;
822         }
823         sym = dlsym(handle, "mlx4_glue");
824         if (!sym || !*sym) {
825                 rte_errno = EINVAL;
826                 dlmsg = dlerror();
827                 if (dlmsg)
828                         ERROR("cannot resolve glue symbol: %s", dlmsg);
829                 goto glue_error;
830         }
831         mlx4_glue = *sym;
832         return 0;
833 glue_error:
834         if (handle)
835                 dlclose(handle);
836         WARN("cannot initialize PMD due to missing run-time"
837              " dependency on rdma-core libraries (libibverbs,"
838              " libmlx4)");
839         return -rte_errno;
840 }
841
842 #endif
843
844 /**
845  * Driver initialization routine.
846  */
847 RTE_INIT(rte_mlx4_pmd_init);
848 static void
849 rte_mlx4_pmd_init(void)
850 {
851         /*
852          * MLX4_DEVICE_FATAL_CLEANUP tells ibv_destroy functions we
853          * want to get success errno value in case of calling them
854          * when the device was removed.
855          */
856         setenv("MLX4_DEVICE_FATAL_CLEANUP", "1", 1);
857         /*
858          * RDMAV_HUGEPAGES_SAFE tells ibv_fork_init() we intend to use
859          * huge pages. Calling ibv_fork_init() during init allows
860          * applications to use fork() safely for purposes other than
861          * using this PMD, which is not supported in forked processes.
862          */
863         setenv("RDMAV_HUGEPAGES_SAFE", "1", 1);
864 #ifdef RTE_LIBRTE_MLX4_DLOPEN_DEPS
865         if (mlx4_glue_init())
866                 return;
867         assert(mlx4_glue);
868 #endif
869 #ifndef NDEBUG
870         /* Glue structure must not contain any NULL pointers. */
871         {
872                 unsigned int i;
873
874                 for (i = 0; i != sizeof(*mlx4_glue) / sizeof(void *); ++i)
875                         assert(((const void *const *)mlx4_glue)[i]);
876         }
877 #endif
878         if (strcmp(mlx4_glue->version, MLX4_GLUE_VERSION)) {
879                 ERROR("rdma-core glue \"%s\" mismatch: \"%s\" is required",
880                       mlx4_glue->version, MLX4_GLUE_VERSION);
881                 return;
882         }
883         mlx4_glue->fork_init();
884         rte_pci_register(&mlx4_driver);
885 }
886
887 RTE_PMD_EXPORT_NAME(net_mlx4, __COUNTER__);
888 RTE_PMD_REGISTER_PCI_TABLE(net_mlx4, mlx4_pci_id_map);
889 RTE_PMD_REGISTER_KMOD_DEP(net_mlx4,
890         "* ib_uverbs & mlx4_en & mlx4_core & mlx4_ib");