99e1765522419af15c175a49a717e03fda0daca2
[dpdk.git] / lib / librte_eal / common / eal_common_pci.c
1 /*-
2  *   BSD LICENSE
3  *
4  *   Copyright(c) 2010-2014 Intel Corporation. All rights reserved.
5  *   Copyright 2013-2014 6WIND S.A.
6  *   All rights reserved.
7  *
8  *   Redistribution and use in source and binary forms, with or without
9  *   modification, are permitted provided that the following conditions
10  *   are met:
11  *
12  *     * Redistributions of source code must retain the above copyright
13  *       notice, this list of conditions and the following disclaimer.
14  *     * Redistributions in binary form must reproduce the above copyright
15  *       notice, this list of conditions and the following disclaimer in
16  *       the documentation and/or other materials provided with the
17  *       distribution.
18  *     * Neither the name of Intel Corporation nor the names of its
19  *       contributors may be used to endorse or promote products derived
20  *       from this software without specific prior written permission.
21  *
22  *   THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
23  *   "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
24  *   LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
25  *   A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
26  *   OWNER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
27  *   SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
28  *   LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
29  *   DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
30  *   THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
31  *   (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
32  *   OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
33  */
34
35 #include <string.h>
36 #include <inttypes.h>
37 #include <stdint.h>
38 #include <stdlib.h>
39 #include <stdio.h>
40 #include <sys/queue.h>
41 #include <sys/mman.h>
42
43 #include <rte_errno.h>
44 #include <rte_interrupts.h>
45 #include <rte_log.h>
46 #include <rte_bus.h>
47 #include <rte_pci.h>
48 #include <rte_per_lcore.h>
49 #include <rte_memory.h>
50 #include <rte_memzone.h>
51 #include <rte_eal.h>
52 #include <rte_string_fns.h>
53 #include <rte_common.h>
54 #include <rte_devargs.h>
55
56 #include "eal_private.h"
57
58 extern struct rte_pci_bus rte_pci_bus;
59
60 #define SYSFS_PCI_DEVICES "/sys/bus/pci/devices"
61
62 const char *pci_get_sysfs_path(void)
63 {
64         const char *path = NULL;
65
66         path = getenv("SYSFS_PCI_DEVICES");
67         if (path == NULL)
68                 return SYSFS_PCI_DEVICES;
69
70         return path;
71 }
72
73 static struct rte_devargs *pci_devargs_lookup(struct rte_pci_device *dev)
74 {
75         struct rte_devargs *devargs;
76         struct rte_pci_addr addr;
77         struct rte_bus *pbus;
78
79         pbus = rte_bus_find_by_name("pci");
80         TAILQ_FOREACH(devargs, &devargs_list, next) {
81                 if (devargs->bus != pbus)
82                         continue;
83                 devargs->bus->parse(devargs->name, &addr);
84                 if (!rte_pci_addr_cmp(&dev->addr, &addr))
85                         return devargs;
86         }
87         return NULL;
88 }
89
90 static inline const char *
91 get_u8_pciaddr_field(const char *in, void *_u8, char dlm)
92 {
93         unsigned long val;
94         uint8_t *u8 = _u8;
95         char *end;
96
97         errno = 0;
98         val = strtoul(in, &end, 16);
99         if (errno != 0 || end[0] != dlm || val > UINT8_MAX) {
100                 errno = errno ? errno : EINVAL;
101                 return NULL;
102         }
103         *u8 = (uint8_t)val;
104         return end + 1;
105 }
106
107
108 static int
109 rte_pci_bdf_parse(const char *input, struct rte_pci_addr *dev_addr)
110 {
111         const char *in = input;
112
113         dev_addr->domain = 0;
114         in = get_u8_pciaddr_field(in, &dev_addr->bus, ':');
115         if (in == NULL)
116                 return -EINVAL;
117         in = get_u8_pciaddr_field(in, &dev_addr->devid, '.');
118         if (in == NULL)
119                 return -EINVAL;
120         in = get_u8_pciaddr_field(in, &dev_addr->function, '\0');
121         if (in == NULL)
122                 return -EINVAL;
123         return 0;
124 }
125
126 int
127 eal_parse_pci_BDF(const char *input, struct rte_pci_addr *dev_addr)
128 {
129         return rte_pci_bdf_parse(input, dev_addr);
130 }
131
132 static int
133 rte_pci_dbdf_parse(const char *input, struct rte_pci_addr *dev_addr)
134 {
135         const char *in = input;
136         unsigned long val;
137         char *end;
138
139         errno = 0;
140         val = strtoul(in, &end, 16);
141         if (errno != 0 || end[0] != ':' || val > UINT16_MAX)
142                 return -EINVAL;
143         dev_addr->domain = (uint16_t)val;
144         in = end + 1;
145         in = get_u8_pciaddr_field(in, &dev_addr->bus, ':');
146         if (in == NULL)
147                 return -EINVAL;
148         in = get_u8_pciaddr_field(in, &dev_addr->devid, '.');
149         if (in == NULL)
150                 return -EINVAL;
151         in = get_u8_pciaddr_field(in, &dev_addr->function, '\0');
152         if (in == NULL)
153                 return -EINVAL;
154         return 0;
155 }
156
157 int
158 eal_parse_pci_DomBDF(const char *input, struct rte_pci_addr *dev_addr)
159 {
160         return rte_pci_dbdf_parse(input, dev_addr);
161 }
162
163 void
164 rte_pci_device_name(const struct rte_pci_addr *addr,
165                      char *output, size_t size)
166 {
167         RTE_VERIFY(size >= PCI_PRI_STR_SIZE);
168         RTE_VERIFY(snprintf(output, size, PCI_PRI_FMT,
169                             addr->domain, addr->bus,
170                             addr->devid, addr->function) >= 0);
171 }
172
173 int
174 rte_pci_addr_cmp(const struct rte_pci_addr *addr,
175                  const struct rte_pci_addr *addr2)
176 {
177         uint64_t dev_addr, dev_addr2;
178
179         if ((addr == NULL) || (addr2 == NULL))
180                  return -1;
181
182         dev_addr = ((uint64_t)addr->domain << 24) |
183                  (addr->bus << 16) | (addr->devid << 8) | addr->function;
184         dev_addr2 = ((uint64_t)addr2->domain << 24) |
185                  (addr2->bus << 16) | (addr2->devid << 8) | addr2->function;
186
187         if (dev_addr > dev_addr2)
188                  return 1;
189         else if (dev_addr < dev_addr2)
190                  return -1;
191         else
192                  return 0;
193 }
194
195 int
196 rte_eal_compare_pci_addr(const struct rte_pci_addr *addr,
197                          const struct rte_pci_addr *addr2)
198 {
199         return rte_pci_addr_cmp(addr, addr2);
200 }
201
202 int
203 rte_pci_addr_parse(const char *str, struct rte_pci_addr *addr)
204 {
205         if (rte_pci_bdf_parse(str, addr) == 0 ||
206             rte_pci_dbdf_parse(str, addr) == 0)
207                 return 0;
208         return -1;
209 }
210
211 void
212 pci_name_set(struct rte_pci_device *dev)
213 {
214         struct rte_devargs *devargs;
215
216         /* Each device has its internal, canonical name set. */
217         rte_pci_device_name(&dev->addr,
218                         dev->name, sizeof(dev->name));
219         devargs = pci_devargs_lookup(dev);
220         dev->device.devargs = devargs;
221         /* In blacklist mode, if the device is not blacklisted, no
222          * rte_devargs exists for it.
223          */
224         if (devargs != NULL)
225                 /* If an rte_devargs exists, the generic rte_device uses the
226                  * given name as its namea
227                  */
228                 dev->device.name = dev->device.devargs->name;
229         else
230                 /* Otherwise, it uses the internal, canonical form. */
231                 dev->device.name = dev->name;
232 }
233
234 /* map a particular resource from a file */
235 void *
236 pci_map_resource(void *requested_addr, int fd, off_t offset, size_t size,
237                  int additional_flags)
238 {
239         void *mapaddr;
240
241         /* Map the PCI memory resource of device */
242         mapaddr = mmap(requested_addr, size, PROT_READ | PROT_WRITE,
243                         MAP_SHARED | additional_flags, fd, offset);
244         if (mapaddr == MAP_FAILED) {
245                 RTE_LOG(ERR, EAL, "%s(): cannot mmap(%d, %p, 0x%lx, 0x%lx): %s (%p)\n",
246                         __func__, fd, requested_addr,
247                         (unsigned long)size, (unsigned long)offset,
248                         strerror(errno), mapaddr);
249         } else
250                 RTE_LOG(DEBUG, EAL, "  PCI memory mapped at %p\n", mapaddr);
251
252         return mapaddr;
253 }
254
255 /* unmap a particular resource */
256 void
257 pci_unmap_resource(void *requested_addr, size_t size)
258 {
259         if (requested_addr == NULL)
260                 return;
261
262         /* Unmap the PCI memory resource of device */
263         if (munmap(requested_addr, size)) {
264                 RTE_LOG(ERR, EAL, "%s(): cannot munmap(%p, 0x%lx): %s\n",
265                         __func__, requested_addr, (unsigned long)size,
266                         strerror(errno));
267         } else
268                 RTE_LOG(DEBUG, EAL, "  PCI memory unmapped at %p\n",
269                                 requested_addr);
270 }
271
272 /*
273  * Match the PCI Driver and Device using the ID Table
274  */
275 int
276 rte_pci_match(const struct rte_pci_driver *pci_drv,
277               const struct rte_pci_device *pci_dev)
278 {
279         const struct rte_pci_id *id_table;
280
281         for (id_table = pci_drv->id_table; id_table->vendor_id != 0;
282              id_table++) {
283                 /* check if device's identifiers match the driver's ones */
284                 if (id_table->vendor_id != pci_dev->id.vendor_id &&
285                                 id_table->vendor_id != PCI_ANY_ID)
286                         continue;
287                 if (id_table->device_id != pci_dev->id.device_id &&
288                                 id_table->device_id != PCI_ANY_ID)
289                         continue;
290                 if (id_table->subsystem_vendor_id !=
291                     pci_dev->id.subsystem_vendor_id &&
292                     id_table->subsystem_vendor_id != PCI_ANY_ID)
293                         continue;
294                 if (id_table->subsystem_device_id !=
295                     pci_dev->id.subsystem_device_id &&
296                     id_table->subsystem_device_id != PCI_ANY_ID)
297                         continue;
298                 if (id_table->class_id != pci_dev->id.class_id &&
299                                 id_table->class_id != RTE_CLASS_ANY_ID)
300                         continue;
301
302                 return 1;
303         }
304
305         return 0;
306 }
307
308 /*
309  * If vendor/device ID match, call the probe() function of the
310  * driver.
311  */
312 static int
313 rte_pci_probe_one_driver(struct rte_pci_driver *dr,
314                          struct rte_pci_device *dev)
315 {
316         int ret;
317         struct rte_pci_addr *loc;
318
319         if ((dr == NULL) || (dev == NULL))
320                 return -EINVAL;
321
322         loc = &dev->addr;
323
324         /* The device is not blacklisted; Check if driver supports it */
325         if (!rte_pci_match(dr, dev))
326                 /* Match of device and driver failed */
327                 return 1;
328
329         RTE_LOG(INFO, EAL, "PCI device "PCI_PRI_FMT" on NUMA socket %i\n",
330                         loc->domain, loc->bus, loc->devid, loc->function,
331                         dev->device.numa_node);
332
333         /* no initialization when blacklisted, return without error */
334         if (dev->device.devargs != NULL &&
335                 dev->device.devargs->policy ==
336                         RTE_DEV_BLACKLISTED) {
337                 RTE_LOG(INFO, EAL, "  Device is blacklisted, not"
338                         " initializing\n");
339                 return 1;
340         }
341
342         if (dev->device.numa_node < 0) {
343                 RTE_LOG(WARNING, EAL, "  Invalid NUMA socket, default to 0\n");
344                 dev->device.numa_node = 0;
345         }
346
347         RTE_LOG(INFO, EAL, "  probe driver: %x:%x %s\n", dev->id.vendor_id,
348                 dev->id.device_id, dr->driver.name);
349
350         if (dr->drv_flags & RTE_PCI_DRV_NEED_MAPPING) {
351                 /* map resources for devices that use igb_uio */
352                 ret = rte_pci_map_device(dev);
353                 if (ret != 0)
354                         return ret;
355         }
356
357         /* reference driver structure */
358         dev->driver = dr;
359         dev->device.driver = &dr->driver;
360
361         /* call the driver probe() function */
362         ret = dr->probe(dr, dev);
363         if (ret) {
364                 dev->driver = NULL;
365                 dev->device.driver = NULL;
366                 if ((dr->drv_flags & RTE_PCI_DRV_NEED_MAPPING) &&
367                         /* Don't unmap if device is unsupported and
368                          * driver needs mapped resources.
369                          */
370                         !(ret > 0 &&
371                                 (dr->drv_flags & RTE_PCI_DRV_KEEP_MAPPED_RES)))
372                         rte_pci_unmap_device(dev);
373         }
374
375         return ret;
376 }
377
378 /*
379  * If vendor/device ID match, call the remove() function of the
380  * driver.
381  */
382 static int
383 rte_pci_detach_dev(struct rte_pci_device *dev)
384 {
385         struct rte_pci_addr *loc;
386         struct rte_pci_driver *dr;
387         int ret = 0;
388
389         if (dev == NULL)
390                 return -EINVAL;
391
392         dr = dev->driver;
393         loc = &dev->addr;
394
395         RTE_LOG(DEBUG, EAL, "PCI device "PCI_PRI_FMT" on NUMA socket %i\n",
396                         loc->domain, loc->bus, loc->devid,
397                         loc->function, dev->device.numa_node);
398
399         RTE_LOG(DEBUG, EAL, "  remove driver: %x:%x %s\n", dev->id.vendor_id,
400                         dev->id.device_id, dr->driver.name);
401
402         if (dr->remove) {
403                 ret = dr->remove(dev);
404                 if (ret < 0)
405                         return ret;
406         }
407
408         /* clear driver structure */
409         dev->driver = NULL;
410
411         if (dr->drv_flags & RTE_PCI_DRV_NEED_MAPPING)
412                 /* unmap resources for devices that use igb_uio */
413                 rte_pci_unmap_device(dev);
414
415         return 0;
416 }
417
418 /*
419  * If vendor/device ID match, call the probe() function of all
420  * registered driver for the given device. Return -1 if initialization
421  * failed, return 1 if no driver is found for this device.
422  */
423 static int
424 pci_probe_all_drivers(struct rte_pci_device *dev)
425 {
426         struct rte_pci_driver *dr = NULL;
427         int rc = 0;
428
429         if (dev == NULL)
430                 return -1;
431
432         /* Check if a driver is already loaded */
433         if (dev->driver != NULL)
434                 return 0;
435
436         FOREACH_DRIVER_ON_PCIBUS(dr) {
437                 rc = rte_pci_probe_one_driver(dr, dev);
438                 if (rc < 0)
439                         /* negative value is an error */
440                         return -1;
441                 if (rc > 0)
442                         /* positive value means driver doesn't support it */
443                         continue;
444                 return 0;
445         }
446         return 1;
447 }
448
449 /*
450  * Find the pci device specified by pci address, then invoke probe function of
451  * the driver of the device.
452  */
453 int
454 rte_pci_probe_one(const struct rte_pci_addr *addr)
455 {
456         struct rte_pci_device *dev = NULL;
457
458         int ret = 0;
459
460         if (addr == NULL)
461                 return -1;
462
463         /* update current pci device in global list, kernel bindings might have
464          * changed since last time we looked at it.
465          */
466         if (pci_update_device(addr) < 0)
467                 goto err_return;
468
469         FOREACH_DEVICE_ON_PCIBUS(dev) {
470                 if (rte_pci_addr_cmp(&dev->addr, addr))
471                         continue;
472
473                 ret = pci_probe_all_drivers(dev);
474                 if (ret)
475                         goto err_return;
476                 return 0;
477         }
478         return -1;
479
480 err_return:
481         RTE_LOG(WARNING, EAL,
482                 "Requested device " PCI_PRI_FMT " cannot be used\n",
483                 addr->domain, addr->bus, addr->devid, addr->function);
484         return -1;
485 }
486
487 /*
488  * Detach device specified by its pci address.
489  */
490 int
491 rte_pci_detach(const struct rte_pci_addr *addr)
492 {
493         struct rte_pci_device *dev = NULL;
494         int ret = 0;
495
496         if (addr == NULL)
497                 return -1;
498
499         FOREACH_DEVICE_ON_PCIBUS(dev) {
500                 if (rte_pci_addr_cmp(&dev->addr, addr))
501                         continue;
502
503                 ret = rte_pci_detach_dev(dev);
504                 if (ret < 0)
505                         /* negative value is an error */
506                         goto err_return;
507                 if (ret > 0)
508                         /* positive value means driver doesn't support it */
509                         continue;
510
511                 rte_pci_remove_device(dev);
512                 free(dev);
513                 return 0;
514         }
515         return -1;
516
517 err_return:
518         RTE_LOG(WARNING, EAL, "Requested device " PCI_PRI_FMT
519                         " cannot be used\n", dev->addr.domain, dev->addr.bus,
520                         dev->addr.devid, dev->addr.function);
521         return -1;
522 }
523
524 /*
525  * Scan the content of the PCI bus, and call the probe() function for
526  * all registered drivers that have a matching entry in its id_table
527  * for discovered devices.
528  */
529 int
530 rte_pci_probe(void)
531 {
532         struct rte_pci_device *dev = NULL;
533         size_t probed = 0, failed = 0;
534         struct rte_devargs *devargs;
535         int probe_all = 0;
536         int ret = 0;
537
538         if (rte_pci_bus.bus.conf.scan_mode != RTE_BUS_SCAN_WHITELIST)
539                 probe_all = 1;
540
541         FOREACH_DEVICE_ON_PCIBUS(dev) {
542                 probed++;
543
544                 devargs = dev->device.devargs;
545                 /* probe all or only whitelisted devices */
546                 if (probe_all)
547                         ret = pci_probe_all_drivers(dev);
548                 else if (devargs != NULL &&
549                         devargs->policy == RTE_DEV_WHITELISTED)
550                         ret = pci_probe_all_drivers(dev);
551                 if (ret < 0) {
552                         RTE_LOG(ERR, EAL, "Requested device " PCI_PRI_FMT
553                                  " cannot be used\n", dev->addr.domain, dev->addr.bus,
554                                  dev->addr.devid, dev->addr.function);
555                         rte_errno = errno;
556                         failed++;
557                         ret = 0;
558                 }
559         }
560
561         return (probed && probed == failed) ? -1 : 0;
562 }
563
564 /* dump one device */
565 static int
566 pci_dump_one_device(FILE *f, struct rte_pci_device *dev)
567 {
568         int i;
569
570         fprintf(f, PCI_PRI_FMT, dev->addr.domain, dev->addr.bus,
571                dev->addr.devid, dev->addr.function);
572         fprintf(f, " - vendor:%x device:%x\n", dev->id.vendor_id,
573                dev->id.device_id);
574
575         for (i = 0; i != sizeof(dev->mem_resource) /
576                 sizeof(dev->mem_resource[0]); i++) {
577                 fprintf(f, "   %16.16"PRIx64" %16.16"PRIx64"\n",
578                         dev->mem_resource[i].phys_addr,
579                         dev->mem_resource[i].len);
580         }
581         return 0;
582 }
583
584 /* dump devices on the bus */
585 void
586 rte_pci_dump(FILE *f)
587 {
588         struct rte_pci_device *dev = NULL;
589
590         FOREACH_DEVICE_ON_PCIBUS(dev) {
591                 pci_dump_one_device(f, dev);
592         }
593 }
594
595 static int
596 pci_parse(const char *name, void *addr)
597 {
598         struct rte_pci_addr *out = addr;
599         struct rte_pci_addr pci_addr;
600         bool parse;
601
602         parse = (rte_pci_addr_parse(name, &pci_addr) == 0);
603         if (parse && addr != NULL)
604                 *out = pci_addr;
605         return parse == false;
606 }
607
608 /* register a driver */
609 void
610 rte_pci_register(struct rte_pci_driver *driver)
611 {
612         TAILQ_INSERT_TAIL(&rte_pci_bus.driver_list, driver, next);
613         driver->bus = &rte_pci_bus;
614 }
615
616 /* unregister a driver */
617 void
618 rte_pci_unregister(struct rte_pci_driver *driver)
619 {
620         TAILQ_REMOVE(&rte_pci_bus.driver_list, driver, next);
621         driver->bus = NULL;
622 }
623
624 /* Add a device to PCI bus */
625 void
626 rte_pci_add_device(struct rte_pci_device *pci_dev)
627 {
628         TAILQ_INSERT_TAIL(&rte_pci_bus.device_list, pci_dev, next);
629 }
630
631 /* Insert a device into a predefined position in PCI bus */
632 void
633 rte_pci_insert_device(struct rte_pci_device *exist_pci_dev,
634                       struct rte_pci_device *new_pci_dev)
635 {
636         TAILQ_INSERT_BEFORE(exist_pci_dev, new_pci_dev, next);
637 }
638
639 /* Remove a device from PCI bus */
640 void
641 rte_pci_remove_device(struct rte_pci_device *pci_dev)
642 {
643         TAILQ_REMOVE(&rte_pci_bus.device_list, pci_dev, next);
644 }
645
646 static struct rte_device *
647 pci_find_device(const struct rte_device *start, rte_dev_cmp_t cmp,
648                 const void *data)
649 {
650         struct rte_pci_device *dev;
651
652         FOREACH_DEVICE_ON_PCIBUS(dev) {
653                 if (start && &dev->device == start) {
654                         start = NULL; /* starting point found */
655                         continue;
656                 }
657                 if (cmp(&dev->device, data) == 0)
658                         return &dev->device;
659         }
660
661         return NULL;
662 }
663
664 static int
665 pci_plug(struct rte_device *dev)
666 {
667         return pci_probe_all_drivers(RTE_DEV_TO_PCI(dev));
668 }
669
670 static int
671 pci_unplug(struct rte_device *dev)
672 {
673         struct rte_pci_device *pdev;
674         int ret;
675
676         pdev = RTE_DEV_TO_PCI(dev);
677         ret = rte_pci_detach_dev(pdev);
678         if (ret == 0) {
679                 rte_pci_remove_device(pdev);
680                 free(pdev);
681         }
682         return ret;
683 }
684
685 struct rte_pci_bus rte_pci_bus = {
686         .bus = {
687                 .scan = rte_pci_scan,
688                 .probe = rte_pci_probe,
689                 .find_device = pci_find_device,
690                 .plug = pci_plug,
691                 .unplug = pci_unplug,
692                 .parse = pci_parse,
693                 .get_iommu_class = rte_pci_get_iommu_class,
694         },
695         .device_list = TAILQ_HEAD_INITIALIZER(rte_pci_bus.device_list),
696         .driver_list = TAILQ_HEAD_INITIALIZER(rte_pci_bus.driver_list),
697 };
698
699 RTE_REGISTER_BUS(pci, rte_pci_bus.bus);