pipeline: increase SWX immediate operand size
[dpdk.git] / drivers / bus / pci / linux / pci_vfio.c
index ee31239..e3f7b6a 100644 (file)
@@ -14,7 +14,7 @@
 #include <rte_log.h>
 #include <rte_pci.h>
 #include <rte_bus_pci.h>
-#include <rte_eal_memconfig.h>
+#include <rte_eal_paging.h>
 #include <rte_malloc.h>
 #include <rte_vfio.h>
 #include <rte_eal.h>
@@ -34,7 +34,6 @@
  * This code tries to determine if the PCI device is bound to VFIO driver,
  * and initialize it (map BARs, set up interrupts) if that's the case.
  *
- * This file is only compiled if CONFIG_RTE_EAL_VFIO is set to "y".
  */
 
 #ifdef VFIO_PRESENT
@@ -150,6 +149,38 @@ pci_vfio_get_msix_bar(int fd, struct pci_msix_table *msix_table)
        return 0;
 }
 
+/* enable PCI bus memory space */
+static int
+pci_vfio_enable_bus_memory(int dev_fd)
+{
+       uint16_t cmd;
+       int ret;
+
+       ret = pread64(dev_fd, &cmd, sizeof(cmd),
+                     VFIO_GET_REGION_ADDR(VFIO_PCI_CONFIG_REGION_INDEX) +
+                     PCI_COMMAND);
+
+       if (ret != sizeof(cmd)) {
+               RTE_LOG(ERR, EAL, "Cannot read command from PCI config space!\n");
+               return -1;
+       }
+
+       if (cmd & PCI_COMMAND_MEMORY)
+               return 0;
+
+       cmd |= PCI_COMMAND_MEMORY;
+       ret = pwrite64(dev_fd, &cmd, sizeof(cmd),
+                      VFIO_GET_REGION_ADDR(VFIO_PCI_CONFIG_REGION_INDEX) +
+                      PCI_COMMAND);
+
+       if (ret != sizeof(cmd)) {
+               RTE_LOG(ERR, EAL, "Cannot write command to PCI config space!\n");
+               return -1;
+       }
+
+       return 0;
+}
+
 /* set PCI bus mastering */
 static int
 pci_vfio_set_bus_master(int dev_fd, bool op)
@@ -187,11 +218,8 @@ pci_vfio_set_bus_master(int dev_fd, bool op)
 static int
 pci_vfio_setup_interrupts(struct rte_pci_device *dev, int vfio_dev_fd)
 {
-       char irq_set_buf[sizeof(struct vfio_irq_set) + sizeof(int)];
-       struct vfio_irq_set *irq_set;
-       enum rte_intr_mode intr_mode;
        int i, ret, intr_idx;
-       int fd;
+       enum rte_intr_mode intr_mode;
 
        /* default to invalid index */
        intr_idx = VFIO_PCI_NUM_IRQS;
@@ -223,6 +251,7 @@ pci_vfio_setup_interrupts(struct rte_pci_device *dev, int vfio_dev_fd)
        /* start from MSI-X interrupt type */
        for (i = VFIO_PCI_MSIX_IRQ_INDEX; i >= 0; i--) {
                struct vfio_irq_info irq = { .argsz = sizeof(irq) };
+               int fd = -1;
 
                /* skip interrupt modes we don't want */
                if (intr_mode != RTE_INTR_MODE_NONE &&
@@ -238,51 +267,51 @@ pci_vfio_setup_interrupts(struct rte_pci_device *dev, int vfio_dev_fd)
                        return -1;
                }
 
-               /* found a usable interrupt mode */
-               if ((irq.flags & VFIO_IRQ_INFO_EVENTFD) != 0)
-                       break;
-
                /* if this vector cannot be used with eventfd, fail if we explicitly
                 * specified interrupt type, otherwise continue */
-               if (intr_mode != RTE_INTR_MODE_NONE) {
-                       RTE_LOG(ERR, EAL, "  interrupt vector does not support eventfd!\n");
+               if ((irq.flags & VFIO_IRQ_INFO_EVENTFD) == 0) {
+                       if (intr_mode != RTE_INTR_MODE_NONE) {
+                               RTE_LOG(ERR, EAL,
+                                               "  interrupt vector does not support eventfd!\n");
+                               return -1;
+                       } else
+                               continue;
+               }
+
+               /* set up an eventfd for interrupts */
+               fd = eventfd(0, EFD_NONBLOCK | EFD_CLOEXEC);
+               if (fd < 0) {
+                       RTE_LOG(ERR, EAL, "  cannot set up eventfd, "
+                                       "error %i (%s)\n", errno, strerror(errno));
                        return -1;
                }
-       }
 
-       if (i < 0)
-               return -1;
+               dev->intr_handle.fd = fd;
+               dev->intr_handle.vfio_dev_fd = vfio_dev_fd;
 
-       fd = eventfd(0, EFD_NONBLOCK | EFD_CLOEXEC);
-       if (fd < 0) {
-               RTE_LOG(ERR, EAL, "  cannot set up eventfd, error %i (%s)\n",
-                       errno, strerror(errno));
-               return -1;
-       }
+               switch (i) {
+               case VFIO_PCI_MSIX_IRQ_INDEX:
+                       intr_mode = RTE_INTR_MODE_MSIX;
+                       dev->intr_handle.type = RTE_INTR_HANDLE_VFIO_MSIX;
+                       break;
+               case VFIO_PCI_MSI_IRQ_INDEX:
+                       intr_mode = RTE_INTR_MODE_MSI;
+                       dev->intr_handle.type = RTE_INTR_HANDLE_VFIO_MSI;
+                       break;
+               case VFIO_PCI_INTX_IRQ_INDEX:
+                       intr_mode = RTE_INTR_MODE_LEGACY;
+                       dev->intr_handle.type = RTE_INTR_HANDLE_VFIO_LEGACY;
+                       break;
+               default:
+                       RTE_LOG(ERR, EAL, "  unknown interrupt type!\n");
+                       return -1;
+               }
 
-       irq_set = (struct vfio_irq_set *)irq_set_buf;
-       irq_set->argsz = sizeof(irq_set_buf);
-       irq_set->flags = VFIO_IRQ_SET_DATA_EVENTFD|VFIO_IRQ_SET_ACTION_TRIGGER;
-       irq_set->index = i;
-       irq_set->start = 0;
-       irq_set->count = 1;
-       memcpy(&irq_set->data, &fd, sizeof(int));
-       if (ioctl(vfio_dev_fd, VFIO_DEVICE_SET_IRQS, irq_set) < 0) {
-               RTE_LOG(ERR, EAL, "  error configuring interrupt\n");
-               close(fd);
-               return -1;
+               return 0;
        }
 
-       dev->intr_handle.fd = fd;
-       dev->intr_handle.vfio_dev_fd = vfio_dev_fd;
-       if (i == VFIO_PCI_MSIX_IRQ_INDEX)
-               dev->intr_handle.type = RTE_INTR_HANDLE_VFIO_MSIX;
-       else if (i == VFIO_PCI_MSI_IRQ_INDEX)
-               dev->intr_handle.type = RTE_INTR_HANDLE_VFIO_MSI;
-       else if (i == VFIO_PCI_INTX_IRQ_INDEX)
-               dev->intr_handle.type = RTE_INTR_HANDLE_VFIO_LEGACY;
-
-       return 0;
+       /* if we're here, we haven't found a suitable interrupt vector */
+       return -1;
 }
 
 #ifdef HAVE_VFIO_DEV_REQ_INTERFACE
@@ -430,6 +459,11 @@ pci_rte_vfio_setup_device(struct rte_pci_device *dev, int vfio_dev_fd)
                return -1;
        }
 
+       if (pci_vfio_enable_bus_memory(vfio_dev_fd)) {
+               RTE_LOG(ERR, EAL, "Cannot enable bus memory!\n");
+               return -1;
+       }
+
        /* set bus mastering for the device */
        if (pci_vfio_set_bus_master(vfio_dev_fd, true)) {
                RTE_LOG(ERR, EAL, "Cannot set up bus mastering!\n");
@@ -454,7 +488,8 @@ pci_vfio_mmap_bar(int vfio_dev_fd, struct mapped_pci_resource *vfio_res,
                int bar_index, int additional_flags)
 {
        struct memreg {
-               unsigned long offset, size;
+               uint64_t offset;
+               size_t   size;
        } memreg[2] = {};
        void *bar_addr;
        struct pci_msix_table *msix_table = &vfio_res->msix_table;
@@ -507,7 +542,8 @@ pci_vfio_mmap_bar(int vfio_dev_fd, struct mapped_pci_resource *vfio_res,
                RTE_LOG(DEBUG, EAL,
                        "Trying to map BAR%d that contains the MSI-X "
                        "table. Trying offsets: "
-                       "0x%04lx:0x%04lx, 0x%04lx:0x%04lx\n", bar_index,
+                       "0x%04" PRIx64 ":0x%04zx, 0x%04" PRIx64 ":0x%04zx\n",
+                       bar_index,
                        memreg[0].offset, memreg[0].size,
                        memreg[1].offset, memreg[1].size);
        } else {
@@ -525,23 +561,35 @@ pci_vfio_mmap_bar(int vfio_dev_fd, struct mapped_pci_resource *vfio_res,
                        map_addr = pci_map_resource(bar_addr, vfio_dev_fd,
                                                        memreg[0].offset,
                                                        memreg[0].size,
-                                                       MAP_FIXED);
+                                                       RTE_MAP_FORCE_ADDRESS);
                }
 
+               /*
+                * Regarding "memreg[0].size == 0":
+                * If this BAR has MSI-X table, memreg[0].size (the
+                * first part or the part before the table) can
+                * legitimately be 0 for hardware using vector table
+                * offset 0 (i.e. first part does not exist).
+                *
+                * When memreg[0].size is 0, "mapping the first part"
+                * never happens, and map_addr is NULL at this
+                * point. So check that mapping has been actually
+                * attempted.
+                */
                /* if there's a second part, try to map it */
-               if (map_addr != MAP_FAILED
+               if ((map_addr != NULL || memreg[0].size == 0)
                        && memreg[1].offset && memreg[1].size) {
                        void *second_addr = RTE_PTR_ADD(bar_addr,
-                                                       memreg[1].offset -
-                                                       (uintptr_t)bar->offset);
+                                               (uintptr_t)(memreg[1].offset -
+                                               bar->offset));
                        map_addr = pci_map_resource(second_addr,
                                                        vfio_dev_fd,
                                                        memreg[1].offset,
                                                        memreg[1].size,
-                                                       MAP_FIXED);
+                                                       RTE_MAP_FORCE_ADDRESS);
                }
 
-               if (map_addr == MAP_FAILED || !map_addr) {
+               if (map_addr == NULL) {
                        munmap(bar_addr, bar->size);
                        bar_addr = MAP_FAILED;
                        RTE_LOG(ERR, EAL, "Failed to map pci BAR%d\n",
@@ -714,7 +762,7 @@ pci_vfio_map_resource_primary(struct rte_pci_device *dev)
                }
        }
 
-       for (i = 0; i < (int) vfio_res->nb_maps; i++) {
+       for (i = 0; i < vfio_res->nb_maps; i++) {
                struct vfio_region_info *reg = NULL;
                void *bar_addr;
 
@@ -751,6 +799,9 @@ pci_vfio_map_resource_primary(struct rte_pci_device *dev)
                bar_addr = pci_map_addr;
                pci_map_addr = RTE_PTR_ADD(bar_addr, (size_t) reg->size);
 
+               pci_map_addr = RTE_PTR_ALIGN(pci_map_addr,
+                                       sysconf(_SC_PAGE_SIZE));
+
                maps[i].addr = bar_addr;
                maps[i].offset = reg->offset;
                maps[i].size = reg->size;
@@ -787,7 +838,8 @@ pci_vfio_map_resource_primary(struct rte_pci_device *dev)
 err_vfio_res:
        rte_free(vfio_res);
 err_vfio_dev_fd:
-       close(vfio_dev_fd);
+       rte_vfio_release_device(rte_pci_get_sysfs_path(),
+                       pci_addr, vfio_dev_fd);
        return -1;
 }
 
@@ -836,7 +888,7 @@ pci_vfio_map_resource_secondary(struct rte_pci_device *dev)
        /* map BARs */
        maps = vfio_res->maps;
 
-       for (i = 0; i < (int) vfio_res->nb_maps; i++) {
+       for (i = 0; i < vfio_res->nb_maps; i++) {
                ret = pci_vfio_mmap_bar(vfio_dev_fd, vfio_res, i, MAP_FIXED);
                if (ret < 0) {
                        RTE_LOG(ERR, EAL, "  %s mapping BAR%i failed: %s\n",
@@ -855,7 +907,8 @@ pci_vfio_map_resource_secondary(struct rte_pci_device *dev)
 
        return 0;
 err_vfio_dev_fd:
-       close(vfio_dev_fd);
+       rte_vfio_release_device(rte_pci_get_sysfs_path(),
+                       pci_addr, vfio_dev_fd);
        return -1;
 }
 
@@ -895,7 +948,7 @@ find_and_unmap_vfio_resource(struct mapped_pci_res_list *vfio_res_list,
                pci_addr);
 
        maps = vfio_res->maps;
-       for (i = 0; i < (int) vfio_res->nb_maps; i++) {
+       for (i = 0; i < vfio_res->nb_maps; i++) {
 
                /*
                 * We do not need to be aware of MSI-X table BAR mappings as
@@ -964,7 +1017,7 @@ pci_vfio_unmap_resource_primary(struct rte_pci_device *dev)
        }
 
        TAILQ_REMOVE(vfio_res_list, vfio_res, next);
-
+       rte_free(vfio_res);
        return 0;
 }