vfio: revert interrupt eventfd setup at probe
[dpdk.git] / drivers / bus / pci / linux / pci_vfio.c
index d112b4b..1ceb1c0 100644 (file)
 #include <rte_eal_memconfig.h>
 #include <rte_malloc.h>
 #include <rte_vfio.h>
+#include <rte_eal.h>
+#include <rte_bus.h>
+#include <rte_spinlock.h>
+#include <rte_tailq.h>
 
 #include "eal_filesystem.h"
 
@@ -35,7 +39,9 @@
 
 #ifdef VFIO_PRESENT
 
+#ifndef PAGE_SIZE
 #define PAGE_SIZE   (sysconf(_SC_PAGESIZE))
+#endif
 #define PAGE_MASK   (~(PAGE_SIZE - 1))
 
 static struct rte_tailq_elem rte_vfio_tailq = {
@@ -277,6 +283,125 @@ pci_vfio_setup_interrupts(struct rte_pci_device *dev, int vfio_dev_fd)
        return -1;
 }
 
+#ifdef HAVE_VFIO_DEV_REQ_INTERFACE
+/*
+ * Spinlock for device hot-unplug failure handling.
+ * If it tries to access bus or device, such as handle sigbus on bus
+ * or handle memory failure for device, just need to use this lock.
+ * It could protect the bus and the device to avoid race condition.
+ */
+static rte_spinlock_t failure_handle_lock = RTE_SPINLOCK_INITIALIZER;
+
+static void
+pci_vfio_req_handler(void *param)
+{
+       struct rte_bus *bus;
+       int ret;
+       struct rte_device *device = (struct rte_device *)param;
+
+       rte_spinlock_lock(&failure_handle_lock);
+       bus = rte_bus_find_by_device(device);
+       if (bus == NULL) {
+               RTE_LOG(ERR, EAL, "Cannot find bus for device (%s)\n",
+                       device->name);
+               goto handle_end;
+       }
+
+       /*
+        * vfio kernel module request user space to release allocated
+        * resources before device be deleted in kernel, so it can directly
+        * call the vfio bus hot-unplug handler to process it.
+        */
+       ret = bus->hot_unplug_handler(device);
+       if (ret)
+               RTE_LOG(ERR, EAL,
+                       "Can not handle hot-unplug for device (%s)\n",
+                       device->name);
+handle_end:
+       rte_spinlock_unlock(&failure_handle_lock);
+}
+
+/* enable notifier (only enable req now) */
+static int
+pci_vfio_enable_notifier(struct rte_pci_device *dev, int vfio_dev_fd)
+{
+       int ret;
+       int fd = -1;
+
+       /* set up an eventfd for req notifier */
+       fd = eventfd(0, EFD_NONBLOCK | EFD_CLOEXEC);
+       if (fd < 0) {
+               RTE_LOG(ERR, EAL, "Cannot set up eventfd, error %i (%s)\n",
+                       errno, strerror(errno));
+               return -1;
+       }
+
+       dev->vfio_req_intr_handle.fd = fd;
+       dev->vfio_req_intr_handle.type = RTE_INTR_HANDLE_VFIO_REQ;
+       dev->vfio_req_intr_handle.vfio_dev_fd = vfio_dev_fd;
+
+       ret = rte_intr_callback_register(&dev->vfio_req_intr_handle,
+                                        pci_vfio_req_handler,
+                                        (void *)&dev->device);
+       if (ret) {
+               RTE_LOG(ERR, EAL, "Fail to register req notifier handler.\n");
+               goto error;
+       }
+
+       ret = rte_intr_enable(&dev->vfio_req_intr_handle);
+       if (ret) {
+               RTE_LOG(ERR, EAL, "Fail to enable req notifier.\n");
+               ret = rte_intr_callback_unregister(&dev->vfio_req_intr_handle,
+                                                pci_vfio_req_handler,
+                                                (void *)&dev->device);
+               if (ret < 0)
+                       RTE_LOG(ERR, EAL,
+                               "Fail to unregister req notifier handler.\n");
+               goto error;
+       }
+
+       return 0;
+error:
+       close(fd);
+
+       dev->vfio_req_intr_handle.fd = -1;
+       dev->vfio_req_intr_handle.type = RTE_INTR_HANDLE_UNKNOWN;
+       dev->vfio_req_intr_handle.vfio_dev_fd = -1;
+
+       return -1;
+}
+
+/* disable notifier (only disable req now) */
+static int
+pci_vfio_disable_notifier(struct rte_pci_device *dev)
+{
+       int ret;
+
+       ret = rte_intr_disable(&dev->vfio_req_intr_handle);
+       if (ret) {
+               RTE_LOG(ERR, EAL, "fail to disable req notifier.\n");
+               return -1;
+       }
+
+       ret = rte_intr_callback_unregister(&dev->vfio_req_intr_handle,
+                                          pci_vfio_req_handler,
+                                          (void *)&dev->device);
+       if (ret < 0) {
+               RTE_LOG(ERR, EAL,
+                        "fail to unregister req notifier handler.\n");
+               return -1;
+       }
+
+       close(dev->vfio_req_intr_handle.fd);
+
+       dev->vfio_req_intr_handle.fd = -1;
+       dev->vfio_req_intr_handle.type = RTE_INTR_HANDLE_UNKNOWN;
+       dev->vfio_req_intr_handle.vfio_dev_fd = -1;
+
+       return 0;
+}
+#endif
+
 static int
 pci_vfio_is_ioport_bar(int vfio_dev_fd, int bar_index)
 {
@@ -333,9 +458,10 @@ pci_vfio_mmap_bar(int vfio_dev_fd, struct mapped_pci_resource *vfio_res,
        struct pci_msix_table *msix_table = &vfio_res->msix_table;
        struct pci_map *bar = &vfio_res->maps[bar_index];
 
-       if (bar->size == 0)
-               /* Skip this BAR */
+       if (bar->size == 0) {
+               RTE_LOG(DEBUG, EAL, "Bar size is 0, skip BAR%d\n", bar_index);
                return 0;
+       }
 
        if (msix_table->bar_index == bar_index) {
                /*
@@ -344,8 +470,15 @@ pci_vfio_mmap_bar(int vfio_dev_fd, struct mapped_pci_resource *vfio_res,
                 */
                uint32_t table_start = msix_table->offset;
                uint32_t table_end = table_start + msix_table->size;
-               table_end = (table_end + ~PAGE_MASK) & PAGE_MASK;
-               table_start &= PAGE_MASK;
+               table_end = RTE_ALIGN(table_end, PAGE_SIZE);
+               table_start = RTE_ALIGN_FLOOR(table_start, PAGE_SIZE);
+
+               /* If page-aligned start of MSI-X table is less than the
+                * actual MSI-X table start address, reassign to the actual
+                * start address.
+                */
+               if (table_start < msix_table->offset)
+                       table_start = msix_table->offset;
 
                if (table_start == 0 && table_end >= bar->size) {
                        /* Cannot map this BAR */
@@ -357,8 +490,17 @@ pci_vfio_mmap_bar(int vfio_dev_fd, struct mapped_pci_resource *vfio_res,
 
                memreg[0].offset = bar->offset;
                memreg[0].size = table_start;
-               memreg[1].offset = bar->offset + table_end;
-               memreg[1].size = bar->size - table_end;
+               if (bar->size < table_end) {
+                       /*
+                        * If MSI-X table end is beyond BAR end, don't attempt
+                        * to perform second mapping.
+                        */
+                       memreg[1].offset = 0;
+                       memreg[1].size = 0;
+               } else {
+                       memreg[1].offset = bar->offset + table_end;
+                       memreg[1].size = bar->size - table_end;
+               }
 
                RTE_LOG(DEBUG, EAL,
                        "Trying to map BAR%d that contains the MSI-X "
@@ -517,6 +659,9 @@ pci_vfio_map_resource_primary(struct rte_pci_device *dev)
        struct pci_map *maps;
 
        dev->intr_handle.fd = -1;
+#ifdef HAVE_VFIO_DEV_REQ_INTERFACE
+       dev->vfio_req_intr_handle.fd = -1;
+#endif
 
        /* store PCI address string */
        snprintf(pci_addr, sizeof(pci_addr), PCI_PRI_FMT,
@@ -531,7 +676,7 @@ pci_vfio_map_resource_primary(struct rte_pci_device *dev)
        vfio_res = rte_zmalloc("VFIO_RES", sizeof(*vfio_res), 0);
        if (vfio_res == NULL) {
                RTE_LOG(ERR, EAL,
-                       "%s(): cannot store uio mmap details\n", __func__);
+                       "%s(): cannot store vfio mmap details\n", __func__);
                goto err_vfio_dev_fd;
        }
        memcpy(&vfio_res->pci_addr, &dev->addr, sizeof(vfio_res->pci_addr));
@@ -627,6 +772,13 @@ pci_vfio_map_resource_primary(struct rte_pci_device *dev)
                goto err_vfio_res;
        }
 
+#ifdef HAVE_VFIO_DEV_REQ_INTERFACE
+       if (pci_vfio_enable_notifier(dev, vfio_dev_fd) != 0) {
+               RTE_LOG(ERR, EAL, "Error setting up notifier!\n");
+               goto err_vfio_res;
+       }
+
+#endif
        TAILQ_INSERT_TAIL(vfio_res_list, vfio_res, next);
 
        return 0;
@@ -652,16 +804,14 @@ pci_vfio_map_resource_secondary(struct rte_pci_device *dev)
        struct pci_map *maps;
 
        dev->intr_handle.fd = -1;
+#ifdef HAVE_VFIO_DEV_REQ_INTERFACE
+       dev->vfio_req_intr_handle.fd = -1;
+#endif
 
        /* store PCI address string */
        snprintf(pci_addr, sizeof(pci_addr), PCI_PRI_FMT,
                        loc->domain, loc->bus, loc->devid, loc->function);
 
-       ret = rte_vfio_setup_device(rte_pci_get_sysfs_path(), pci_addr,
-                                       &vfio_dev_fd, &device_info);
-       if (ret)
-               return ret;
-
        /* if we're in a secondary process, just find our tailq entry */
        TAILQ_FOREACH(vfio_res, vfio_res_list, next) {
                if (rte_pci_addr_cmp(&vfio_res->pci_addr,
@@ -673,9 +823,14 @@ pci_vfio_map_resource_secondary(struct rte_pci_device *dev)
        if (vfio_res == NULL) {
                RTE_LOG(ERR, EAL, "  %s cannot find TAILQ entry for PCI device!\n",
                                pci_addr);
-               goto err_vfio_dev_fd;
+               return -1;
        }
 
+       ret = rte_vfio_setup_device(rte_pci_get_sysfs_path(), pci_addr,
+                                       &vfio_dev_fd, &device_info);
+       if (ret)
+               return ret;
+
        /* map BARs */
        maps = vfio_res->maps;
 
@@ -692,6 +847,9 @@ pci_vfio_map_resource_secondary(struct rte_pci_device *dev)
 
        /* we need save vfio_dev_fd, so it can be used during release */
        dev->intr_handle.vfio_dev_fd = vfio_dev_fd;
+#ifdef HAVE_VFIO_DEV_REQ_INTERFACE
+       dev->vfio_req_intr_handle.vfio_dev_fd = vfio_dev_fd;
+#endif
 
        return 0;
 err_vfio_dev_fd:
@@ -764,6 +922,14 @@ pci_vfio_unmap_resource_primary(struct rte_pci_device *dev)
        snprintf(pci_addr, sizeof(pci_addr), PCI_PRI_FMT,
                        loc->domain, loc->bus, loc->devid, loc->function);
 
+#ifdef HAVE_VFIO_DEV_REQ_INTERFACE
+       ret = pci_vfio_disable_notifier(dev);
+       if (ret) {
+               RTE_LOG(ERR, EAL, "fail to disable req notifier.\n");
+               return -1;
+       }
+
+#endif
        if (close(dev->intr_handle.fd) < 0) {
                RTE_LOG(INFO, EAL, "Error when closing eventfd file descriptor for %s\n",
                        pci_addr);