net/virtio: fix Rx interrupt with VFIO
[dpdk.git] / drivers / net / virtio / virtio_pci.c
index 7c7621a..9574498 100644 (file)
@@ -37,6 +37,9 @@
  #include <fcntl.h>
 #endif
 
+#include <rte_io.h>
+#include <rte_bus.h>
+
 #include "virtio_pci.h"
 #include "virtio_logs.h"
 #include "virtqueue.h"
  */
 #define PCI_CAPABILITY_LIST    0x34
 #define PCI_CAP_ID_VNDR                0x09
+#define PCI_CAP_ID_MSIX                0x11
+
+/*
+ * The remaining space is defined by each driver as the per-driver
+ * configuration space.
+ */
+#define VIRTIO_PCI_CONFIG(hw) \
+               (((hw)->use_msix == VIRTIO_MSIX_ENABLED) ? 24 : 20)
 
+static inline int
+check_vq_phys_addr_ok(struct virtqueue *vq)
+{
+       /* Virtio PCI device VIRTIO_PCI_QUEUE_PF register is 32bit,
+        * and only accepts 32 bit page frame number.
+        * Check if the allocated physical memory exceeds 16TB.
+        */
+       if ((vq->vq_ring_mem + vq->vq_ring_size - 1) >>
+                       (VIRTIO_PCI_QUEUE_ADDR_SHIFT + 32)) {
+               PMD_INIT_LOG(ERR, "vring address shouldn't be above 16TB!");
+               return 0;
+       }
+
+       return 1;
+}
+
+/*
+ * Since we are in legacy mode:
+ * http://ozlabs.org/~rusty/virtio-spec/virtio-0.9.5.pdf
+ *
+ * "Note that this is possible because while the virtio header is PCI (i.e.
+ * little) endian, the device-specific region is encoded in the native endian of
+ * the guest (where such distinction is applicable)."
+ *
+ * For powerpc which supports both, qemu supposes that cpu is big endian and
+ * enforces this for the virtio-net stuff.
+ */
 static void
 legacy_read_dev_config(struct virtio_hw *hw, size_t offset,
                       void *dst, int length)
 {
-       uint64_t off;
-       uint8_t *d;
+#ifdef RTE_ARCH_PPC_64
        int size;
 
-       off = VIRTIO_PCI_CONFIG(hw) + offset;
-       for (d = dst; length > 0; d += size, off += size, length -= size) {
+       while (length > 0) {
                if (length >= 4) {
                        size = 4;
-                       *(uint32_t *)d = VIRTIO_READ_REG_4(hw, off);
+                       rte_pci_ioport_read(VTPCI_IO(hw), dst, size,
+                               VIRTIO_PCI_CONFIG(hw) + offset);
+                       *(uint32_t *)dst = rte_be_to_cpu_32(*(uint32_t *)dst);
                } else if (length >= 2) {
                        size = 2;
-                       *(uint16_t *)d = VIRTIO_READ_REG_2(hw, off);
+                       rte_pci_ioport_read(VTPCI_IO(hw), dst, size,
+                               VIRTIO_PCI_CONFIG(hw) + offset);
+                       *(uint16_t *)dst = rte_be_to_cpu_16(*(uint16_t *)dst);
                } else {
                        size = 1;
-                       *d = VIRTIO_READ_REG_1(hw, off);
+                       rte_pci_ioport_read(VTPCI_IO(hw), dst, size,
+                               VIRTIO_PCI_CONFIG(hw) + offset);
                }
+
+               dst = (char *)dst + size;
+               offset += size;
+               length -= size;
        }
+#else
+       rte_pci_ioport_read(VTPCI_IO(hw), dst, length,
+               VIRTIO_PCI_CONFIG(hw) + offset);
+#endif
 }
 
 static void
 legacy_write_dev_config(struct virtio_hw *hw, size_t offset,
                        const void *src, int length)
 {
-       uint64_t off;
-       const uint8_t *s;
+#ifdef RTE_ARCH_PPC_64
+       union {
+               uint32_t u32;
+               uint16_t u16;
+       } tmp;
        int size;
 
-       off = VIRTIO_PCI_CONFIG(hw) + offset;
-       for (s = src; length > 0; s += size, off += size, length -= size) {
+       while (length > 0) {
                if (length >= 4) {
                        size = 4;
-                       VIRTIO_WRITE_REG_4(hw, off, *(const uint32_t *)s);
+                       tmp.u32 = rte_cpu_to_be_32(*(const uint32_t *)src);
+                       rte_pci_ioport_write(VTPCI_IO(hw), &tmp.u32, size,
+                               VIRTIO_PCI_CONFIG(hw) + offset);
                } else if (length >= 2) {
                        size = 2;
-                       VIRTIO_WRITE_REG_2(hw, off, *(const uint16_t *)s);
+                       tmp.u16 = rte_cpu_to_be_16(*(const uint16_t *)src);
+                       rte_pci_ioport_write(VTPCI_IO(hw), &tmp.u16, size,
+                               VIRTIO_PCI_CONFIG(hw) + offset);
                } else {
                        size = 1;
-                       VIRTIO_WRITE_REG_1(hw, off, *s);
+                       rte_pci_ioport_write(VTPCI_IO(hw), src, size,
+                               VIRTIO_PCI_CONFIG(hw) + offset);
                }
+
+               src = (const char *)src + size;
+               offset += size;
+               length -= size;
        }
+#else
+       rte_pci_ioport_write(VTPCI_IO(hw), src, length,
+               VIRTIO_PCI_CONFIG(hw) + offset);
+#endif
 }
 
 static uint64_t
 legacy_get_features(struct virtio_hw *hw)
 {
-       return VIRTIO_READ_REG_4(hw, VIRTIO_PCI_HOST_FEATURES);
+       uint32_t dst;
+
+       rte_pci_ioport_read(VTPCI_IO(hw), &dst, 4, VIRTIO_PCI_HOST_FEATURES);
+       return dst;
 }
 
 static void
@@ -109,19 +176,23 @@ legacy_set_features(struct virtio_hw *hw, uint64_t features)
                        "only 32 bit features are allowed for legacy virtio!");
                return;
        }
-       VIRTIO_WRITE_REG_4(hw, VIRTIO_PCI_GUEST_FEATURES, features);
+       rte_pci_ioport_write(VTPCI_IO(hw), &features, 4,
+               VIRTIO_PCI_GUEST_FEATURES);
 }
 
 static uint8_t
 legacy_get_status(struct virtio_hw *hw)
 {
-       return VIRTIO_READ_REG_1(hw, VIRTIO_PCI_STATUS);
+       uint8_t dst;
+
+       rte_pci_ioport_read(VTPCI_IO(hw), &dst, 1, VIRTIO_PCI_STATUS);
+       return dst;
 }
 
 static void
 legacy_set_status(struct virtio_hw *hw, uint8_t status)
 {
-       VIRTIO_WRITE_REG_1(hw, VIRTIO_PCI_STATUS, status);
+       rte_pci_ioport_write(VTPCI_IO(hw), &status, 1, VIRTIO_PCI_STATUS);
 }
 
 static void
@@ -133,309 +204,79 @@ legacy_reset(struct virtio_hw *hw)
 static uint8_t
 legacy_get_isr(struct virtio_hw *hw)
 {
-       return VIRTIO_READ_REG_1(hw, VIRTIO_PCI_ISR);
+       uint8_t dst;
+
+       rte_pci_ioport_read(VTPCI_IO(hw), &dst, 1, VIRTIO_PCI_ISR);
+       return dst;
 }
 
 /* Enable one vector (0) for Link State Intrerrupt */
 static uint16_t
 legacy_set_config_irq(struct virtio_hw *hw, uint16_t vec)
 {
-       VIRTIO_WRITE_REG_2(hw, VIRTIO_MSI_CONFIG_VECTOR, vec);
-       return VIRTIO_READ_REG_2(hw, VIRTIO_MSI_CONFIG_VECTOR);
-}
-
-static uint16_t
-legacy_get_queue_num(struct virtio_hw *hw, uint16_t queue_id)
-{
-       VIRTIO_WRITE_REG_2(hw, VIRTIO_PCI_QUEUE_SEL, queue_id);
-       return VIRTIO_READ_REG_2(hw, VIRTIO_PCI_QUEUE_NUM);
-}
+       uint16_t dst;
 
-static void
-legacy_setup_queue(struct virtio_hw *hw, struct virtqueue *vq)
-{
-       VIRTIO_WRITE_REG_2(hw, VIRTIO_PCI_QUEUE_SEL, vq->vq_queue_index);
-
-       VIRTIO_WRITE_REG_4(hw, VIRTIO_PCI_QUEUE_PFN,
-               vq->mz->phys_addr >> VIRTIO_PCI_QUEUE_ADDR_SHIFT);
+       rte_pci_ioport_write(VTPCI_IO(hw), &vec, 2, VIRTIO_MSI_CONFIG_VECTOR);
+       rte_pci_ioport_read(VTPCI_IO(hw), &dst, 2, VIRTIO_MSI_CONFIG_VECTOR);
+       return dst;
 }
 
-static void
-legacy_del_queue(struct virtio_hw *hw, struct virtqueue *vq)
-{
-       VIRTIO_WRITE_REG_2(hw, VIRTIO_PCI_QUEUE_SEL, vq->vq_queue_index);
-
-       VIRTIO_WRITE_REG_4(hw, VIRTIO_PCI_QUEUE_PFN, 0);
-}
-
-static void
-legacy_notify_queue(struct virtio_hw *hw, struct virtqueue *vq)
-{
-       VIRTIO_WRITE_REG_2(hw, VIRTIO_PCI_QUEUE_NOTIFY, vq->vq_queue_index);
-}
-
-#ifdef RTE_EXEC_ENV_LINUXAPP
-static int
-parse_sysfs_value(const char *filename, unsigned long *val)
-{
-       FILE *f;
-       char buf[BUFSIZ];
-       char *end = NULL;
-
-       f = fopen(filename, "r");
-       if (f == NULL) {
-               PMD_INIT_LOG(ERR, "%s(): cannot open sysfs value %s",
-                            __func__, filename);
-               return -1;
-       }
-
-       if (fgets(buf, sizeof(buf), f) == NULL) {
-               PMD_INIT_LOG(ERR, "%s(): cannot read sysfs value %s",
-                            __func__, filename);
-               fclose(f);
-               return -1;
-       }
-       *val = strtoul(buf, &end, 0);
-       if ((buf[0] == '\0') || (end == NULL) || (*end != '\n')) {
-               PMD_INIT_LOG(ERR, "%s(): cannot parse sysfs value %s",
-                            __func__, filename);
-               fclose(f);
-               return -1;
-       }
-       fclose(f);
-       return 0;
-}
-
-static int
-get_uio_dev(struct rte_pci_addr *loc, char *buf, unsigned int buflen,
-                       unsigned int *uio_num)
-{
-       struct dirent *e;
-       DIR *dir;
-       char dirname[PATH_MAX];
-
-       /*
-        * depending on kernel version, uio can be located in uio/uioX
-        * or uio:uioX
-        */
-       snprintf(dirname, sizeof(dirname),
-                    SYSFS_PCI_DEVICES "/" PCI_PRI_FMT "/uio",
-                    loc->domain, loc->bus, loc->devid, loc->function);
-       dir = opendir(dirname);
-       if (dir == NULL) {
-               /* retry with the parent directory */
-               snprintf(dirname, sizeof(dirname),
-                            SYSFS_PCI_DEVICES "/" PCI_PRI_FMT,
-                            loc->domain, loc->bus, loc->devid, loc->function);
-               dir = opendir(dirname);
-
-               if (dir == NULL) {
-                       PMD_INIT_LOG(ERR, "Cannot opendir %s", dirname);
-                       return -1;
-               }
-       }
-
-       /* take the first file starting with "uio" */
-       while ((e = readdir(dir)) != NULL) {
-               /* format could be uio%d ...*/
-               int shortprefix_len = sizeof("uio") - 1;
-               /* ... or uio:uio%d */
-               int longprefix_len = sizeof("uio:uio") - 1;
-               char *endptr;
-
-               if (strncmp(e->d_name, "uio", 3) != 0)
-                       continue;
-
-               /* first try uio%d */
-               errno = 0;
-               *uio_num = strtoull(e->d_name + shortprefix_len, &endptr, 10);
-               if (errno == 0 && endptr != (e->d_name + shortprefix_len)) {
-                       snprintf(buf, buflen, "%s/uio%u", dirname, *uio_num);
-                       break;
-               }
-
-               /* then try uio:uio%d */
-               errno = 0;
-               *uio_num = strtoull(e->d_name + longprefix_len, &endptr, 10);
-               if (errno == 0 && endptr != (e->d_name + longprefix_len)) {
-                       snprintf(buf, buflen, "%s/uio:uio%u", dirname,
-                                    *uio_num);
-                       break;
-               }
-       }
-       closedir(dir);
-
-       /* No uio resource found */
-       if (e == NULL) {
-               PMD_INIT_LOG(ERR, "Could not find uio resource");
-               return -1;
-       }
-
-       return 0;
-}
-
-static int
-legacy_virtio_has_msix(const struct rte_pci_addr *loc)
+static uint16_t
+legacy_set_queue_irq(struct virtio_hw *hw, struct virtqueue *vq, uint16_t vec)
 {
-       DIR *d;
-       char dirname[PATH_MAX];
-
-       snprintf(dirname, sizeof(dirname),
-                    SYSFS_PCI_DEVICES "/" PCI_PRI_FMT "/msi_irqs",
-                    loc->domain, loc->bus, loc->devid, loc->function);
-
-       d = opendir(dirname);
-       if (d)
-               closedir(d);
+       uint16_t dst;
 
-       return (d != NULL);
+       rte_pci_ioport_write(VTPCI_IO(hw), &vq->vq_queue_index, 2,
+               VIRTIO_PCI_QUEUE_SEL);
+       rte_pci_ioport_write(VTPCI_IO(hw), &vec, 2, VIRTIO_MSI_QUEUE_VECTOR);
+       rte_pci_ioport_read(VTPCI_IO(hw), &dst, 2, VIRTIO_MSI_QUEUE_VECTOR);
+       return dst;
 }
 
-/* Extract I/O port numbers from sysfs */
-static int
-virtio_resource_init_by_uio(struct rte_pci_device *pci_dev)
+static uint16_t
+legacy_get_queue_num(struct virtio_hw *hw, uint16_t queue_id)
 {
-       char dirname[PATH_MAX];
-       char filename[PATH_MAX];
-       unsigned long start, size;
-       unsigned int uio_num;
+       uint16_t dst;
 
-       if (get_uio_dev(&pci_dev->addr, dirname, sizeof(dirname), &uio_num) < 0)
-               return -1;
-
-       /* get portio size */
-       snprintf(filename, sizeof(filename),
-                    "%s/portio/port0/size", dirname);
-       if (parse_sysfs_value(filename, &size) < 0) {
-               PMD_INIT_LOG(ERR, "%s(): cannot parse size",
-                            __func__);
-               return -1;
-       }
-
-       /* get portio start */
-       snprintf(filename, sizeof(filename),
-                "%s/portio/port0/start", dirname);
-       if (parse_sysfs_value(filename, &start) < 0) {
-               PMD_INIT_LOG(ERR, "%s(): cannot parse portio start",
-                            __func__);
-               return -1;
-       }
-       pci_dev->mem_resource[0].addr = (void *)(uintptr_t)start;
-       pci_dev->mem_resource[0].len =  (uint64_t)size;
-       PMD_INIT_LOG(DEBUG,
-                    "PCI Port IO found start=0x%lx with size=0x%lx",
-                    start, size);
-
-       /* save fd */
-       memset(dirname, 0, sizeof(dirname));
-       snprintf(dirname, sizeof(dirname), "/dev/uio%u", uio_num);
-       pci_dev->intr_handle.fd = open(dirname, O_RDWR);
-       if (pci_dev->intr_handle.fd < 0) {
-               PMD_INIT_LOG(ERR, "Cannot open %s: %s\n",
-                       dirname, strerror(errno));
-               return -1;
-       }
-
-       pci_dev->intr_handle.type = RTE_INTR_HANDLE_UIO;
-       pci_dev->driver->drv_flags |= RTE_PCI_DRV_INTR_LSC;
-
-       return 0;
+       rte_pci_ioport_write(VTPCI_IO(hw), &queue_id, 2, VIRTIO_PCI_QUEUE_SEL);
+       rte_pci_ioport_read(VTPCI_IO(hw), &dst, 2, VIRTIO_PCI_QUEUE_NUM);
+       return dst;
 }
 
-/* Extract port I/O numbers from proc/ioports */
 static int
-virtio_resource_init_by_ioports(struct rte_pci_device *pci_dev)
+legacy_setup_queue(struct virtio_hw *hw, struct virtqueue *vq)
 {
-       uint16_t start, end;
-       int size;
-       FILE *fp;
-       char *line = NULL;
-       char pci_id[16];
-       int found = 0;
-       size_t linesz;
-
-       snprintf(pci_id, sizeof(pci_id), PCI_PRI_FMT,
-                pci_dev->addr.domain,
-                pci_dev->addr.bus,
-                pci_dev->addr.devid,
-                pci_dev->addr.function);
-
-       fp = fopen("/proc/ioports", "r");
-       if (fp == NULL) {
-               PMD_INIT_LOG(ERR, "%s(): can't open ioports", __func__);
-               return -1;
-       }
-
-       while (getdelim(&line, &linesz, '\n', fp) > 0) {
-               char *ptr = line;
-               char *left;
-               int n;
-
-               n = strcspn(ptr, ":");
-               ptr[n] = 0;
-               left = &ptr[n + 1];
-
-               while (*left && isspace(*left))
-                       left++;
+       uint32_t src;
 
-               if (!strncmp(left, pci_id, strlen(pci_id))) {
-                       found = 1;
-
-                       while (*ptr && isspace(*ptr))
-                               ptr++;
-
-                       sscanf(ptr, "%04hx-%04hx", &start, &end);
-                       size = end - start + 1;
-
-                       break;
-               }
-       }
-
-       free(line);
-       fclose(fp);
-
-       if (!found)
+       if (!check_vq_phys_addr_ok(vq))
                return -1;
 
-       pci_dev->mem_resource[0].addr = (void *)(uintptr_t)(uint32_t)start;
-       pci_dev->mem_resource[0].len =  (uint64_t)size;
-       PMD_INIT_LOG(DEBUG,
-               "PCI Port IO found start=0x%x with size=0x%x",
-               start, size);
-
-       /* can't support lsc interrupt without uio */
-       pci_dev->driver->drv_flags &= ~RTE_PCI_DRV_INTR_LSC;
+       rte_pci_ioport_write(VTPCI_IO(hw), &vq->vq_queue_index, 2,
+               VIRTIO_PCI_QUEUE_SEL);
+       src = vq->vq_ring_mem >> VIRTIO_PCI_QUEUE_ADDR_SHIFT;
+       rte_pci_ioport_write(VTPCI_IO(hw), &src, 4, VIRTIO_PCI_QUEUE_PFN);
 
        return 0;
 }
 
-/* Extract I/O port numbers from sysfs */
-static int
-legacy_virtio_resource_init(struct rte_pci_device *pci_dev)
+static void
+legacy_del_queue(struct virtio_hw *hw, struct virtqueue *vq)
 {
-       if (virtio_resource_init_by_uio(pci_dev) == 0)
-               return 0;
-       else
-               return virtio_resource_init_by_ioports(pci_dev);
-}
+       uint32_t src = 0;
 
-#else
-static int
-legayc_virtio_has_msix(const struct rte_pci_addr *loc __rte_unused)
-{
-       /* nic_uio does not enable interrupts, return 0 (false). */
-       return 0;
+       rte_pci_ioport_write(VTPCI_IO(hw), &vq->vq_queue_index, 2,
+               VIRTIO_PCI_QUEUE_SEL);
+       rte_pci_ioport_write(VTPCI_IO(hw), &src, 4, VIRTIO_PCI_QUEUE_PFN);
 }
 
-static int
-legacy_virtio_resource_init(struct rte_pci_device *pci_dev __rte_unused)
+static void
+legacy_notify_queue(struct virtio_hw *hw, struct virtqueue *vq)
 {
-       /* no setup required */
-       return 0;
+       rte_pci_ioport_write(VTPCI_IO(hw), &vq->vq_queue_index, 2,
+               VIRTIO_PCI_QUEUE_NOTIFY);
 }
-#endif
 
-static const struct virtio_pci_ops legacy_ops = {
+const struct virtio_pci_ops legacy_ops = {
        .read_dev_cfg   = legacy_read_dev_config,
        .write_dev_cfg  = legacy_write_dev_config,
        .reset          = legacy_reset,
@@ -445,54 +286,18 @@ static const struct virtio_pci_ops legacy_ops = {
        .set_features   = legacy_set_features,
        .get_isr        = legacy_get_isr,
        .set_config_irq = legacy_set_config_irq,
+       .set_queue_irq  = legacy_set_queue_irq,
        .get_queue_num  = legacy_get_queue_num,
        .setup_queue    = legacy_setup_queue,
        .del_queue      = legacy_del_queue,
        .notify_queue   = legacy_notify_queue,
 };
 
-
-static inline uint8_t
-io_read8(uint8_t *addr)
-{
-       return *(volatile uint8_t *)addr;
-}
-
-static inline void
-io_write8(uint8_t val, uint8_t *addr)
-{
-       *(volatile uint8_t *)addr = val;
-}
-
-static inline uint16_t
-io_read16(uint16_t *addr)
-{
-       return *(volatile uint16_t *)addr;
-}
-
-static inline void
-io_write16(uint16_t val, uint16_t *addr)
-{
-       *(volatile uint16_t *)addr = val;
-}
-
-static inline uint32_t
-io_read32(uint32_t *addr)
-{
-       return *(volatile uint32_t *)addr;
-}
-
-static inline void
-io_write32(uint32_t val, uint32_t *addr)
-{
-       *(volatile uint32_t *)addr = val;
-}
-
 static inline void
 io_write64_twopart(uint64_t val, uint32_t *lo, uint32_t *hi)
 {
-       io_write32(val & ((1ULL << 32) - 1), lo);
-       io_write32(val >> 32,                hi);
+       rte_write32(val & ((1ULL << 32) - 1), lo);
+       rte_write32(val >> 32,               hi);
 }
 
 static void
@@ -504,13 +309,13 @@ modern_read_dev_config(struct virtio_hw *hw, size_t offset,
        uint8_t old_gen, new_gen;
 
        do {
-               old_gen = io_read8(&hw->common_cfg->config_generation);
+               old_gen = rte_read8(&hw->common_cfg->config_generation);
 
                p = dst;
                for (i = 0;  i < length; i++)
-                       *p++ = io_read8((uint8_t *)hw->dev_cfg + offset + i);
+                       *p++ = rte_read8((uint8_t *)hw->dev_cfg + offset + i);
 
-               new_gen = io_read8(&hw->common_cfg->config_generation);
+               new_gen = rte_read8(&hw->common_cfg->config_generation);
        } while (old_gen != new_gen);
 }
 
@@ -522,7 +327,7 @@ modern_write_dev_config(struct virtio_hw *hw, size_t offset,
        const uint8_t *p = src;
 
        for (i = 0;  i < length; i++)
-               io_write8(*p++, (uint8_t *)hw->dev_cfg + offset + i);
+               rte_write8((*p++), (((uint8_t *)hw->dev_cfg) + offset + i));
 }
 
 static uint64_t
@@ -530,11 +335,11 @@ modern_get_features(struct virtio_hw *hw)
 {
        uint32_t features_lo, features_hi;
 
-       io_write32(0, &hw->common_cfg->device_feature_select);
-       features_lo = io_read32(&hw->common_cfg->device_feature);
+       rte_write32(0, &hw->common_cfg->device_feature_select);
+       features_lo = rte_read32(&hw->common_cfg->device_feature);
 
-       io_write32(1, &hw->common_cfg->device_feature_select);
-       features_hi = io_read32(&hw->common_cfg->device_feature);
+       rte_write32(1, &hw->common_cfg->device_feature_select);
+       features_hi = rte_read32(&hw->common_cfg->device_feature);
 
        return ((uint64_t)features_hi << 32) | features_lo;
 }
@@ -542,25 +347,25 @@ modern_get_features(struct virtio_hw *hw)
 static void
 modern_set_features(struct virtio_hw *hw, uint64_t features)
 {
-       io_write32(0, &hw->common_cfg->guest_feature_select);
-       io_write32(features & ((1ULL << 32) - 1),
-               &hw->common_cfg->guest_feature);
+       rte_write32(0, &hw->common_cfg->guest_feature_select);
+       rte_write32(features & ((1ULL << 32) - 1),
+                   &hw->common_cfg->guest_feature);
 
-       io_write32(1, &hw->common_cfg->guest_feature_select);
-       io_write32(features >> 32,
-               &hw->common_cfg->guest_feature);
+       rte_write32(1, &hw->common_cfg->guest_feature_select);
+       rte_write32(features >> 32,
+                   &hw->common_cfg->guest_feature);
 }
 
 static uint8_t
 modern_get_status(struct virtio_hw *hw)
 {
-       return io_read8(&hw->common_cfg->device_status);
+       return rte_read8(&hw->common_cfg->device_status);
 }
 
 static void
 modern_set_status(struct virtio_hw *hw, uint8_t status)
 {
-       io_write8(status, &hw->common_cfg->device_status);
+       rte_write8(status, &hw->common_cfg->device_status);
 }
 
 static void
@@ -573,36 +378,47 @@ modern_reset(struct virtio_hw *hw)
 static uint8_t
 modern_get_isr(struct virtio_hw *hw)
 {
-       return io_read8(hw->isr);
+       return rte_read8(hw->isr);
 }
 
 static uint16_t
 modern_set_config_irq(struct virtio_hw *hw, uint16_t vec)
 {
-       io_write16(vec, &hw->common_cfg->msix_config);
-       return io_read16(&hw->common_cfg->msix_config);
+       rte_write16(vec, &hw->common_cfg->msix_config);
+       return rte_read16(&hw->common_cfg->msix_config);
+}
+
+static uint16_t
+modern_set_queue_irq(struct virtio_hw *hw, struct virtqueue *vq, uint16_t vec)
+{
+       rte_write16(vq->vq_queue_index, &hw->common_cfg->queue_select);
+       rte_write16(vec, &hw->common_cfg->queue_msix_vector);
+       return rte_read16(&hw->common_cfg->queue_msix_vector);
 }
 
 static uint16_t
 modern_get_queue_num(struct virtio_hw *hw, uint16_t queue_id)
 {
-       io_write16(queue_id, &hw->common_cfg->queue_select);
-       return io_read16(&hw->common_cfg->queue_size);
+       rte_write16(queue_id, &hw->common_cfg->queue_select);
+       return rte_read16(&hw->common_cfg->queue_size);
 }
 
-static void
+static int
 modern_setup_queue(struct virtio_hw *hw, struct virtqueue *vq)
 {
        uint64_t desc_addr, avail_addr, used_addr;
        uint16_t notify_off;
 
-       desc_addr = vq->mz->phys_addr;
+       if (!check_vq_phys_addr_ok(vq))
+               return -1;
+
+       desc_addr = vq->vq_ring_mem;
        avail_addr = desc_addr + vq->vq_nentries * sizeof(struct vring_desc);
        used_addr = RTE_ALIGN_CEIL(avail_addr + offsetof(struct vring_avail,
                                                         ring[vq->vq_nentries]),
                                   VIRTIO_PCI_VRING_ALIGN);
 
-       io_write16(vq->vq_queue_index, &hw->common_cfg->queue_select);
+       rte_write16(vq->vq_queue_index, &hw->common_cfg->queue_select);
 
        io_write64_twopart(desc_addr, &hw->common_cfg->queue_desc_lo,
                                      &hw->common_cfg->queue_desc_hi);
@@ -611,11 +427,11 @@ modern_setup_queue(struct virtio_hw *hw, struct virtqueue *vq)
        io_write64_twopart(used_addr, &hw->common_cfg->queue_used_lo,
                                      &hw->common_cfg->queue_used_hi);
 
-       notify_off = io_read16(&hw->common_cfg->queue_notify_off);
+       notify_off = rte_read16(&hw->common_cfg->queue_notify_off);
        vq->notify_addr = (void *)((uint8_t *)hw->notify_base +
                                notify_off * hw->notify_off_multiplier);
 
-       io_write16(1, &hw->common_cfg->queue_enable);
+       rte_write16(1, &hw->common_cfg->queue_enable);
 
        PMD_INIT_LOG(DEBUG, "queue %u addresses:", vq->vq_queue_index);
        PMD_INIT_LOG(DEBUG, "\t desc_addr: %" PRIx64, desc_addr);
@@ -623,12 +439,14 @@ modern_setup_queue(struct virtio_hw *hw, struct virtqueue *vq)
        PMD_INIT_LOG(DEBUG, "\t used_addr: %" PRIx64, used_addr);
        PMD_INIT_LOG(DEBUG, "\t notify addr: %p (notify offset: %u)",
                vq->notify_addr, notify_off);
+
+       return 0;
 }
 
 static void
 modern_del_queue(struct virtio_hw *hw, struct virtqueue *vq)
 {
-       io_write16(vq->vq_queue_index, &hw->common_cfg->queue_select);
+       rte_write16(vq->vq_queue_index, &hw->common_cfg->queue_select);
 
        io_write64_twopart(0, &hw->common_cfg->queue_desc_lo,
                                  &hw->common_cfg->queue_desc_hi);
@@ -637,16 +455,16 @@ modern_del_queue(struct virtio_hw *hw, struct virtqueue *vq)
        io_write64_twopart(0, &hw->common_cfg->queue_used_lo,
                                  &hw->common_cfg->queue_used_hi);
 
-       io_write16(0, &hw->common_cfg->queue_enable);
+       rte_write16(0, &hw->common_cfg->queue_enable);
 }
 
 static void
 modern_notify_queue(struct virtio_hw *hw __rte_unused, struct virtqueue *vq)
 {
-       io_write16(1, vq->notify_addr);
+       rte_write16(vq->vq_queue_index, vq->notify_addr);
 }
 
-static const struct virtio_pci_ops modern_ops = {
+const struct virtio_pci_ops modern_ops = {
        .read_dev_cfg   = modern_read_dev_config,
        .write_dev_cfg  = modern_write_dev_config,
        .reset          = modern_reset,
@@ -656,6 +474,7 @@ static const struct virtio_pci_ops modern_ops = {
        .set_features   = modern_set_features,
        .get_isr        = modern_get_isr,
        .set_config_irq = modern_set_config_irq,
+       .set_queue_irq  = modern_set_queue_irq,
        .get_queue_num  = modern_get_queue_num,
        .setup_queue    = modern_setup_queue,
        .del_queue      = modern_del_queue,
@@ -667,14 +486,14 @@ void
 vtpci_read_dev_config(struct virtio_hw *hw, size_t offset,
                      void *dst, int length)
 {
-       hw->vtpci_ops->read_dev_cfg(hw, offset, dst, length);
+       VTPCI_OPS(hw)->read_dev_cfg(hw, offset, dst, length);
 }
 
 void
 vtpci_write_dev_config(struct virtio_hw *hw, size_t offset,
                       const void *src, int length)
 {
-       hw->vtpci_ops->write_dev_cfg(hw, offset, src, length);
+       VTPCI_OPS(hw)->write_dev_cfg(hw, offset, src, length);
 }
 
 uint64_t
@@ -687,7 +506,7 @@ vtpci_negotiate_features(struct virtio_hw *hw, uint64_t host_features)
         * host all support.
         */
        features = host_features & hw->guest_features;
-       hw->vtpci_ops->set_features(hw, features);
+       VTPCI_OPS(hw)->set_features(hw, features);
 
        return features;
 }
@@ -695,9 +514,9 @@ vtpci_negotiate_features(struct virtio_hw *hw, uint64_t host_features)
 void
 vtpci_reset(struct virtio_hw *hw)
 {
-       hw->vtpci_ops->set_status(hw, VIRTIO_CONFIG_STATUS_RESET);
+       VTPCI_OPS(hw)->set_status(hw, VIRTIO_CONFIG_STATUS_RESET);
        /* flush status write */
-       hw->vtpci_ops->get_status(hw);
+       VTPCI_OPS(hw)->get_status(hw);
 }
 
 void
@@ -710,29 +529,21 @@ void
 vtpci_set_status(struct virtio_hw *hw, uint8_t status)
 {
        if (status != VIRTIO_CONFIG_STATUS_RESET)
-               status |= hw->vtpci_ops->get_status(hw);
+               status |= VTPCI_OPS(hw)->get_status(hw);
 
-       hw->vtpci_ops->set_status(hw, status);
+       VTPCI_OPS(hw)->set_status(hw, status);
 }
 
 uint8_t
 vtpci_get_status(struct virtio_hw *hw)
 {
-       return hw->vtpci_ops->get_status(hw);
+       return VTPCI_OPS(hw)->get_status(hw);
 }
 
 uint8_t
 vtpci_isr(struct virtio_hw *hw)
 {
-       return hw->vtpci_ops->get_isr(hw);
-}
-
-
-/* Enable one vector (0) for Link State Intrerrupt */
-uint16_t
-vtpci_irq_config(struct virtio_hw *hw, uint16_t vec)
-{
-       return hw->vtpci_ops->set_config_irq(hw, vec);
+       return VTPCI_OPS(hw)->get_isr(hw);
 }
 
 static void *
@@ -743,7 +554,7 @@ get_cfg_addr(struct rte_pci_device *dev, struct virtio_pci_cap *cap)
        uint32_t offset = cap->offset;
        uint8_t *base;
 
-       if (bar > 5) {
+       if (bar >= PCI_MAX_RESOURCE) {
                PMD_INIT_LOG(ERR, "invalid bar: %u", bar);
                return NULL;
        }
@@ -770,6 +581,8 @@ get_cfg_addr(struct rte_pci_device *dev, struct virtio_pci_cap *cap)
        return base + offset;
 }
 
+#define PCI_MSIX_ENABLE 0x8000
+
 static int
 virtio_read_caps(struct rte_pci_device *dev, struct virtio_hw *hw)
 {
@@ -777,25 +590,39 @@ virtio_read_caps(struct rte_pci_device *dev, struct virtio_hw *hw)
        struct virtio_pci_cap cap;
        int ret;
 
-       if (rte_eal_pci_map_device(dev) < 0) {
+       if (rte_pci_map_device(dev)) {
                PMD_INIT_LOG(DEBUG, "failed to map pci device!");
                return -1;
        }
 
-       ret = rte_eal_pci_read_config(dev, &pos, 1, PCI_CAPABILITY_LIST);
+       ret = rte_pci_read_config(dev, &pos, 1, PCI_CAPABILITY_LIST);
        if (ret < 0) {
                PMD_INIT_LOG(DEBUG, "failed to read pci capability list");
                return -1;
        }
 
        while (pos) {
-               ret = rte_eal_pci_read_config(dev, &cap, sizeof(cap), pos);
+               ret = rte_pci_read_config(dev, &cap, sizeof(cap), pos);
                if (ret < 0) {
                        PMD_INIT_LOG(ERR,
                                "failed to read pci cap at pos: %x", pos);
                        break;
                }
 
+               if (cap.cap_vndr == PCI_CAP_ID_MSIX) {
+                       /* Transitional devices would also have this capability,
+                        * that's why we also check if msix is enabled.
+                        * 1st byte is cap ID; 2nd byte is the position of next
+                        * cap; next two bytes are the flags.
+                        */
+                       uint16_t flags = ((uint16_t *)&cap)[1];
+
+                       if (flags & PCI_MSIX_ENABLE)
+                               hw->use_msix = VIRTIO_MSIX_ENABLED;
+                       else
+                               hw->use_msix = VIRTIO_MSIX_DISABLED;
+               }
+
                if (cap.cap_vndr != PCI_CAP_ID_VNDR) {
                        PMD_INIT_LOG(DEBUG,
                                "[%2x] skipping non VNDR cap id: %02x",
@@ -812,8 +639,8 @@ virtio_read_caps(struct rte_pci_device *dev, struct virtio_hw *hw)
                        hw->common_cfg = get_cfg_addr(dev, &cap);
                        break;
                case VIRTIO_PCI_CAP_NOTIFY_CFG:
-                       rte_eal_pci_read_config(dev, &hw->notify_off_multiplier,
-                                               4, pos + sizeof(cap));
+                       rte_pci_read_config(dev, &hw->notify_off_multiplier,
+                                       4, pos + sizeof(cap));
                        hw->notify_base = get_cfg_addr(dev, &cap);
                        break;
                case VIRTIO_PCI_CAP_DEVICE_CFG:
@@ -845,11 +672,17 @@ next:
        return 0;
 }
 
+/*
+ * Return -1:
+ *   if there is error mapping with VFIO/UIO.
+ *   if port map error when driver type is KDRV_NONE.
+ *   if whitelisted but driver type is KDRV_UNKNOWN.
+ * Return 1 if kernel driver is managing the device.
+ * Return 0 on success.
+ */
 int
 vtpci_init(struct rte_pci_device *dev, struct virtio_hw *hw)
 {
-       hw->dev = dev;
-
        /*
         * Try if we can succeed reading virtio pci caps, which exists
         * only on modern pci device. If failed, we fallback to legacy
@@ -857,20 +690,62 @@ vtpci_init(struct rte_pci_device *dev, struct virtio_hw *hw)
         */
        if (virtio_read_caps(dev, hw) == 0) {
                PMD_INIT_LOG(INFO, "modern virtio pci detected.");
-               hw->vtpci_ops = &modern_ops;
-               hw->modern    = 1;
-               dev->driver->drv_flags |= RTE_PCI_DRV_INTR_LSC;
+               virtio_hw_internal[hw->port_id].vtpci_ops = &modern_ops;
+               hw->modern = 1;
                return 0;
        }
 
        PMD_INIT_LOG(INFO, "trying with legacy virtio pci.");
-       if (legacy_virtio_resource_init(dev) < 0)
+       if (rte_pci_ioport_map(dev, 0, VTPCI_IO(hw)) < 0) {
+               if (dev->kdrv == RTE_KDRV_UNKNOWN &&
+                   (!dev->device.devargs ||
+                    dev->device.devargs->bus !=
+                    rte_bus_find_by_name("pci"))) {
+                       PMD_INIT_LOG(INFO,
+                               "skip kernel managed virtio device.");
+                       return 1;
+               }
                return -1;
+       }
 
-       hw->vtpci_ops = &legacy_ops;
-       hw->use_msix = legacy_virtio_has_msix(&dev->addr);
-       hw->io_base  = (uint32_t)(uintptr_t)dev->mem_resource[0].addr;
+       virtio_hw_internal[hw->port_id].vtpci_ops = &legacy_ops;
        hw->modern   = 0;
 
        return 0;
 }
+
+enum virtio_msix_status
+vtpci_msix_detect(struct rte_pci_device *dev)
+{
+       uint8_t pos;
+       struct virtio_pci_cap cap;
+       int ret;
+
+       ret = rte_pci_read_config(dev, &pos, 1, PCI_CAPABILITY_LIST);
+       if (ret < 0) {
+               PMD_INIT_LOG(DEBUG, "failed to read pci capability list");
+               return VIRTIO_MSIX_NONE;
+       }
+
+       while (pos) {
+               ret = rte_pci_read_config(dev, &cap, sizeof(cap), pos);
+               if (ret < 0) {
+                       PMD_INIT_LOG(ERR,
+                               "failed to read pci cap at pos: %x", pos);
+                       break;
+               }
+
+               if (cap.cap_vndr == PCI_CAP_ID_MSIX) {
+                       uint16_t flags = ((uint16_t *)&cap)[1];
+
+                       if (flags & PCI_MSIX_ENABLE)
+                               return VIRTIO_MSIX_ENABLED;
+                       else
+                               return VIRTIO_MSIX_DISABLED;
+               }
+
+               pos = cap.cap_next;
+       }
+
+       return VIRTIO_MSIX_NONE;
+}