7aed96e588c11b3a67647323fac8e5835fc26156
[dpdk.git] / lib / librte_eal / linuxapp / kni / kni_vhost.c
1 /*-
2  * GPL LICENSE SUMMARY
3  *
4  *   Copyright(c) 2010-2014 Intel Corporation. All rights reserved.
5  *
6  *   This program is free software; you can redistribute it and/or modify
7  *   it under the terms of version 2 of the GNU General Public License as
8  *   published by the Free Software Foundation.
9  *
10  *   This program is distributed in the hope that it will be useful, but
11  *   WITHOUT ANY WARRANTY; without even the implied warranty of
12  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  *   General Public License for more details.
14  *
15  *   You should have received a copy of the GNU General Public License
16  *   along with this program; if not, write to the Free Software
17  *   Foundation, Inc., 51 Franklin St - Fifth Floor, Boston, MA 02110-1301 USA.
18  *   The full GNU General Public License is included in this distribution
19  *   in the file called LICENSE.GPL.
20  *
21  *   Contact Information:
22  *   Intel Corporation
23  */
24
25 #include <linux/module.h>
26 #include <linux/net.h>
27 #include <net/sock.h>
28 #include <linux/virtio_net.h>
29 #include <linux/wait.h>
30 #include <linux/mm.h>
31 #include <linux/nsproxy.h>
32 #include <linux/sched.h>
33 #include <linux/if_tun.h>
34 #include <linux/version.h>
35 #include <linux/file.h>
36
37 #include "compat.h"
38 #include "kni_dev.h"
39 #include "kni_fifo.h"
40
41 #define RX_BURST_SZ 4
42
43 #if LINUX_VERSION_CODE >= KERNEL_VERSION(3,7,0)
44 static int kni_sock_map_fd(struct socket *sock)
45 {
46         struct file *file;
47         int fd = get_unused_fd_flags(0);
48         if (fd < 0)
49                 return fd;
50
51         file = sock_alloc_file(sock, 0, NULL);
52         if (IS_ERR(file)) {
53                 put_unused_fd(fd);
54                 return PTR_ERR(file);
55         }
56         fd_install(fd, file);
57         return fd;
58 }
59 #else
60 #define kni_sock_map_fd(s)             sock_map_fd(s, 0)
61 #endif
62
63 static struct proto kni_raw_proto = {
64         .name = "kni_vhost",
65         .owner = THIS_MODULE,
66         .obj_size = sizeof(struct kni_vhost_queue),
67 };
68
69 static inline int
70 kni_vhost_net_tx(struct kni_dev *kni, struct msghdr *m,
71                  unsigned offset, unsigned len)
72 {
73         struct rte_kni_mbuf *pkt_kva = NULL;
74         struct rte_kni_mbuf *pkt_va = NULL;
75         int ret;
76
77         KNI_DBG_TX("tx offset=%d, len=%d, iovlen=%d\n",
78 #ifdef HAVE_IOV_ITER_MSGHDR
79                    offset, len, (int)m->msg_iter.iov->iov_len);
80 #else
81                    offset, len, (int)m->msg_iov->iov_len);
82 #endif
83
84         /**
85          * Check if it has at least one free entry in tx_q and
86          * one entry in alloc_q.
87          */
88         if (kni_fifo_free_count(kni->tx_q) == 0 ||
89             kni_fifo_count(kni->alloc_q) == 0) {
90                 /**
91                  * If no free entry in tx_q or no entry in alloc_q,
92                  * drops skb and goes out.
93                  */
94                 goto drop;
95         }
96
97         /* dequeue a mbuf from alloc_q */
98         ret = kni_fifo_get(kni->alloc_q, (void **)&pkt_va, 1);
99         if (likely(ret == 1)) {
100                 void *data_kva;
101
102                 pkt_kva = (void *)pkt_va - kni->mbuf_va + kni->mbuf_kva;
103                 data_kva = pkt_kva->buf_addr + pkt_kva->data_off
104                            - kni->mbuf_va + kni->mbuf_kva;
105
106 #ifdef HAVE_IOV_ITER_MSGHDR
107                 copy_from_iter(data_kva, len, &m->msg_iter);
108 #else
109                 memcpy_fromiovecend(data_kva, m->msg_iov, offset, len);
110 #endif
111
112                 if (unlikely(len < ETH_ZLEN)) {
113                         memset(data_kva + len, 0, ETH_ZLEN - len);
114                         len = ETH_ZLEN;
115                 }
116                 pkt_kva->pkt_len = len;
117                 pkt_kva->data_len = len;
118
119                 /* enqueue mbuf into tx_q */
120                 ret = kni_fifo_put(kni->tx_q, (void **)&pkt_va, 1);
121                 if (unlikely(ret != 1)) {
122                         /* Failing should not happen */
123                         KNI_ERR("Fail to enqueue mbuf into tx_q\n");
124                         goto drop;
125                 }
126         } else {
127                 /* Failing should not happen */
128                 KNI_ERR("Fail to dequeue mbuf from alloc_q\n");
129                 goto drop;
130         }
131
132         /* update statistics */
133         kni->stats.tx_bytes += len;
134         kni->stats.tx_packets++;
135
136         return 0;
137
138 drop:
139         /* update statistics */
140         kni->stats.tx_dropped++;
141
142         return 0;
143 }
144
145 static inline int
146 kni_vhost_net_rx(struct kni_dev *kni, struct msghdr *m,
147                  unsigned offset, unsigned len)
148 {
149         uint32_t pkt_len;
150         struct rte_kni_mbuf *kva;
151         struct rte_kni_mbuf *va;
152         void * data_kva;
153         struct sk_buff *skb;
154         struct kni_vhost_queue *q = kni->vhost_queue;
155
156         if (unlikely(q == NULL))
157                 return 0;
158
159         /* ensure at least one entry in free_q */
160         if (unlikely(kni_fifo_free_count(kni->free_q) == 0))
161                 return 0;
162
163         skb = skb_dequeue(&q->sk.sk_receive_queue);
164         if (unlikely(skb == NULL))
165                 return 0;
166
167         kva = (struct rte_kni_mbuf*)skb->data;
168
169         /* free skb to cache */
170         skb->data = NULL;
171         if (unlikely(1 != kni_fifo_put(q->fifo, (void **)&skb, 1)))
172                 /* Failing should not happen */
173                 KNI_ERR("Fail to enqueue entries into rx cache fifo\n");
174
175         pkt_len = kva->data_len;
176         if (unlikely(pkt_len > len))
177                 goto drop;
178
179         KNI_DBG_RX("rx offset=%d, len=%d, pkt_len=%d, iovlen=%d\n",
180 #ifdef HAVE_IOV_ITER_MSGHDR
181                    offset, len, pkt_len, (int)m->msg_iter.iov->iov_len);
182 #else
183                    offset, len, pkt_len, (int)m->msg_iov->iov_len);
184 #endif
185
186         data_kva = kva->buf_addr + kva->data_off - kni->mbuf_va + kni->mbuf_kva;
187 #ifdef HAVE_IOV_ITER_MSGHDR
188         if (unlikely(copy_to_iter(data_kva, pkt_len, &m->msg_iter)))
189 #else
190         if (unlikely(memcpy_toiovecend(m->msg_iov, data_kva, offset, pkt_len)))
191 #endif
192                 goto drop;
193
194         /* Update statistics */
195         kni->stats.rx_bytes += pkt_len;
196         kni->stats.rx_packets++;
197
198         /* enqueue mbufs into free_q */
199         va = (void*)kva - kni->mbuf_kva + kni->mbuf_va;
200         if (unlikely(1 != kni_fifo_put(kni->free_q, (void **)&va, 1)))
201                 /* Failing should not happen */
202                 KNI_ERR("Fail to enqueue entries into free_q\n");
203
204         KNI_DBG_RX("receive done %d\n", pkt_len);
205
206         return pkt_len;
207
208 drop:
209         /* Update drop statistics */
210         kni->stats.rx_dropped++;
211
212         return 0;
213 }
214
215 static unsigned int
216 kni_sock_poll(struct file *file, struct socket *sock, poll_table * wait)
217 {
218         struct kni_vhost_queue *q =
219                 container_of(sock->sk, struct kni_vhost_queue, sk);
220         struct kni_dev *kni;
221         unsigned int mask = 0;
222
223         if (unlikely(q == NULL || q->kni == NULL))
224                 return POLLERR;
225
226         kni = q->kni;
227 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,35)
228         KNI_DBG("start kni_poll on group %d, wq 0x%16llx\n",
229                   kni->group_id, (uint64_t)sock->wq);
230 #else
231         KNI_DBG("start kni_poll on group %d, wait at 0x%16llx\n",
232                   kni->group_id, (uint64_t)&sock->wait);
233 #endif
234
235 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,35)
236         poll_wait(file, &sock->wq->wait, wait);
237 #else
238         poll_wait(file, &sock->wait, wait);
239 #endif
240
241         if (kni_fifo_count(kni->rx_q) > 0)
242                 mask |= POLLIN | POLLRDNORM;
243
244         if (sock_writeable(&q->sk) ||
245 #ifdef SOCKWQ_ASYNC_NOSPACE
246             (!test_and_set_bit(SOCKWQ_ASYNC_NOSPACE, &q->sock->flags) &&
247 #else
248             (!test_and_set_bit(SOCK_ASYNC_NOSPACE, &q->sock->flags) &&
249 #endif
250              sock_writeable(&q->sk)))
251                 mask |= POLLOUT | POLLWRNORM;
252
253         return mask;
254 }
255
256 static inline void
257 kni_vhost_enqueue(struct kni_dev *kni, struct kni_vhost_queue *q,
258                   struct sk_buff *skb, struct rte_kni_mbuf *va)
259 {
260         struct rte_kni_mbuf *kva;
261
262         kva = (void *)(va) - kni->mbuf_va + kni->mbuf_kva;
263         (skb)->data = (unsigned char*)kva;
264         (skb)->len = kva->data_len;
265         skb_queue_tail(&q->sk.sk_receive_queue, skb);
266 }
267
268 static inline void
269 kni_vhost_enqueue_burst(struct kni_dev *kni, struct kni_vhost_queue *q,
270           struct sk_buff **skb, struct rte_kni_mbuf **va)
271 {
272         int i;
273         for (i = 0; i < RX_BURST_SZ; skb++, va++, i++)
274                 kni_vhost_enqueue(kni, q, *skb, *va);
275 }
276
277 int
278 kni_chk_vhost_rx(struct kni_dev *kni)
279 {
280         struct kni_vhost_queue *q = kni->vhost_queue;
281         unsigned nb_in, nb_mbuf, nb_skb;
282         const unsigned BURST_MASK = RX_BURST_SZ - 1;
283         unsigned nb_burst, nb_backlog, i;
284         struct sk_buff *skb[RX_BURST_SZ];
285         struct rte_kni_mbuf *va[RX_BURST_SZ];
286
287         if (unlikely(BE_STOP & kni->vq_status)) {
288                 kni->vq_status |= BE_FINISH;
289                 return 0;
290         }
291
292         if (unlikely(q == NULL))
293                 return 0;
294
295         nb_skb = kni_fifo_count(q->fifo);
296         nb_mbuf = kni_fifo_count(kni->rx_q);
297
298         nb_in = min(nb_mbuf, nb_skb);
299         nb_in = min(nb_in, (unsigned)RX_BURST_SZ);
300         nb_burst   = (nb_in & ~BURST_MASK);
301         nb_backlog = (nb_in & BURST_MASK);
302
303         /* enqueue skb_queue per BURST_SIZE bulk */
304         if (0 != nb_burst) {
305                 if (unlikely(RX_BURST_SZ != kni_fifo_get(
306                                      kni->rx_q, (void **)&va,
307                                      RX_BURST_SZ)))
308                         goto except;
309
310                 if (unlikely(RX_BURST_SZ != kni_fifo_get(
311                                      q->fifo, (void **)&skb,
312                                      RX_BURST_SZ)))
313                         goto except;
314
315                 kni_vhost_enqueue_burst(kni, q, skb, va);
316         }
317
318         /* all leftover, do one by one */
319         for (i = 0; i < nb_backlog; ++i) {
320                 if (unlikely(1 != kni_fifo_get(
321                                      kni->rx_q,(void **)&va, 1)))
322                         goto except;
323
324                 if (unlikely(1 != kni_fifo_get(
325                                      q->fifo, (void **)&skb, 1)))
326                         goto except;
327
328                 kni_vhost_enqueue(kni, q, *skb, *va);
329         }
330
331         /* Ondemand wake up */
332         if ((nb_in == RX_BURST_SZ) || (nb_skb == 0) ||
333             ((nb_mbuf < RX_BURST_SZ) && (nb_mbuf != 0))) {
334                 wake_up_interruptible_poll(sk_sleep(&q->sk),
335                                    POLLIN | POLLRDNORM | POLLRDBAND);
336                 KNI_DBG_RX("RX CHK KICK nb_mbuf %d, nb_skb %d, nb_in %d\n",
337                            nb_mbuf, nb_skb, nb_in);
338         }
339
340         return 0;
341
342 except:
343         /* Failing should not happen */
344         KNI_ERR("Fail to enqueue fifo, it shouldn't happen \n");
345         BUG_ON(1);
346
347         return 0;
348 }
349
350 static int
351 #ifdef HAVE_KIOCB_MSG_PARAM
352 kni_sock_sndmsg(struct kiocb *iocb, struct socket *sock,
353            struct msghdr *m, size_t total_len)
354 #else
355 kni_sock_sndmsg(struct socket *sock,
356            struct msghdr *m, size_t total_len)
357 #endif /* HAVE_KIOCB_MSG_PARAM */
358 {
359         struct kni_vhost_queue *q =
360                 container_of(sock->sk, struct kni_vhost_queue, sk);
361         int vnet_hdr_len = 0;
362         unsigned long len = total_len;
363
364         if (unlikely(q == NULL || q->kni == NULL))
365                 return 0;
366
367         KNI_DBG_TX("kni_sndmsg len %ld, flags 0x%08x, nb_iov %d\n",
368 #ifdef HAVE_IOV_ITER_MSGHDR
369                    len, q->flags, (int)m->msg_iter.iov->iov_len);
370 #else
371                    len, q->flags, (int)m->msg_iovlen);
372 #endif
373
374 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
375         if (likely(q->flags & IFF_VNET_HDR)) {
376                 vnet_hdr_len = q->vnet_hdr_sz;
377                 if (unlikely(len < vnet_hdr_len))
378                         return -EINVAL;
379                 len -= vnet_hdr_len;
380         }
381 #endif
382
383         if (unlikely(len < ETH_HLEN + q->vnet_hdr_sz))
384                 return -EINVAL;
385
386         return kni_vhost_net_tx(q->kni, m, vnet_hdr_len, len);
387 }
388
389 static int
390 #ifdef HAVE_KIOCB_MSG_PARAM
391 kni_sock_rcvmsg(struct kiocb *iocb, struct socket *sock,
392            struct msghdr *m, size_t len, int flags)
393 #else
394 kni_sock_rcvmsg(struct socket *sock,
395            struct msghdr *m, size_t len, int flags)
396 #endif /* HAVE_KIOCB_MSG_PARAM */
397 {
398         int vnet_hdr_len = 0;
399         int pkt_len = 0;
400         struct kni_vhost_queue *q =
401                 container_of(sock->sk, struct kni_vhost_queue, sk);
402         static struct virtio_net_hdr
403                 __attribute__ ((unused)) vnet_hdr = {
404                 .flags = 0,
405                 .gso_type = VIRTIO_NET_HDR_GSO_NONE
406         };
407
408         if (unlikely(q == NULL || q->kni == NULL))
409                 return 0;
410
411 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
412         if (likely(q->flags & IFF_VNET_HDR)) {
413                 vnet_hdr_len = q->vnet_hdr_sz;
414                 if ((len -= vnet_hdr_len) < 0)
415                         return -EINVAL;
416         }
417 #endif
418
419         if (unlikely(0 == (pkt_len = kni_vhost_net_rx(q->kni,
420                 m, vnet_hdr_len, len))))
421                 return 0;
422
423 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
424         /* no need to copy hdr when no pkt received */
425 #ifdef HAVE_IOV_ITER_MSGHDR
426         if (unlikely(copy_to_iter((void *)&vnet_hdr, vnet_hdr_len,
427                 &m->msg_iter)))
428 #else
429         if (unlikely(memcpy_toiovecend(m->msg_iov,
430                 (void *)&vnet_hdr, 0, vnet_hdr_len)))
431 #endif /* HAVE_IOV_ITER_MSGHDR */
432                 return -EFAULT;
433 #endif /* RTE_KNI_VHOST_VNET_HDR_EN */
434         KNI_DBG_RX("kni_rcvmsg expect_len %ld, flags 0x%08x, pkt_len %d\n",
435                    (unsigned long)len, q->flags, pkt_len);
436
437         return pkt_len + vnet_hdr_len;
438 }
439
440 /* dummy tap like ioctl */
441 static int
442 kni_sock_ioctl(struct socket *sock, unsigned int cmd,
443               unsigned long arg)
444 {
445         void __user *argp = (void __user *)arg;
446         struct ifreq __user *ifr = argp;
447         unsigned int __user *up = argp;
448         struct kni_vhost_queue *q =
449                 container_of(sock->sk, struct kni_vhost_queue, sk);
450         struct kni_dev *kni;
451         unsigned int u;
452         int __user *sp = argp;
453         int s;
454         int ret;
455
456         KNI_DBG("tap ioctl cmd 0x%08x\n", cmd);
457
458         switch (cmd) {
459         case TUNSETIFF:
460                 KNI_DBG("TUNSETIFF\n");
461                 /* ignore the name, just look at flags */
462                 if (get_user(u, &ifr->ifr_flags))
463                         return -EFAULT;
464
465                 ret = 0;
466                 if ((u & ~IFF_VNET_HDR) != (IFF_NO_PI | IFF_TAP))
467                         ret = -EINVAL;
468                 else
469                         q->flags = u;
470
471                 return ret;
472
473         case TUNGETIFF:
474                 KNI_DBG("TUNGETIFF\n");
475                 rcu_read_lock_bh();
476                 kni = rcu_dereference_bh(q->kni);
477                 if (kni)
478                         dev_hold(kni->net_dev);
479                 rcu_read_unlock_bh();
480
481                 if (!kni)
482                         return -ENOLINK;
483
484                 ret = 0;
485                 if (copy_to_user(&ifr->ifr_name, kni->net_dev->name, IFNAMSIZ) ||
486                     put_user(q->flags, &ifr->ifr_flags))
487                         ret = -EFAULT;
488                 dev_put(kni->net_dev);
489                 return ret;
490
491         case TUNGETFEATURES:
492                 KNI_DBG("TUNGETFEATURES\n");
493                 u = IFF_TAP | IFF_NO_PI;
494 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
495                 u |= IFF_VNET_HDR;
496 #endif
497                 if (put_user(u, up))
498                         return -EFAULT;
499                 return 0;
500
501         case TUNSETSNDBUF:
502                 KNI_DBG("TUNSETSNDBUF\n");
503                 if (get_user(u, up))
504                         return -EFAULT;
505
506                 q->sk.sk_sndbuf = u;
507                 return 0;
508
509         case TUNGETVNETHDRSZ:
510                 s = q->vnet_hdr_sz;
511                 if (put_user(s, sp))
512                         return -EFAULT;
513                 KNI_DBG("TUNGETVNETHDRSZ %d\n", s);
514                 return 0;
515
516         case TUNSETVNETHDRSZ:
517                 if (get_user(s, sp))
518                         return -EFAULT;
519                 if (s < (int)sizeof(struct virtio_net_hdr))
520                         return -EINVAL;
521
522                 KNI_DBG("TUNSETVNETHDRSZ %d\n", s);
523                 q->vnet_hdr_sz = s;
524                 return 0;
525
526         case TUNSETOFFLOAD:
527                 KNI_DBG("TUNSETOFFLOAD %lx\n", arg);
528 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
529                 /* not support any offload yet */
530                 if (!(q->flags & IFF_VNET_HDR))
531                         return  -EINVAL;
532
533                 return 0;
534 #else
535                 return -EINVAL;
536 #endif
537
538         default:
539                 KNI_DBG("NOT SUPPORT\n");
540                 return -EINVAL;
541         }
542 }
543
544 static int
545 kni_sock_compat_ioctl(struct socket *sock, unsigned int cmd,
546                      unsigned long arg)
547 {
548         /* 32 bits app on 64 bits OS to be supported later */
549         KNI_PRINT("Not implemented.\n");
550
551         return -EINVAL;
552 }
553
554 #define KNI_VHOST_WAIT_WQ_SAFE()                        \
555 do {                                                    \
556         while ((BE_FINISH | BE_STOP) == kni->vq_status) \
557                 msleep(1);                              \
558 }while(0)                                               \
559
560
561 static int
562 kni_sock_release(struct socket *sock)
563 {
564         struct kni_vhost_queue *q =
565                 container_of(sock->sk, struct kni_vhost_queue, sk);
566         struct kni_dev *kni;
567
568         if (q == NULL)
569                 return 0;
570
571         if (NULL != (kni = q->kni)) {
572                 kni->vq_status = BE_STOP;
573                 KNI_VHOST_WAIT_WQ_SAFE();
574                 kni->vhost_queue = NULL;
575                 q->kni = NULL;
576         }
577
578         if (q->sockfd != -1)
579                 q->sockfd = -1;
580
581         sk_set_socket(&q->sk, NULL);
582         sock->sk = NULL;
583
584         sock_put(&q->sk);
585
586         KNI_DBG("dummy sock release done\n");
587
588         return 0;
589 }
590
591 int
592 kni_sock_getname (struct socket *sock,
593                   struct sockaddr *addr,
594                   int *sockaddr_len, int peer)
595 {
596         KNI_DBG("dummy sock getname\n");
597         ((struct sockaddr_ll*)addr)->sll_family = AF_PACKET;
598         return 0;
599 }
600
601 static const struct proto_ops kni_socket_ops = {
602         .getname = kni_sock_getname,
603         .sendmsg = kni_sock_sndmsg,
604         .recvmsg = kni_sock_rcvmsg,
605         .release = kni_sock_release,
606         .poll    = kni_sock_poll,
607         .ioctl   = kni_sock_ioctl,
608         .compat_ioctl = kni_sock_compat_ioctl,
609 };
610
611 static void
612 kni_sk_write_space(struct sock *sk)
613 {
614         wait_queue_head_t *wqueue;
615
616         if (!sock_writeable(sk) ||
617 #ifdef SOCKWQ_ASYNC_NOSPACE
618             !test_and_clear_bit(SOCKWQ_ASYNC_NOSPACE, &sk->sk_socket->flags))
619 #else
620             !test_and_clear_bit(SOCK_ASYNC_NOSPACE, &sk->sk_socket->flags))
621 #endif
622                 return;
623         wqueue = sk_sleep(sk);
624         if (wqueue && waitqueue_active(wqueue))
625                 wake_up_interruptible_poll(
626                         wqueue, POLLOUT | POLLWRNORM | POLLWRBAND);
627 }
628
629 static void
630 kni_sk_destruct(struct sock *sk)
631 {
632         struct kni_vhost_queue *q =
633                 container_of(sk, struct kni_vhost_queue, sk);
634
635         if (!q)
636                 return;
637
638         /* make sure there's no packet in buffer */
639         while (skb_dequeue(&sk->sk_receive_queue) != NULL)
640                ;
641
642         mb();
643
644         if (q->fifo != NULL) {
645                 kfree(q->fifo);
646                 q->fifo = NULL;
647         }
648
649         if (q->cache != NULL) {
650                 kfree(q->cache);
651                 q->cache = NULL;
652         }
653 }
654
655 static int
656 kni_vhost_backend_init(struct kni_dev *kni)
657 {
658         struct kni_vhost_queue *q;
659         struct net *net = current->nsproxy->net_ns;
660         int err, i, sockfd;
661         struct rte_kni_fifo *fifo;
662         struct sk_buff *elem;
663
664         if (kni->vhost_queue != NULL)
665                 return -1;
666
667 #if LINUX_VERSION_CODE >= KERNEL_VERSION(4, 2, 0)
668         q = (struct kni_vhost_queue *)sk_alloc(net, AF_UNSPEC, GFP_KERNEL,
669                         &kni_raw_proto, 0);
670 #else
671         q = (struct kni_vhost_queue *)sk_alloc(net, AF_UNSPEC, GFP_KERNEL,
672                         &kni_raw_proto);
673 #endif
674         if (!q)
675                 return -ENOMEM;
676
677         err = sock_create_lite(AF_UNSPEC, SOCK_RAW, IPPROTO_RAW, &q->sock);
678         if (err)
679                 goto free_sk;
680
681         sockfd = kni_sock_map_fd(q->sock);
682         if (sockfd < 0) {
683                 err = sockfd;
684                 goto free_sock;
685         }
686
687         /* cache init */
688         q->cache = kzalloc(RTE_KNI_VHOST_MAX_CACHE_SIZE * sizeof(struct sk_buff),
689                            GFP_KERNEL);
690         if (!q->cache)
691                 goto free_fd;
692
693         fifo = kzalloc(RTE_KNI_VHOST_MAX_CACHE_SIZE * sizeof(void *)
694                         + sizeof(struct rte_kni_fifo), GFP_KERNEL);
695         if (!fifo)
696                 goto free_cache;
697
698         kni_fifo_init(fifo, RTE_KNI_VHOST_MAX_CACHE_SIZE);
699
700         for (i = 0; i < RTE_KNI_VHOST_MAX_CACHE_SIZE; i++) {
701                 elem = &q->cache[i];
702                 kni_fifo_put(fifo, (void**)&elem, 1);
703         }
704         q->fifo = fifo;
705
706         /* store sockfd in vhost_queue */
707         q->sockfd = sockfd;
708
709         /* init socket */
710         q->sock->type = SOCK_RAW;
711         q->sock->state = SS_CONNECTED;
712         q->sock->ops = &kni_socket_ops;
713         sock_init_data(q->sock, &q->sk);
714
715         /* init sock data */
716         q->sk.sk_write_space = kni_sk_write_space;
717         q->sk.sk_destruct = kni_sk_destruct;
718         q->flags = IFF_NO_PI | IFF_TAP;
719         q->vnet_hdr_sz = sizeof(struct virtio_net_hdr);
720 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
721         q->flags |= IFF_VNET_HDR;
722 #endif
723
724         /* bind kni_dev with vhost_queue */
725         q->kni = kni;
726         kni->vhost_queue = q;
727
728         wmb();
729
730         kni->vq_status = BE_START;
731
732 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2,6,35)
733         KNI_DBG("backend init sockfd=%d, sock->wq=0x%16llx,"
734                   "sk->sk_wq=0x%16llx",
735                   q->sockfd, (uint64_t)q->sock->wq,
736                   (uint64_t)q->sk.sk_wq);
737 #else
738         KNI_DBG("backend init sockfd=%d, sock->wait at 0x%16llx,"
739                   "sk->sk_sleep=0x%16llx",
740                   q->sockfd, (uint64_t)&q->sock->wait,
741                   (uint64_t)q->sk.sk_sleep);
742 #endif
743
744         return 0;
745
746 free_cache:
747         kfree(q->cache);
748         q->cache = NULL;
749
750 free_fd:
751         put_unused_fd(sockfd);
752
753 free_sock:
754         q->kni = NULL;
755         kni->vhost_queue = NULL;
756         kni->vq_status |= BE_FINISH;
757         sock_release(q->sock);
758         q->sock->ops = NULL;
759         q->sock = NULL;
760
761 free_sk:
762         sk_free((struct sock*)q);
763
764         return err;
765 }
766
767 /* kni vhost sock sysfs */
768 static ssize_t
769 show_sock_fd(struct device *dev, struct device_attribute *attr,
770              char *buf)
771 {
772         struct net_device *net_dev = container_of(dev, struct net_device, dev);
773         struct kni_dev *kni = netdev_priv(net_dev);
774         int sockfd = -1;
775         if (kni->vhost_queue != NULL)
776                 sockfd = kni->vhost_queue->sockfd;
777         return snprintf(buf, 10, "%d\n", sockfd);
778 }
779
780 static ssize_t
781 show_sock_en(struct device *dev, struct device_attribute *attr,
782              char *buf)
783 {
784         struct net_device *net_dev = container_of(dev, struct net_device, dev);
785         struct kni_dev *kni = netdev_priv(net_dev);
786         return snprintf(buf, 10, "%u\n", (kni->vhost_queue == NULL ? 0 : 1));
787 }
788
789 static ssize_t
790 set_sock_en(struct device *dev, struct device_attribute *attr,
791               const char *buf, size_t count)
792 {
793         struct net_device *net_dev = container_of(dev, struct net_device, dev);
794         struct kni_dev *kni = netdev_priv(net_dev);
795         unsigned long en;
796         int err = 0;
797
798         if (0 != kstrtoul(buf, 0, &en))
799                 return -EINVAL;
800
801         if (en)
802                 err = kni_vhost_backend_init(kni);
803
804         return err ? err : count;
805 }
806
807 static DEVICE_ATTR(sock_fd, S_IRUGO | S_IRUSR, show_sock_fd, NULL);
808 static DEVICE_ATTR(sock_en, S_IRUGO | S_IWUSR, show_sock_en, set_sock_en);
809 static struct attribute *dev_attrs[] = {
810         &dev_attr_sock_fd.attr,
811         &dev_attr_sock_en.attr,
812         NULL,
813 };
814
815 static const struct attribute_group dev_attr_grp = {
816         .attrs = dev_attrs,
817 };
818
819 int
820 kni_vhost_backend_release(struct kni_dev *kni)
821 {
822         struct kni_vhost_queue *q = kni->vhost_queue;
823
824         if (q == NULL)
825                 return 0;
826
827         /* dettach from kni */
828         q->kni = NULL;
829
830         KNI_DBG("release backend done\n");
831
832         return 0;
833 }
834
835 int
836 kni_vhost_init(struct kni_dev *kni)
837 {
838         struct net_device *dev = kni->net_dev;
839
840         if (sysfs_create_group(&dev->dev.kobj, &dev_attr_grp))
841                 sysfs_remove_group(&dev->dev.kobj, &dev_attr_grp);
842
843         kni->vq_status = BE_STOP;
844
845         KNI_DBG("kni_vhost_init done\n");
846
847         return 0;
848 }