kni: move trailing statement on next line
[dpdk.git] / lib / librte_eal / linuxapp / kni / kni_vhost.c
1 /*-
2  * GPL LICENSE SUMMARY
3  *
4  *   Copyright(c) 2010-2014 Intel Corporation. All rights reserved.
5  *
6  *   This program is free software; you can redistribute it and/or modify
7  *   it under the terms of version 2 of the GNU General Public License as
8  *   published by the Free Software Foundation.
9  *
10  *   This program is distributed in the hope that it will be useful, but
11  *   WITHOUT ANY WARRANTY; without even the implied warranty of
12  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
13  *   General Public License for more details.
14  *
15  *   You should have received a copy of the GNU General Public License
16  *   along with this program; if not, write to the Free Software
17  *   Foundation, Inc., 51 Franklin St - Fifth Floor, Boston, MA 02110-1301 USA.
18  *   The full GNU General Public License is included in this distribution
19  *   in the file called LICENSE.GPL.
20  *
21  *   Contact Information:
22  *   Intel Corporation
23  */
24
25 #include <linux/module.h>
26 #include <linux/net.h>
27 #include <net/sock.h>
28 #include <linux/virtio_net.h>
29 #include <linux/wait.h>
30 #include <linux/mm.h>
31 #include <linux/nsproxy.h>
32 #include <linux/sched.h>
33 #include <linux/if_tun.h>
34 #include <linux/version.h>
35 #include <linux/file.h>
36
37 #include "compat.h"
38 #include "kni_dev.h"
39 #include "kni_fifo.h"
40
41 #define RX_BURST_SZ 4
42
43 #if LINUX_VERSION_CODE >= KERNEL_VERSION(3, 7, 0)
44 static int kni_sock_map_fd(struct socket *sock)
45 {
46         struct file *file;
47         int fd = get_unused_fd_flags(0);
48
49         if (fd < 0)
50                 return fd;
51
52         file = sock_alloc_file(sock, 0, NULL);
53         if (IS_ERR(file)) {
54                 put_unused_fd(fd);
55                 return PTR_ERR(file);
56         }
57         fd_install(fd, file);
58         return fd;
59 }
60 #else
61 #define kni_sock_map_fd(s)             sock_map_fd(s, 0)
62 #endif
63
64 static struct proto kni_raw_proto = {
65         .name = "kni_vhost",
66         .owner = THIS_MODULE,
67         .obj_size = sizeof(struct kni_vhost_queue),
68 };
69
70 static inline int
71 kni_vhost_net_tx(struct kni_dev *kni, struct msghdr *m,
72                  unsigned int offset, unsigned int len)
73 {
74         struct rte_kni_mbuf *pkt_kva = NULL;
75         struct rte_kni_mbuf *pkt_va = NULL;
76         int ret;
77
78         KNI_DBG_TX("tx offset=%d, len=%d, iovlen=%d\n",
79 #ifdef HAVE_IOV_ITER_MSGHDR
80                    offset, len, (int)m->msg_iter.iov->iov_len);
81 #else
82                    offset, len, (int)m->msg_iov->iov_len);
83 #endif
84
85         /**
86          * Check if it has at least one free entry in tx_q and
87          * one entry in alloc_q.
88          */
89         if (kni_fifo_free_count(kni->tx_q) == 0 ||
90             kni_fifo_count(kni->alloc_q) == 0) {
91                 /**
92                  * If no free entry in tx_q or no entry in alloc_q,
93                  * drops skb and goes out.
94                  */
95                 goto drop;
96         }
97
98         /* dequeue a mbuf from alloc_q */
99         ret = kni_fifo_get(kni->alloc_q, (void **)&pkt_va, 1);
100         if (likely(ret == 1)) {
101                 void *data_kva;
102
103                 pkt_kva = (void *)pkt_va - kni->mbuf_va + kni->mbuf_kva;
104                 data_kva = pkt_kva->buf_addr + pkt_kva->data_off
105                         - kni->mbuf_va + kni->mbuf_kva;
106
107 #ifdef HAVE_IOV_ITER_MSGHDR
108                 copy_from_iter(data_kva, len, &m->msg_iter);
109 #else
110                 memcpy_fromiovecend(data_kva, m->msg_iov, offset, len);
111 #endif
112
113                 if (unlikely(len < ETH_ZLEN)) {
114                         memset(data_kva + len, 0, ETH_ZLEN - len);
115                         len = ETH_ZLEN;
116                 }
117                 pkt_kva->pkt_len = len;
118                 pkt_kva->data_len = len;
119
120                 /* enqueue mbuf into tx_q */
121                 ret = kni_fifo_put(kni->tx_q, (void **)&pkt_va, 1);
122                 if (unlikely(ret != 1)) {
123                         /* Failing should not happen */
124                         KNI_ERR("Fail to enqueue mbuf into tx_q\n");
125                         goto drop;
126                 }
127         } else {
128                 /* Failing should not happen */
129                 KNI_ERR("Fail to dequeue mbuf from alloc_q\n");
130                 goto drop;
131         }
132
133         /* update statistics */
134         kni->stats.tx_bytes += len;
135         kni->stats.tx_packets++;
136
137         return 0;
138
139 drop:
140         /* update statistics */
141         kni->stats.tx_dropped++;
142
143         return 0;
144 }
145
146 static inline int
147 kni_vhost_net_rx(struct kni_dev *kni, struct msghdr *m,
148                  unsigned int offset, unsigned int len)
149 {
150         uint32_t pkt_len;
151         struct rte_kni_mbuf *kva;
152         struct rte_kni_mbuf *va;
153         void *data_kva;
154         struct sk_buff *skb;
155         struct kni_vhost_queue *q = kni->vhost_queue;
156
157         if (unlikely(q == NULL))
158                 return 0;
159
160         /* ensure at least one entry in free_q */
161         if (unlikely(kni_fifo_free_count(kni->free_q) == 0))
162                 return 0;
163
164         skb = skb_dequeue(&q->sk.sk_receive_queue);
165         if (unlikely(skb == NULL))
166                 return 0;
167
168         kva = (struct rte_kni_mbuf *)skb->data;
169
170         /* free skb to cache */
171         skb->data = NULL;
172         if (unlikely(kni_fifo_put(q->fifo, (void **)&skb, 1) != 1))
173                 /* Failing should not happen */
174                 KNI_ERR("Fail to enqueue entries into rx cache fifo\n");
175
176         pkt_len = kva->data_len;
177         if (unlikely(pkt_len > len))
178                 goto drop;
179
180         KNI_DBG_RX("rx offset=%d, len=%d, pkt_len=%d, iovlen=%d\n",
181 #ifdef HAVE_IOV_ITER_MSGHDR
182                    offset, len, pkt_len, (int)m->msg_iter.iov->iov_len);
183 #else
184                    offset, len, pkt_len, (int)m->msg_iov->iov_len);
185 #endif
186
187         data_kva = kva->buf_addr + kva->data_off - kni->mbuf_va + kni->mbuf_kva;
188 #ifdef HAVE_IOV_ITER_MSGHDR
189         if (unlikely(copy_to_iter(data_kva, pkt_len, &m->msg_iter)))
190 #else
191         if (unlikely(memcpy_toiovecend(m->msg_iov, data_kva, offset, pkt_len)))
192 #endif
193                 goto drop;
194
195         /* Update statistics */
196         kni->stats.rx_bytes += pkt_len;
197         kni->stats.rx_packets++;
198
199         /* enqueue mbufs into free_q */
200         va = (void *)kva - kni->mbuf_kva + kni->mbuf_va;
201         if (unlikely(kni_fifo_put(kni->free_q, (void **)&va, 1) != 1))
202                 /* Failing should not happen */
203                 KNI_ERR("Fail to enqueue entries into free_q\n");
204
205         KNI_DBG_RX("receive done %d\n", pkt_len);
206
207         return pkt_len;
208
209 drop:
210         /* Update drop statistics */
211         kni->stats.rx_dropped++;
212
213         return 0;
214 }
215
216 static unsigned int
217 kni_sock_poll(struct file *file, struct socket *sock, poll_table *wait)
218 {
219         struct kni_vhost_queue *q =
220                 container_of(sock->sk, struct kni_vhost_queue, sk);
221         struct kni_dev *kni;
222         unsigned int mask = 0;
223
224         if (unlikely(q == NULL || q->kni == NULL))
225                 return POLLERR;
226
227         kni = q->kni;
228 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2, 6, 35)
229         KNI_DBG("start kni_poll on group %d, wq 0x%16llx\n",
230                   kni->group_id, (uint64_t)sock->wq);
231 #else
232         KNI_DBG("start kni_poll on group %d, wait at 0x%16llx\n",
233                   kni->group_id, (uint64_t)&sock->wait);
234 #endif
235
236 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2, 6, 35)
237         poll_wait(file, &sock->wq->wait, wait);
238 #else
239         poll_wait(file, &sock->wait, wait);
240 #endif
241
242         if (kni_fifo_count(kni->rx_q) > 0)
243                 mask |= POLLIN | POLLRDNORM;
244
245         if (sock_writeable(&q->sk) ||
246 #ifdef SOCKWQ_ASYNC_NOSPACE
247                 (!test_and_set_bit(SOCKWQ_ASYNC_NOSPACE, &q->sock->flags) &&
248                         sock_writeable(&q->sk)))
249 #else
250                 (!test_and_set_bit(SOCK_ASYNC_NOSPACE, &q->sock->flags) &&
251                         sock_writeable(&q->sk)))
252 #endif
253                 mask |= POLLOUT | POLLWRNORM;
254
255         return mask;
256 }
257
258 static inline void
259 kni_vhost_enqueue(struct kni_dev *kni, struct kni_vhost_queue *q,
260                   struct sk_buff *skb, struct rte_kni_mbuf *va)
261 {
262         struct rte_kni_mbuf *kva;
263
264         kva = (void *)(va) - kni->mbuf_va + kni->mbuf_kva;
265         (skb)->data = (unsigned char *)kva;
266         (skb)->len = kva->data_len;
267         skb_queue_tail(&q->sk.sk_receive_queue, skb);
268 }
269
270 static inline void
271 kni_vhost_enqueue_burst(struct kni_dev *kni, struct kni_vhost_queue *q,
272           struct sk_buff **skb, struct rte_kni_mbuf **va)
273 {
274         int i;
275
276         for (i = 0; i < RX_BURST_SZ; skb++, va++, i++)
277                 kni_vhost_enqueue(kni, q, *skb, *va);
278 }
279
280 int
281 kni_chk_vhost_rx(struct kni_dev *kni)
282 {
283         struct kni_vhost_queue *q = kni->vhost_queue;
284         unsigned int nb_in, nb_mbuf, nb_skb;
285         const unsigned int BURST_MASK = RX_BURST_SZ - 1;
286         unsigned int nb_burst, nb_backlog, i;
287         struct sk_buff *skb[RX_BURST_SZ];
288         struct rte_kni_mbuf *va[RX_BURST_SZ];
289
290         if (unlikely(BE_STOP & kni->vq_status)) {
291                 kni->vq_status |= BE_FINISH;
292                 return 0;
293         }
294
295         if (unlikely(q == NULL))
296                 return 0;
297
298         nb_skb = kni_fifo_count(q->fifo);
299         nb_mbuf = kni_fifo_count(kni->rx_q);
300
301         nb_in = min(nb_mbuf, nb_skb);
302         nb_in = min(nb_in, (unsigned int)RX_BURST_SZ);
303         nb_burst   = (nb_in & ~BURST_MASK);
304         nb_backlog = (nb_in & BURST_MASK);
305
306         /* enqueue skb_queue per BURST_SIZE bulk */
307         if (nb_burst != 0) {
308                 if (unlikely(kni_fifo_get(kni->rx_q, (void **)&va, RX_BURST_SZ)
309                                 != RX_BURST_SZ))
310                         goto except;
311
312                 if (unlikely(kni_fifo_get(q->fifo, (void **)&skb, RX_BURST_SZ)
313                                 != RX_BURST_SZ))
314                         goto except;
315
316                 kni_vhost_enqueue_burst(kni, q, skb, va);
317         }
318
319         /* all leftover, do one by one */
320         for (i = 0; i < nb_backlog; ++i) {
321                 if (unlikely(kni_fifo_get(kni->rx_q, (void **)&va, 1) != 1))
322                         goto except;
323
324                 if (unlikely(kni_fifo_get(q->fifo, (void **)&skb, 1) != 1))
325                         goto except;
326
327                 kni_vhost_enqueue(kni, q, *skb, *va);
328         }
329
330         /* Ondemand wake up */
331         if ((nb_in == RX_BURST_SZ) || (nb_skb == 0) ||
332             ((nb_mbuf < RX_BURST_SZ) && (nb_mbuf != 0))) {
333                 wake_up_interruptible_poll(sk_sleep(&q->sk),
334                                    POLLIN | POLLRDNORM | POLLRDBAND);
335                 KNI_DBG_RX("RX CHK KICK nb_mbuf %d, nb_skb %d, nb_in %d\n",
336                            nb_mbuf, nb_skb, nb_in);
337         }
338
339         return 0;
340
341 except:
342         /* Failing should not happen */
343         KNI_ERR("Fail to enqueue fifo, it shouldn't happen\n");
344         BUG_ON(1);
345
346         return 0;
347 }
348
349 static int
350 #ifdef HAVE_KIOCB_MSG_PARAM
351 kni_sock_sndmsg(struct kiocb *iocb, struct socket *sock,
352            struct msghdr *m, size_t total_len)
353 #else
354 kni_sock_sndmsg(struct socket *sock,
355            struct msghdr *m, size_t total_len)
356 #endif /* HAVE_KIOCB_MSG_PARAM */
357 {
358         struct kni_vhost_queue *q =
359                 container_of(sock->sk, struct kni_vhost_queue, sk);
360         int vnet_hdr_len = 0;
361         unsigned long len = total_len;
362
363         if (unlikely(q == NULL || q->kni == NULL))
364                 return 0;
365
366         KNI_DBG_TX("kni_sndmsg len %ld, flags 0x%08x, nb_iov %d\n",
367 #ifdef HAVE_IOV_ITER_MSGHDR
368                    len, q->flags, (int)m->msg_iter.iov->iov_len);
369 #else
370                    len, q->flags, (int)m->msg_iovlen);
371 #endif
372
373 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
374         if (likely(q->flags & IFF_VNET_HDR)) {
375                 vnet_hdr_len = q->vnet_hdr_sz;
376                 if (unlikely(len < vnet_hdr_len))
377                         return -EINVAL;
378                 len -= vnet_hdr_len;
379         }
380 #endif
381
382         if (unlikely(len < ETH_HLEN + q->vnet_hdr_sz))
383                 return -EINVAL;
384
385         return kni_vhost_net_tx(q->kni, m, vnet_hdr_len, len);
386 }
387
388 static int
389 #ifdef HAVE_KIOCB_MSG_PARAM
390 kni_sock_rcvmsg(struct kiocb *iocb, struct socket *sock,
391            struct msghdr *m, size_t len, int flags)
392 #else
393 kni_sock_rcvmsg(struct socket *sock,
394            struct msghdr *m, size_t len, int flags)
395 #endif /* HAVE_KIOCB_MSG_PARAM */
396 {
397         int vnet_hdr_len = 0;
398         int pkt_len = 0;
399         struct kni_vhost_queue *q =
400                 container_of(sock->sk, struct kni_vhost_queue, sk);
401         static struct virtio_net_hdr
402                 __attribute__ ((unused)) vnet_hdr = {
403                 .flags = 0,
404                 .gso_type = VIRTIO_NET_HDR_GSO_NONE
405         };
406
407         if (unlikely(q == NULL || q->kni == NULL))
408                 return 0;
409
410 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
411         if (likely(q->flags & IFF_VNET_HDR)) {
412                 vnet_hdr_len = q->vnet_hdr_sz;
413                 if ((len -= vnet_hdr_len) < 0)
414                         return -EINVAL;
415         }
416 #endif
417
418         if (unlikely(0 == (pkt_len = kni_vhost_net_rx(q->kni,
419                 m, vnet_hdr_len, len))))
420                 return 0;
421
422 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
423         /* no need to copy hdr when no pkt received */
424 #ifdef HAVE_IOV_ITER_MSGHDR
425         if (unlikely(copy_to_iter((void *)&vnet_hdr, vnet_hdr_len,
426                 &m->msg_iter)))
427 #else
428         if (unlikely(memcpy_toiovecend(m->msg_iov,
429                 (void *)&vnet_hdr, 0, vnet_hdr_len)))
430 #endif /* HAVE_IOV_ITER_MSGHDR */
431                 return -EFAULT;
432 #endif /* RTE_KNI_VHOST_VNET_HDR_EN */
433         KNI_DBG_RX("kni_rcvmsg expect_len %ld, flags 0x%08x, pkt_len %d\n",
434                    (unsigned long)len, q->flags, pkt_len);
435
436         return pkt_len + vnet_hdr_len;
437 }
438
439 /* dummy tap like ioctl */
440 static int
441 kni_sock_ioctl(struct socket *sock, unsigned int cmd,
442               unsigned long arg)
443 {
444         void __user *argp = (void __user *)arg;
445         struct ifreq __user *ifr = argp;
446         unsigned int __user *up = argp;
447         struct kni_vhost_queue *q =
448                 container_of(sock->sk, struct kni_vhost_queue, sk);
449         struct kni_dev *kni;
450         unsigned int u;
451         int __user *sp = argp;
452         int s;
453         int ret;
454
455         KNI_DBG("tap ioctl cmd 0x%08x\n", cmd);
456
457         switch (cmd) {
458         case TUNSETIFF:
459                 KNI_DBG("TUNSETIFF\n");
460                 /* ignore the name, just look at flags */
461                 if (get_user(u, &ifr->ifr_flags))
462                         return -EFAULT;
463
464                 ret = 0;
465                 if ((u & ~IFF_VNET_HDR) != (IFF_NO_PI | IFF_TAP))
466                         ret = -EINVAL;
467                 else
468                         q->flags = u;
469
470                 return ret;
471
472         case TUNGETIFF:
473                 KNI_DBG("TUNGETIFF\n");
474                 rcu_read_lock_bh();
475                 kni = rcu_dereference_bh(q->kni);
476                 if (kni)
477                         dev_hold(kni->net_dev);
478                 rcu_read_unlock_bh();
479
480                 if (!kni)
481                         return -ENOLINK;
482
483                 ret = 0;
484                 if (copy_to_user(&ifr->ifr_name, kni->net_dev->name, IFNAMSIZ)
485                                 || put_user(q->flags, &ifr->ifr_flags))
486                         ret = -EFAULT;
487                 dev_put(kni->net_dev);
488                 return ret;
489
490         case TUNGETFEATURES:
491                 KNI_DBG("TUNGETFEATURES\n");
492                 u = IFF_TAP | IFF_NO_PI;
493 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
494                 u |= IFF_VNET_HDR;
495 #endif
496                 if (put_user(u, up))
497                         return -EFAULT;
498                 return 0;
499
500         case TUNSETSNDBUF:
501                 KNI_DBG("TUNSETSNDBUF\n");
502                 if (get_user(u, up))
503                         return -EFAULT;
504
505                 q->sk.sk_sndbuf = u;
506                 return 0;
507
508         case TUNGETVNETHDRSZ:
509                 s = q->vnet_hdr_sz;
510                 if (put_user(s, sp))
511                         return -EFAULT;
512                 KNI_DBG("TUNGETVNETHDRSZ %d\n", s);
513                 return 0;
514
515         case TUNSETVNETHDRSZ:
516                 if (get_user(s, sp))
517                         return -EFAULT;
518                 if (s < (int)sizeof(struct virtio_net_hdr))
519                         return -EINVAL;
520
521                 KNI_DBG("TUNSETVNETHDRSZ %d\n", s);
522                 q->vnet_hdr_sz = s;
523                 return 0;
524
525         case TUNSETOFFLOAD:
526                 KNI_DBG("TUNSETOFFLOAD %lx\n", arg);
527 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
528                 /* not support any offload yet */
529                 if (!(q->flags & IFF_VNET_HDR))
530                         return  -EINVAL;
531
532                 return 0;
533 #else
534                 return -EINVAL;
535 #endif
536
537         default:
538                 KNI_DBG("NOT SUPPORT\n");
539                 return -EINVAL;
540         }
541 }
542
543 static int
544 kni_sock_compat_ioctl(struct socket *sock, unsigned int cmd,
545                      unsigned long arg)
546 {
547         /* 32 bits app on 64 bits OS to be supported later */
548         KNI_PRINT("Not implemented.\n");
549
550         return -EINVAL;
551 }
552
553 #define KNI_VHOST_WAIT_WQ_SAFE()                        \
554 do {                                                    \
555         while ((BE_FINISH | BE_STOP) == kni->vq_status) \
556                 msleep(1);                              \
557 } while (0)                                             \
558
559
560 static int
561 kni_sock_release(struct socket *sock)
562 {
563         struct kni_vhost_queue *q =
564                 container_of(sock->sk, struct kni_vhost_queue, sk);
565         struct kni_dev *kni;
566
567         if (q == NULL)
568                 return 0;
569
570         if (NULL != (kni = q->kni)) {
571                 kni->vq_status = BE_STOP;
572                 KNI_VHOST_WAIT_WQ_SAFE();
573                 kni->vhost_queue = NULL;
574                 q->kni = NULL;
575         }
576
577         if (q->sockfd != -1)
578                 q->sockfd = -1;
579
580         sk_set_socket(&q->sk, NULL);
581         sock->sk = NULL;
582
583         sock_put(&q->sk);
584
585         KNI_DBG("dummy sock release done\n");
586
587         return 0;
588 }
589
590 int
591 kni_sock_getname(struct socket *sock, struct sockaddr *addr,
592                 int *sockaddr_len, int peer)
593 {
594         KNI_DBG("dummy sock getname\n");
595         ((struct sockaddr_ll *)addr)->sll_family = AF_PACKET;
596         return 0;
597 }
598
599 static const struct proto_ops kni_socket_ops = {
600         .getname = kni_sock_getname,
601         .sendmsg = kni_sock_sndmsg,
602         .recvmsg = kni_sock_rcvmsg,
603         .release = kni_sock_release,
604         .poll    = kni_sock_poll,
605         .ioctl   = kni_sock_ioctl,
606         .compat_ioctl = kni_sock_compat_ioctl,
607 };
608
609 static void
610 kni_sk_write_space(struct sock *sk)
611 {
612         wait_queue_head_t *wqueue;
613
614         if (!sock_writeable(sk) ||
615 #ifdef SOCKWQ_ASYNC_NOSPACE
616             !test_and_clear_bit(SOCKWQ_ASYNC_NOSPACE, &sk->sk_socket->flags))
617 #else
618             !test_and_clear_bit(SOCK_ASYNC_NOSPACE, &sk->sk_socket->flags))
619 #endif
620                 return;
621         wqueue = sk_sleep(sk);
622         if (wqueue && waitqueue_active(wqueue))
623                 wake_up_interruptible_poll(
624                         wqueue, POLLOUT | POLLWRNORM | POLLWRBAND);
625 }
626
627 static void
628 kni_sk_destruct(struct sock *sk)
629 {
630         struct kni_vhost_queue *q =
631                 container_of(sk, struct kni_vhost_queue, sk);
632
633         if (!q)
634                 return;
635
636         /* make sure there's no packet in buffer */
637         while (skb_dequeue(&sk->sk_receive_queue) != NULL)
638                 ;
639
640         mb();
641
642         if (q->fifo != NULL) {
643                 kfree(q->fifo);
644                 q->fifo = NULL;
645         }
646
647         if (q->cache != NULL) {
648                 kfree(q->cache);
649                 q->cache = NULL;
650         }
651 }
652
653 static int
654 kni_vhost_backend_init(struct kni_dev *kni)
655 {
656         struct kni_vhost_queue *q;
657         struct net *net = current->nsproxy->net_ns;
658         int err, i, sockfd;
659         struct rte_kni_fifo *fifo;
660         struct sk_buff *elem;
661
662         if (kni->vhost_queue != NULL)
663                 return -1;
664
665 #if LINUX_VERSION_CODE >= KERNEL_VERSION(4, 2, 0)
666         q = (struct kni_vhost_queue *)sk_alloc(net, AF_UNSPEC, GFP_KERNEL,
667                         &kni_raw_proto, 0);
668 #else
669         q = (struct kni_vhost_queue *)sk_alloc(net, AF_UNSPEC, GFP_KERNEL,
670                         &kni_raw_proto);
671 #endif
672         if (!q)
673                 return -ENOMEM;
674
675         err = sock_create_lite(AF_UNSPEC, SOCK_RAW, IPPROTO_RAW, &q->sock);
676         if (err)
677                 goto free_sk;
678
679         sockfd = kni_sock_map_fd(q->sock);
680         if (sockfd < 0) {
681                 err = sockfd;
682                 goto free_sock;
683         }
684
685         /* cache init */
686         q->cache = kzalloc(
687                 RTE_KNI_VHOST_MAX_CACHE_SIZE * sizeof(struct sk_buff),
688                 GFP_KERNEL);
689         if (!q->cache)
690                 goto free_fd;
691
692         fifo = kzalloc(RTE_KNI_VHOST_MAX_CACHE_SIZE * sizeof(void *)
693                         + sizeof(struct rte_kni_fifo), GFP_KERNEL);
694         if (!fifo)
695                 goto free_cache;
696
697         kni_fifo_init(fifo, RTE_KNI_VHOST_MAX_CACHE_SIZE);
698
699         for (i = 0; i < RTE_KNI_VHOST_MAX_CACHE_SIZE; i++) {
700                 elem = &q->cache[i];
701                 kni_fifo_put(fifo, (void **)&elem, 1);
702         }
703         q->fifo = fifo;
704
705         /* store sockfd in vhost_queue */
706         q->sockfd = sockfd;
707
708         /* init socket */
709         q->sock->type = SOCK_RAW;
710         q->sock->state = SS_CONNECTED;
711         q->sock->ops = &kni_socket_ops;
712         sock_init_data(q->sock, &q->sk);
713
714         /* init sock data */
715         q->sk.sk_write_space = kni_sk_write_space;
716         q->sk.sk_destruct = kni_sk_destruct;
717         q->flags = IFF_NO_PI | IFF_TAP;
718         q->vnet_hdr_sz = sizeof(struct virtio_net_hdr);
719 #ifdef RTE_KNI_VHOST_VNET_HDR_EN
720         q->flags |= IFF_VNET_HDR;
721 #endif
722
723         /* bind kni_dev with vhost_queue */
724         q->kni = kni;
725         kni->vhost_queue = q;
726
727         wmb();
728
729         kni->vq_status = BE_START;
730
731 #if LINUX_VERSION_CODE >= KERNEL_VERSION(2, 6, 35)
732         KNI_DBG("backend init sockfd=%d, sock->wq=0x%16llx,sk->sk_wq=0x%16llx",
733                   q->sockfd, (uint64_t)q->sock->wq,
734                   (uint64_t)q->sk.sk_wq);
735 #else
736         KNI_DBG("backend init sockfd=%d, sock->wait at 0x%16llx,sk->sk_sleep=0x%16llx",
737                   q->sockfd, (uint64_t)&q->sock->wait,
738                   (uint64_t)q->sk.sk_sleep);
739 #endif
740
741         return 0;
742
743 free_cache:
744         kfree(q->cache);
745         q->cache = NULL;
746
747 free_fd:
748         put_unused_fd(sockfd);
749
750 free_sock:
751         q->kni = NULL;
752         kni->vhost_queue = NULL;
753         kni->vq_status |= BE_FINISH;
754         sock_release(q->sock);
755         q->sock->ops = NULL;
756         q->sock = NULL;
757
758 free_sk:
759         sk_free((struct sock *)q);
760
761         return err;
762 }
763
764 /* kni vhost sock sysfs */
765 static ssize_t
766 show_sock_fd(struct device *dev, struct device_attribute *attr,
767              char *buf)
768 {
769         struct net_device *net_dev = container_of(dev, struct net_device, dev);
770         struct kni_dev *kni = netdev_priv(net_dev);
771         int sockfd = -1;
772
773         if (kni->vhost_queue != NULL)
774                 sockfd = kni->vhost_queue->sockfd;
775         return snprintf(buf, 10, "%d\n", sockfd);
776 }
777
778 static ssize_t
779 show_sock_en(struct device *dev, struct device_attribute *attr,
780              char *buf)
781 {
782         struct net_device *net_dev = container_of(dev, struct net_device, dev);
783         struct kni_dev *kni = netdev_priv(net_dev);
784
785         return snprintf(buf, 10, "%u\n", (kni->vhost_queue == NULL ? 0 : 1));
786 }
787
788 static ssize_t
789 set_sock_en(struct device *dev, struct device_attribute *attr,
790               const char *buf, size_t count)
791 {
792         struct net_device *net_dev = container_of(dev, struct net_device, dev);
793         struct kni_dev *kni = netdev_priv(net_dev);
794         unsigned long en;
795         int err = 0;
796
797         if (kstrtoul(buf, 0, &en) != 0)
798                 return -EINVAL;
799
800         if (en)
801                 err = kni_vhost_backend_init(kni);
802
803         return err ? err : count;
804 }
805
806 static DEVICE_ATTR(sock_fd, S_IRUGO | S_IRUSR, show_sock_fd, NULL);
807 static DEVICE_ATTR(sock_en, S_IRUGO | S_IWUSR, show_sock_en, set_sock_en);
808 static struct attribute *dev_attrs[] = {
809         &dev_attr_sock_fd.attr,
810         &dev_attr_sock_en.attr,
811         NULL,
812 };
813
814 static const struct attribute_group dev_attr_grp = {
815         .attrs = dev_attrs,
816 };
817
818 int
819 kni_vhost_backend_release(struct kni_dev *kni)
820 {
821         struct kni_vhost_queue *q = kni->vhost_queue;
822
823         if (q == NULL)
824                 return 0;
825
826         /* dettach from kni */
827         q->kni = NULL;
828
829         KNI_DBG("release backend done\n");
830
831         return 0;
832 }
833
834 int
835 kni_vhost_init(struct kni_dev *kni)
836 {
837         struct net_device *dev = kni->net_dev;
838
839         if (sysfs_create_group(&dev->dev.kobj, &dev_attr_grp))
840                 sysfs_remove_group(&dev->dev.kobj, &dev_attr_grp);
841
842         kni->vq_status = BE_STOP;
843
844         KNI_DBG("kni_vhost_init done\n");
845
846         return 0;
847 }