mem: fix page fault trigger
[dpdk.git] / lib / librte_eal / linuxapp / eal / eal_memalloc.c
1 /* SPDX-License-Identifier: BSD-3-Clause
2  * Copyright(c) 2017-2018 Intel Corporation
3  */
4
5 #define _FILE_OFFSET_BITS 64
6 #include <errno.h>
7 #include <stdarg.h>
8 #include <stdbool.h>
9 #include <stdlib.h>
10 #include <stdio.h>
11 #include <stdint.h>
12 #include <inttypes.h>
13 #include <string.h>
14 #include <sys/mman.h>
15 #include <sys/types.h>
16 #include <sys/stat.h>
17 #include <sys/queue.h>
18 #include <sys/file.h>
19 #include <unistd.h>
20 #include <limits.h>
21 #include <fcntl.h>
22 #include <sys/ioctl.h>
23 #include <sys/time.h>
24 #include <signal.h>
25 #include <setjmp.h>
26 #ifdef RTE_EAL_NUMA_AWARE_HUGEPAGES
27 #include <numa.h>
28 #include <numaif.h>
29 #endif
30 #include <linux/falloc.h>
31
32 #include <rte_common.h>
33 #include <rte_log.h>
34 #include <rte_eal_memconfig.h>
35 #include <rte_eal.h>
36 #include <rte_memory.h>
37 #include <rte_spinlock.h>
38
39 #include "eal_filesystem.h"
40 #include "eal_internal_cfg.h"
41 #include "eal_memalloc.h"
42
43 /*
44  * not all kernel version support fallocate on hugetlbfs, so fall back to
45  * ftruncate and disallow deallocation if fallocate is not supported.
46  */
47 static int fallocate_supported = -1; /* unknown */
48
49 /*
50  * If each page is in a separate file, we can close fd's since we need each fd
51  * only once. However, in single file segments mode, we can get away with using
52  * a single fd for entire segments, but we need to store them somewhere. Each
53  * fd is different within each process, so we'll store them in a local tailq.
54  */
55 struct msl_entry {
56         TAILQ_ENTRY(msl_entry) next;
57         unsigned int msl_idx;
58         int fd;
59 };
60
61 /** Double linked list of memseg list fd's. */
62 TAILQ_HEAD(msl_entry_list, msl_entry);
63
64 static struct msl_entry_list msl_entry_list =
65                 TAILQ_HEAD_INITIALIZER(msl_entry_list);
66 static rte_spinlock_t tailq_lock = RTE_SPINLOCK_INITIALIZER;
67
68 /** local copy of a memory map, used to synchronize memory hotplug in MP */
69 static struct rte_memseg_list local_memsegs[RTE_MAX_MEMSEG_LISTS];
70
71 static sigjmp_buf huge_jmpenv;
72
73 static void __rte_unused huge_sigbus_handler(int signo __rte_unused)
74 {
75         siglongjmp(huge_jmpenv, 1);
76 }
77
78 /* Put setjmp into a wrap method to avoid compiling error. Any non-volatile,
79  * non-static local variable in the stack frame calling sigsetjmp might be
80  * clobbered by a call to longjmp.
81  */
82 static int __rte_unused huge_wrap_sigsetjmp(void)
83 {
84         return sigsetjmp(huge_jmpenv, 1);
85 }
86
87 static struct sigaction huge_action_old;
88 static int huge_need_recover;
89
90 static void __rte_unused
91 huge_register_sigbus(void)
92 {
93         sigset_t mask;
94         struct sigaction action;
95
96         sigemptyset(&mask);
97         sigaddset(&mask, SIGBUS);
98         action.sa_flags = 0;
99         action.sa_mask = mask;
100         action.sa_handler = huge_sigbus_handler;
101
102         huge_need_recover = !sigaction(SIGBUS, &action, &huge_action_old);
103 }
104
105 static void __rte_unused
106 huge_recover_sigbus(void)
107 {
108         if (huge_need_recover) {
109                 sigaction(SIGBUS, &huge_action_old, NULL);
110                 huge_need_recover = 0;
111         }
112 }
113
114 #ifdef RTE_EAL_NUMA_AWARE_HUGEPAGES
115 static bool
116 check_numa(void)
117 {
118         bool ret = true;
119         /* Check if kernel supports NUMA. */
120         if (numa_available() != 0) {
121                 RTE_LOG(DEBUG, EAL, "NUMA is not supported.\n");
122                 ret = false;
123         }
124         return ret;
125 }
126
127 static void
128 prepare_numa(int *oldpolicy, struct bitmask *oldmask, int socket_id)
129 {
130         RTE_LOG(DEBUG, EAL, "Trying to obtain current memory policy.\n");
131         if (get_mempolicy(oldpolicy, oldmask->maskp,
132                           oldmask->size + 1, 0, 0) < 0) {
133                 RTE_LOG(ERR, EAL,
134                         "Failed to get current mempolicy: %s. "
135                         "Assuming MPOL_DEFAULT.\n", strerror(errno));
136                 oldpolicy = MPOL_DEFAULT;
137         }
138         RTE_LOG(DEBUG, EAL,
139                 "Setting policy MPOL_PREFERRED for socket %d\n",
140                 socket_id);
141         numa_set_preferred(socket_id);
142 }
143
144 static void
145 resotre_numa(int *oldpolicy, struct bitmask *oldmask)
146 {
147         RTE_LOG(DEBUG, EAL,
148                 "Restoring previous memory policy: %d\n", *oldpolicy);
149         if (*oldpolicy == MPOL_DEFAULT) {
150                 numa_set_localalloc();
151         } else if (set_mempolicy(*oldpolicy, oldmask->maskp,
152                                  oldmask->size + 1) < 0) {
153                 RTE_LOG(ERR, EAL, "Failed to restore mempolicy: %s\n",
154                         strerror(errno));
155                 numa_set_localalloc();
156         }
157         numa_free_cpumask(oldmask);
158 }
159 #endif
160
161 static struct msl_entry *
162 get_msl_entry_by_idx(unsigned int list_idx)
163 {
164         struct msl_entry *te;
165
166         rte_spinlock_lock(&tailq_lock);
167
168         TAILQ_FOREACH(te, &msl_entry_list, next) {
169                 if (te->msl_idx == list_idx)
170                         break;
171         }
172         if (te == NULL) {
173                 /* doesn't exist, so create it and set fd to -1 */
174
175                 te = malloc(sizeof(*te));
176                 if (te == NULL) {
177                         RTE_LOG(ERR, EAL, "%s(): cannot allocate tailq entry for memseg list\n",
178                                 __func__);
179                         goto unlock;
180                 }
181                 te->msl_idx = list_idx;
182                 te->fd = -1;
183                 TAILQ_INSERT_TAIL(&msl_entry_list, te, next);
184         }
185 unlock:
186         rte_spinlock_unlock(&tailq_lock);
187         return te;
188 }
189
190 /*
191  * uses fstat to report the size of a file on disk
192  */
193 static off_t
194 get_file_size(int fd)
195 {
196         struct stat st;
197         if (fstat(fd, &st) < 0)
198                 return 0;
199         return st.st_size;
200 }
201
202 /*
203  * uses fstat to check if file size on disk is zero (regular fstat won't show
204  * true file size due to how fallocate works)
205  */
206 static bool
207 is_zero_length(int fd)
208 {
209         struct stat st;
210         if (fstat(fd, &st) < 0)
211                 return false;
212         return st.st_blocks == 0;
213 }
214
215 /* we cannot use rte_memseg_list_walk() here because we will be holding a
216  * write lock whenever we enter every function in this file, however copying
217  * the same iteration code everywhere is not ideal as well. so, use a lockless
218  * copy of memseg list walk here.
219  */
220 static int
221 memseg_list_walk_thread_unsafe(rte_memseg_list_walk_t func, void *arg)
222 {
223         struct rte_mem_config *mcfg = rte_eal_get_configuration()->mem_config;
224         int i, ret = 0;
225
226         for (i = 0; i < RTE_MAX_MEMSEG_LISTS; i++) {
227                 struct rte_memseg_list *msl = &mcfg->memsegs[i];
228
229                 if (msl->base_va == NULL)
230                         continue;
231
232                 ret = func(msl, arg);
233                 if (ret < 0)
234                         return -1;
235                 if (ret > 0)
236                         return 1;
237         }
238         return 0;
239 }
240
241 static int
242 get_seg_fd(char *path, int buflen, struct hugepage_info *hi,
243                 unsigned int list_idx, unsigned int seg_idx)
244 {
245         int fd;
246
247         if (internal_config.single_file_segments) {
248                 /*
249                  * try to find a tailq entry, for this memseg list, or create
250                  * one if it doesn't exist.
251                  */
252                 struct msl_entry *te = get_msl_entry_by_idx(list_idx);
253                 if (te == NULL) {
254                         RTE_LOG(ERR, EAL, "%s(): cannot allocate tailq entry for memseg list\n",
255                                 __func__);
256                         return -1;
257                 } else if (te->fd < 0) {
258                         /* create a hugepage file */
259                         eal_get_hugefile_path(path, buflen, hi->hugedir,
260                                         list_idx);
261                         fd = open(path, O_CREAT | O_RDWR, 0600);
262                         if (fd < 0) {
263                                 RTE_LOG(DEBUG, EAL, "%s(): open failed: %s\n",
264                                         __func__, strerror(errno));
265                                 return -1;
266                         }
267                         te->fd = fd;
268                 } else {
269                         fd = te->fd;
270                 }
271         } else {
272                 /* one file per page, just create it */
273                 eal_get_hugefile_path(path, buflen, hi->hugedir,
274                                 list_idx * RTE_MAX_MEMSEG_PER_LIST + seg_idx);
275                 fd = open(path, O_CREAT | O_RDWR, 0600);
276                 if (fd < 0) {
277                         RTE_LOG(DEBUG, EAL, "%s(): open failed: %s\n", __func__,
278                                         strerror(errno));
279                         return -1;
280                 }
281         }
282         return fd;
283 }
284
285 /* returns 1 on successful lock, 0 on unsuccessful lock, -1 on error */
286 static int lock(int fd, uint64_t offset, uint64_t len, int type)
287 {
288         struct flock lck;
289         int ret;
290
291         memset(&lck, 0, sizeof(lck));
292
293         lck.l_type = type;
294         lck.l_whence = SEEK_SET;
295         lck.l_start = offset;
296         lck.l_len = len;
297
298         ret = fcntl(fd, F_SETLK, &lck);
299
300         if (ret && (errno == EAGAIN || errno == EACCES)) {
301                 /* locked by another process, not an error */
302                 return 0;
303         } else if (ret) {
304                 RTE_LOG(ERR, EAL, "%s(): error calling fcntl(): %s\n",
305                         __func__, strerror(errno));
306                 /* we've encountered an unexpected error */
307                 return -1;
308         }
309         return 1;
310 }
311
312 static int
313 resize_hugefile(int fd, uint64_t fa_offset, uint64_t page_sz,
314                 bool grow)
315 {
316         bool again = false;
317         do {
318                 if (fallocate_supported == 0) {
319                         /* we cannot deallocate memory if fallocate() is not
320                          * supported, but locks are still needed to prevent
321                          * primary process' initialization from clearing out
322                          * huge pages used by this process.
323                          */
324
325                         if (!grow) {
326                                 RTE_LOG(DEBUG, EAL, "%s(): fallocate not supported, not freeing page back to the system\n",
327                                         __func__);
328                                 return -1;
329                         }
330                         uint64_t new_size = fa_offset + page_sz;
331                         uint64_t cur_size = get_file_size(fd);
332
333                         /* fallocate isn't supported, fall back to ftruncate */
334                         if (new_size > cur_size &&
335                                         ftruncate(fd, new_size) < 0) {
336                                 RTE_LOG(DEBUG, EAL, "%s(): ftruncate() failed: %s\n",
337                                         __func__, strerror(errno));
338                                 return -1;
339                         }
340                         /* not being able to take out a read lock is an error */
341                         if (lock(fd, fa_offset, page_sz, F_RDLCK) != 1)
342                                 return -1;
343                 } else {
344                         int flags = grow ? 0 : FALLOC_FL_PUNCH_HOLE |
345                                         FALLOC_FL_KEEP_SIZE;
346                         int ret;
347
348                         /* if fallocate() is supported, we need to take out a
349                          * read lock on allocate (to prevent other processes
350                          * from deallocating this page), and take out a write
351                          * lock on deallocate (to ensure nobody else is using
352                          * this page).
353                          *
354                          * we can't use flock() for this, as we actually need to
355                          * lock part of the file, not the entire file.
356                          */
357
358                         if (!grow) {
359                                 ret = lock(fd, fa_offset, page_sz, F_WRLCK);
360
361                                 if (ret < 0)
362                                         return -1;
363                                 else if (ret == 0)
364                                         /* failed to lock, not an error */
365                                         return 0;
366                         }
367                         if (fallocate(fd, flags, fa_offset, page_sz) < 0) {
368                                 if (fallocate_supported == -1 &&
369                                                 errno == ENOTSUP) {
370                                         RTE_LOG(ERR, EAL, "%s(): fallocate() not supported, hugepage deallocation will be disabled\n",
371                                                 __func__);
372                                         again = true;
373                                         fallocate_supported = 0;
374                                 } else {
375                                         RTE_LOG(DEBUG, EAL, "%s(): fallocate() failed: %s\n",
376                                                 __func__,
377                                                 strerror(errno));
378                                         return -1;
379                                 }
380                         } else {
381                                 fallocate_supported = 1;
382
383                                 if (grow) {
384                                         /* if can't read lock, it's an error */
385                                         if (lock(fd, fa_offset, page_sz,
386                                                         F_RDLCK) != 1)
387                                                 return -1;
388                                 } else {
389                                         /* if can't unlock, it's an error */
390                                         if (lock(fd, fa_offset, page_sz,
391                                                         F_UNLCK) != 1)
392                                                 return -1;
393                                 }
394                         }
395                 }
396         } while (again);
397         return 0;
398 }
399
400 static int
401 alloc_seg(struct rte_memseg *ms, void *addr, int socket_id,
402                 struct hugepage_info *hi, unsigned int list_idx,
403                 unsigned int seg_idx)
404 {
405 #ifdef RTE_EAL_NUMA_AWARE_HUGEPAGES
406         int cur_socket_id = 0;
407 #endif
408         uint64_t map_offset;
409         char path[PATH_MAX];
410         int ret = 0;
411         int fd;
412         size_t alloc_sz;
413
414         fd = get_seg_fd(path, sizeof(path), hi, list_idx, seg_idx);
415         if (fd < 0)
416                 return -1;
417
418         alloc_sz = hi->hugepage_sz;
419         if (internal_config.single_file_segments) {
420                 map_offset = seg_idx * alloc_sz;
421                 ret = resize_hugefile(fd, map_offset, alloc_sz, true);
422                 if (ret < 0)
423                         goto resized;
424         } else {
425                 map_offset = 0;
426                 if (ftruncate(fd, alloc_sz) < 0) {
427                         RTE_LOG(DEBUG, EAL, "%s(): ftruncate() failed: %s\n",
428                                 __func__, strerror(errno));
429                         goto resized;
430                 }
431                 /* we've allocated a page - take out a read lock. we're using
432                  * fcntl() locks rather than flock() here because doing that
433                  * gives us one huge advantage - fcntl() locks are per-process,
434                  * not per-file descriptor, which means that we don't have to
435                  * keep the original fd's around to keep a lock on the file.
436                  *
437                  * this is useful, because when it comes to unmapping pages, we
438                  * will have to take out a write lock (to figure out if another
439                  * process still has this page mapped), and to do itwith flock()
440                  * we'll have to use original fd, as lock is associated with
441                  * that particular fd. with fcntl(), this is not necessary - we
442                  * can open a new fd and use fcntl() on that.
443                  */
444                 ret = lock(fd, map_offset, alloc_sz, F_RDLCK);
445
446                 /* this should not fail */
447                 if (ret != 1) {
448                         RTE_LOG(ERR, EAL, "%s(): error locking file: %s\n",
449                                 __func__,
450                                 strerror(errno));
451                         goto resized;
452                 }
453         }
454
455         /*
456          * map the segment, and populate page tables, the kernel fills this
457          * segment with zeros if it's a new page.
458          */
459         void *va = mmap(addr, alloc_sz, PROT_READ | PROT_WRITE,
460                         MAP_SHARED | MAP_POPULATE | MAP_FIXED, fd, map_offset);
461
462         if (va == MAP_FAILED) {
463                 RTE_LOG(DEBUG, EAL, "%s(): mmap() failed: %s\n", __func__,
464                         strerror(errno));
465                 goto resized;
466         }
467         if (va != addr) {
468                 RTE_LOG(DEBUG, EAL, "%s(): wrong mmap() address\n", __func__);
469                 munmap(va, alloc_sz);
470                 goto resized;
471         }
472
473         rte_iova_t iova = rte_mem_virt2iova(addr);
474         if (iova == RTE_BAD_PHYS_ADDR) {
475                 RTE_LOG(DEBUG, EAL, "%s(): can't get IOVA addr\n",
476                         __func__);
477                 goto mapped;
478         }
479
480 #ifdef RTE_EAL_NUMA_AWARE_HUGEPAGES
481         move_pages(getpid(), 1, &addr, NULL, &cur_socket_id, 0);
482
483         if (cur_socket_id != socket_id) {
484                 RTE_LOG(DEBUG, EAL,
485                                 "%s(): allocation happened on wrong socket (wanted %d, got %d)\n",
486                         __func__, socket_id, cur_socket_id);
487                 goto mapped;
488         }
489 #endif
490
491         /* In linux, hugetlb limitations, like cgroup, are
492          * enforced at fault time instead of mmap(), even
493          * with the option of MAP_POPULATE. Kernel will send
494          * a SIGBUS signal. To avoid to be killed, save stack
495          * environment here, if SIGBUS happens, we can jump
496          * back here.
497          */
498         if (huge_wrap_sigsetjmp()) {
499                 RTE_LOG(DEBUG, EAL, "SIGBUS: Cannot mmap more hugepages of size %uMB\n",
500                         (unsigned int)(alloc_sz >> 20));
501                 goto mapped;
502         }
503         /* for non-single file segments, we can close fd here */
504         if (!internal_config.single_file_segments)
505                 close(fd);
506
507         /* we need to trigger a write to the page to enforce page fault and
508          * ensure that page is accessible to us, but we can't overwrite value
509          * that is already there, so read the old value, and write itback.
510          * kernel populates the page with zeroes initially.
511          */
512         *(volatile int *)addr = *(volatile int *)addr;
513
514         ms->addr = addr;
515         ms->hugepage_sz = alloc_sz;
516         ms->len = alloc_sz;
517         ms->nchannel = rte_memory_get_nchannel();
518         ms->nrank = rte_memory_get_nrank();
519         ms->iova = iova;
520         ms->socket_id = socket_id;
521
522         return 0;
523
524 mapped:
525         munmap(addr, alloc_sz);
526 resized:
527         if (internal_config.single_file_segments) {
528                 resize_hugefile(fd, map_offset, alloc_sz, false);
529                 if (is_zero_length(fd)) {
530                         struct msl_entry *te = get_msl_entry_by_idx(list_idx);
531                         /* te->fd is equivalent to fd */
532                         if (te != NULL && te->fd >= 0)
533                                 te->fd = -1;
534                         /* ignore errors, can't make it any worse */
535                         unlink(path);
536                         close(fd);
537                 }
538                 /* if we're not removing the file, fd stays in the tailq */
539         } else {
540                 close(fd);
541                 unlink(path);
542         }
543         return -1;
544 }
545
546 static int
547 free_seg(struct rte_memseg *ms, struct hugepage_info *hi,
548                 unsigned int list_idx, unsigned int seg_idx)
549 {
550         uint64_t map_offset;
551         char path[PATH_MAX];
552         int fd, ret;
553
554         /* erase page data */
555         memset(ms->addr, 0, ms->len);
556
557         if (mmap(ms->addr, ms->len, PROT_READ,
558                         MAP_PRIVATE | MAP_ANONYMOUS | MAP_FIXED, -1, 0) ==
559                                 MAP_FAILED) {
560                 RTE_LOG(DEBUG, EAL, "couldn't unmap page\n");
561                 return -1;
562         }
563
564         fd = get_seg_fd(path, sizeof(path), hi, list_idx, seg_idx);
565         if (fd < 0)
566                 return -1;
567
568         if (internal_config.single_file_segments) {
569                 map_offset = seg_idx * ms->len;
570                 if (resize_hugefile(fd, map_offset, ms->len, false))
571                         return -1;
572                 /* if file is zero-length, we've already shrunk it, so it's
573                  * safe to remove.
574                  */
575                 if (is_zero_length(fd)) {
576                         struct msl_entry *te = get_msl_entry_by_idx(list_idx);
577                         /* te->fd is equivalent to fd */
578                         if (te != NULL && te->fd >= 0)
579                                 te->fd = -1;
580                         unlink(path);
581                         close(fd);
582                 }
583                 /* if we're not removing the file, fd stays in the tailq */
584                 ret = 0;
585         } else {
586                 /* if we're able to take out a write lock, we're the last one
587                  * holding onto this page.
588                  */
589
590                 ret = lock(fd, 0, ms->len, F_WRLCK);
591                 if (ret >= 0) {
592                         /* no one else is using this page */
593                         if (ret == 1)
594                                 unlink(path);
595                         ret = lock(fd, 0, ms->len, F_UNLCK);
596                         if (ret != 1)
597                                 RTE_LOG(ERR, EAL, "%s(): unable to unlock file %s\n",
598                                         __func__, path);
599                 }
600                 close(fd);
601         }
602
603         memset(ms, 0, sizeof(*ms));
604
605         return ret;
606 }
607
608 struct alloc_walk_param {
609         struct hugepage_info *hi;
610         struct rte_memseg **ms;
611         size_t page_sz;
612         unsigned int segs_allocated;
613         unsigned int n_segs;
614         int socket;
615         bool exact;
616 };
617 static int
618 alloc_seg_walk(const struct rte_memseg_list *msl, void *arg)
619 {
620         struct rte_mem_config *mcfg = rte_eal_get_configuration()->mem_config;
621         struct alloc_walk_param *wa = arg;
622         struct rte_memseg_list *cur_msl;
623         size_t page_sz;
624         int cur_idx, start_idx, j;
625         unsigned int msl_idx, need, i;
626
627         if (msl->page_sz != wa->page_sz)
628                 return 0;
629         if (msl->socket_id != wa->socket)
630                 return 0;
631
632         page_sz = (size_t)msl->page_sz;
633
634         msl_idx = msl - mcfg->memsegs;
635         cur_msl = &mcfg->memsegs[msl_idx];
636
637         need = wa->n_segs;
638
639         /* try finding space in memseg list */
640         cur_idx = rte_fbarray_find_next_n_free(&cur_msl->memseg_arr, 0, need);
641         if (cur_idx < 0)
642                 return 0;
643         start_idx = cur_idx;
644
645         for (i = 0; i < need; i++, cur_idx++) {
646                 struct rte_memseg *cur;
647                 void *map_addr;
648
649                 cur = rte_fbarray_get(&cur_msl->memseg_arr, cur_idx);
650                 map_addr = RTE_PTR_ADD(cur_msl->base_va,
651                                 cur_idx * page_sz);
652
653                 if (alloc_seg(cur, map_addr, wa->socket, wa->hi,
654                                 msl_idx, cur_idx)) {
655                         RTE_LOG(DEBUG, EAL, "attempted to allocate %i segments, but only %i were allocated\n",
656                                 need, i);
657
658                         /* if exact number wasn't requested, stop */
659                         if (!wa->exact)
660                                 goto out;
661
662                         /* clean up */
663                         for (j = start_idx; j < cur_idx; j++) {
664                                 struct rte_memseg *tmp;
665                                 struct rte_fbarray *arr =
666                                                 &cur_msl->memseg_arr;
667
668                                 tmp = rte_fbarray_get(arr, j);
669                                 if (free_seg(tmp, wa->hi, msl_idx,
670                                                 start_idx + j)) {
671                                         RTE_LOG(ERR, EAL, "Cannot free page\n");
672                                         continue;
673                                 }
674
675                                 rte_fbarray_set_free(arr, j);
676                         }
677                         /* clear the list */
678                         if (wa->ms)
679                                 memset(wa->ms, 0, sizeof(*wa->ms) * wa->n_segs);
680                         return -1;
681                 }
682                 if (wa->ms)
683                         wa->ms[i] = cur;
684
685                 rte_fbarray_set_used(&cur_msl->memseg_arr, cur_idx);
686         }
687 out:
688         wa->segs_allocated = i;
689         if (i > 0)
690                 cur_msl->version++;
691         return 1;
692 }
693
694 struct free_walk_param {
695         struct hugepage_info *hi;
696         struct rte_memseg *ms;
697 };
698 static int
699 free_seg_walk(const struct rte_memseg_list *msl, void *arg)
700 {
701         struct rte_mem_config *mcfg = rte_eal_get_configuration()->mem_config;
702         struct rte_memseg_list *found_msl;
703         struct free_walk_param *wa = arg;
704         uintptr_t start_addr, end_addr;
705         int msl_idx, seg_idx;
706
707         start_addr = (uintptr_t) msl->base_va;
708         end_addr = start_addr + msl->memseg_arr.len * (size_t)msl->page_sz;
709
710         if ((uintptr_t)wa->ms->addr < start_addr ||
711                         (uintptr_t)wa->ms->addr >= end_addr)
712                 return 0;
713
714         msl_idx = msl - mcfg->memsegs;
715         seg_idx = RTE_PTR_DIFF(wa->ms->addr, start_addr) / msl->page_sz;
716
717         /* msl is const */
718         found_msl = &mcfg->memsegs[msl_idx];
719
720         found_msl->version++;
721
722         rte_fbarray_set_free(&found_msl->memseg_arr, seg_idx);
723
724         if (free_seg(wa->ms, wa->hi, msl_idx, seg_idx))
725                 return -1;
726
727         return 1;
728 }
729
730 int
731 eal_memalloc_alloc_seg_bulk(struct rte_memseg **ms, int n_segs, size_t page_sz,
732                 int socket, bool exact)
733 {
734         int i, ret = -1;
735 #ifdef RTE_EAL_NUMA_AWARE_HUGEPAGES
736         bool have_numa = false;
737         int oldpolicy;
738         struct bitmask *oldmask;
739 #endif
740         struct alloc_walk_param wa;
741         struct hugepage_info *hi = NULL;
742
743         memset(&wa, 0, sizeof(wa));
744
745         /* dynamic allocation not supported in legacy mode */
746         if (internal_config.legacy_mem)
747                 return -1;
748
749         for (i = 0; i < (int) RTE_DIM(internal_config.hugepage_info); i++) {
750                 if (page_sz ==
751                                 internal_config.hugepage_info[i].hugepage_sz) {
752                         hi = &internal_config.hugepage_info[i];
753                         break;
754                 }
755         }
756         if (!hi) {
757                 RTE_LOG(ERR, EAL, "%s(): can't find relevant hugepage_info entry\n",
758                         __func__);
759                 return -1;
760         }
761
762 #ifdef RTE_EAL_NUMA_AWARE_HUGEPAGES
763         if (check_numa()) {
764                 oldmask = numa_allocate_nodemask();
765                 prepare_numa(&oldpolicy, oldmask, socket);
766                 have_numa = true;
767         }
768 #endif
769
770         wa.exact = exact;
771         wa.hi = hi;
772         wa.ms = ms;
773         wa.n_segs = n_segs;
774         wa.page_sz = page_sz;
775         wa.socket = socket;
776         wa.segs_allocated = 0;
777
778         ret = memseg_list_walk_thread_unsafe(alloc_seg_walk, &wa);
779         if (ret == 0) {
780                 RTE_LOG(ERR, EAL, "%s(): couldn't find suitable memseg_list\n",
781                         __func__);
782                 ret = -1;
783         } else if (ret > 0) {
784                 ret = (int)wa.segs_allocated;
785         }
786
787 #ifdef RTE_EAL_NUMA_AWARE_HUGEPAGES
788         if (have_numa)
789                 resotre_numa(&oldpolicy, oldmask);
790 #endif
791         return ret;
792 }
793
794 struct rte_memseg *
795 eal_memalloc_alloc_seg(size_t page_sz, int socket)
796 {
797         struct rte_memseg *ms;
798         if (eal_memalloc_alloc_seg_bulk(&ms, 1, page_sz, socket, true) < 0)
799                 return NULL;
800         /* return pointer to newly allocated memseg */
801         return ms;
802 }
803
804 int
805 eal_memalloc_free_seg_bulk(struct rte_memseg **ms, int n_segs)
806 {
807         int seg, ret = 0;
808
809         /* dynamic free not supported in legacy mode */
810         if (internal_config.legacy_mem)
811                 return -1;
812
813         for (seg = 0; seg < n_segs; seg++) {
814                 struct rte_memseg *cur = ms[seg];
815                 struct hugepage_info *hi = NULL;
816                 struct free_walk_param wa;
817                 int i, walk_res;
818
819                 /* if this page is marked as unfreeable, fail */
820                 if (cur->flags & RTE_MEMSEG_FLAG_DO_NOT_FREE) {
821                         RTE_LOG(DEBUG, EAL, "Page is not allowed to be freed\n");
822                         ret = -1;
823                         continue;
824                 }
825
826                 memset(&wa, 0, sizeof(wa));
827
828                 for (i = 0; i < (int)RTE_DIM(internal_config.hugepage_info);
829                                 i++) {
830                         hi = &internal_config.hugepage_info[i];
831                         if (cur->hugepage_sz == hi->hugepage_sz)
832                                 break;
833                 }
834                 if (i == (int)RTE_DIM(internal_config.hugepage_info)) {
835                         RTE_LOG(ERR, EAL, "Can't find relevant hugepage_info entry\n");
836                         ret = -1;
837                         continue;
838                 }
839
840                 wa.ms = cur;
841                 wa.hi = hi;
842
843                 walk_res = memseg_list_walk_thread_unsafe(free_seg_walk, &wa);
844                 if (walk_res == 1)
845                         continue;
846                 if (walk_res == 0)
847                         RTE_LOG(ERR, EAL, "Couldn't find memseg list\n");
848                 ret = -1;
849         }
850         return ret;
851 }
852
853 int
854 eal_memalloc_free_seg(struct rte_memseg *ms)
855 {
856         /* dynamic free not supported in legacy mode */
857         if (internal_config.legacy_mem)
858                 return -1;
859
860         return eal_memalloc_free_seg_bulk(&ms, 1);
861 }
862
863 static int
864 sync_chunk(struct rte_memseg_list *primary_msl,
865                 struct rte_memseg_list *local_msl, struct hugepage_info *hi,
866                 unsigned int msl_idx, bool used, int start, int end)
867 {
868         struct rte_fbarray *l_arr, *p_arr;
869         int i, ret, chunk_len, diff_len;
870
871         l_arr = &local_msl->memseg_arr;
872         p_arr = &primary_msl->memseg_arr;
873
874         /* we need to aggregate allocations/deallocations into bigger chunks,
875          * as we don't want to spam the user with per-page callbacks.
876          *
877          * to avoid any potential issues, we also want to trigger
878          * deallocation callbacks *before* we actually deallocate
879          * memory, so that the user application could wrap up its use
880          * before it goes away.
881          */
882
883         chunk_len = end - start;
884
885         /* find how many contiguous pages we can map/unmap for this chunk */
886         diff_len = used ?
887                         rte_fbarray_find_contig_free(l_arr, start) :
888                         rte_fbarray_find_contig_used(l_arr, start);
889
890         /* has to be at least one page */
891         if (diff_len < 1)
892                 return -1;
893
894         diff_len = RTE_MIN(chunk_len, diff_len);
895
896         /* if we are freeing memory, notify the application */
897         if (!used) {
898                 struct rte_memseg *ms;
899                 void *start_va;
900                 size_t len, page_sz;
901
902                 ms = rte_fbarray_get(l_arr, start);
903                 start_va = ms->addr;
904                 page_sz = (size_t)primary_msl->page_sz;
905                 len = page_sz * diff_len;
906
907                 eal_memalloc_mem_event_notify(RTE_MEM_EVENT_FREE,
908                                 start_va, len);
909         }
910
911         for (i = 0; i < diff_len; i++) {
912                 struct rte_memseg *p_ms, *l_ms;
913                 int seg_idx = start + i;
914
915                 l_ms = rte_fbarray_get(l_arr, seg_idx);
916                 p_ms = rte_fbarray_get(p_arr, seg_idx);
917
918                 if (l_ms == NULL || p_ms == NULL)
919                         return -1;
920
921                 if (used) {
922                         ret = alloc_seg(l_ms, p_ms->addr,
923                                         p_ms->socket_id, hi,
924                                         msl_idx, seg_idx);
925                         if (ret < 0)
926                                 return -1;
927                         rte_fbarray_set_used(l_arr, seg_idx);
928                 } else {
929                         ret = free_seg(l_ms, hi, msl_idx, seg_idx);
930                         rte_fbarray_set_free(l_arr, seg_idx);
931                         if (ret < 0)
932                                 return -1;
933                 }
934         }
935
936         /* if we just allocated memory, notify the application */
937         if (used) {
938                 struct rte_memseg *ms;
939                 void *start_va;
940                 size_t len, page_sz;
941
942                 ms = rte_fbarray_get(l_arr, start);
943                 start_va = ms->addr;
944                 page_sz = (size_t)primary_msl->page_sz;
945                 len = page_sz * diff_len;
946
947                 eal_memalloc_mem_event_notify(RTE_MEM_EVENT_ALLOC,
948                                 start_va, len);
949         }
950
951         /* calculate how much we can advance until next chunk */
952         diff_len = used ?
953                         rte_fbarray_find_contig_used(l_arr, start) :
954                         rte_fbarray_find_contig_free(l_arr, start);
955         ret = RTE_MIN(chunk_len, diff_len);
956
957         return ret;
958 }
959
960 static int
961 sync_status(struct rte_memseg_list *primary_msl,
962                 struct rte_memseg_list *local_msl, struct hugepage_info *hi,
963                 unsigned int msl_idx, bool used)
964 {
965         struct rte_fbarray *l_arr, *p_arr;
966         int p_idx, l_chunk_len, p_chunk_len, ret;
967         int start, end;
968
969         /* this is a little bit tricky, but the basic idea is - walk both lists
970          * and spot any places where there are discrepancies. walking both lists
971          * and noting discrepancies in a single go is a hard problem, so we do
972          * it in two passes - first we spot any places where allocated segments
973          * mismatch (i.e. ensure that everything that's allocated in the primary
974          * is also allocated in the secondary), and then we do it by looking at
975          * free segments instead.
976          *
977          * we also need to aggregate changes into chunks, as we have to call
978          * callbacks per allocation, not per page.
979          */
980         l_arr = &local_msl->memseg_arr;
981         p_arr = &primary_msl->memseg_arr;
982
983         if (used)
984                 p_idx = rte_fbarray_find_next_used(p_arr, 0);
985         else
986                 p_idx = rte_fbarray_find_next_free(p_arr, 0);
987
988         while (p_idx >= 0) {
989                 int next_chunk_search_idx;
990
991                 if (used) {
992                         p_chunk_len = rte_fbarray_find_contig_used(p_arr,
993                                         p_idx);
994                         l_chunk_len = rte_fbarray_find_contig_used(l_arr,
995                                         p_idx);
996                 } else {
997                         p_chunk_len = rte_fbarray_find_contig_free(p_arr,
998                                         p_idx);
999                         l_chunk_len = rte_fbarray_find_contig_free(l_arr,
1000                                         p_idx);
1001                 }
1002                 /* best case scenario - no differences (or bigger, which will be
1003                  * fixed during next iteration), look for next chunk
1004                  */
1005                 if (l_chunk_len >= p_chunk_len) {
1006                         next_chunk_search_idx = p_idx + p_chunk_len;
1007                         goto next_chunk;
1008                 }
1009
1010                 /* if both chunks start at the same point, skip parts we know
1011                  * are identical, and sync the rest. each call to sync_chunk
1012                  * will only sync contiguous segments, so we need to call this
1013                  * until we are sure there are no more differences in this
1014                  * chunk.
1015                  */
1016                 start = p_idx + l_chunk_len;
1017                 end = p_idx + p_chunk_len;
1018                 do {
1019                         ret = sync_chunk(primary_msl, local_msl, hi, msl_idx,
1020                                         used, start, end);
1021                         start += ret;
1022                 } while (start < end && ret >= 0);
1023                 /* if ret is negative, something went wrong */
1024                 if (ret < 0)
1025                         return -1;
1026
1027                 next_chunk_search_idx = p_idx + p_chunk_len;
1028 next_chunk:
1029                 /* skip to end of this chunk */
1030                 if (used) {
1031                         p_idx = rte_fbarray_find_next_used(p_arr,
1032                                         next_chunk_search_idx);
1033                 } else {
1034                         p_idx = rte_fbarray_find_next_free(p_arr,
1035                                         next_chunk_search_idx);
1036                 }
1037         }
1038         return 0;
1039 }
1040
1041 static int
1042 sync_existing(struct rte_memseg_list *primary_msl,
1043                 struct rte_memseg_list *local_msl, struct hugepage_info *hi,
1044                 unsigned int msl_idx)
1045 {
1046         int ret;
1047
1048         /* ensure all allocated space is the same in both lists */
1049         ret = sync_status(primary_msl, local_msl, hi, msl_idx, true);
1050         if (ret < 0)
1051                 return -1;
1052
1053         /* ensure all unallocated space is the same in both lists */
1054         ret = sync_status(primary_msl, local_msl, hi, msl_idx, false);
1055         if (ret < 0)
1056                 return -1;
1057
1058         /* update version number */
1059         local_msl->version = primary_msl->version;
1060
1061         return 0;
1062 }
1063
1064 static int
1065 sync_walk(const struct rte_memseg_list *msl, void *arg __rte_unused)
1066 {
1067         struct rte_mem_config *mcfg = rte_eal_get_configuration()->mem_config;
1068         struct rte_memseg_list *primary_msl, *local_msl;
1069         struct hugepage_info *hi = NULL;
1070         unsigned int i;
1071         int msl_idx;
1072         bool new_msl = false;
1073
1074         msl_idx = msl - mcfg->memsegs;
1075         primary_msl = &mcfg->memsegs[msl_idx];
1076         local_msl = &local_memsegs[msl_idx];
1077
1078         /* check if secondary has this memseg list set up */
1079         if (local_msl->base_va == NULL) {
1080                 char name[PATH_MAX];
1081                 int ret;
1082                 new_msl = true;
1083
1084                 /* create distinct fbarrays for each secondary */
1085                 snprintf(name, RTE_FBARRAY_NAME_LEN, "%s_%i",
1086                         primary_msl->memseg_arr.name, getpid());
1087
1088                 ret = rte_fbarray_init(&local_msl->memseg_arr, name,
1089                         primary_msl->memseg_arr.len,
1090                         primary_msl->memseg_arr.elt_sz);
1091                 if (ret < 0) {
1092                         RTE_LOG(ERR, EAL, "Cannot initialize local memory map\n");
1093                         return -1;
1094                 }
1095
1096                 local_msl->base_va = primary_msl->base_va;
1097         }
1098
1099         for (i = 0; i < RTE_DIM(internal_config.hugepage_info); i++) {
1100                 uint64_t cur_sz =
1101                         internal_config.hugepage_info[i].hugepage_sz;
1102                 uint64_t msl_sz = primary_msl->page_sz;
1103                 if (msl_sz == cur_sz) {
1104                         hi = &internal_config.hugepage_info[i];
1105                         break;
1106                 }
1107         }
1108         if (!hi) {
1109                 RTE_LOG(ERR, EAL, "Can't find relevant hugepage_info entry\n");
1110                 return -1;
1111         }
1112
1113         /* if versions don't match or if we have just allocated a new
1114          * memseg list, synchronize everything
1115          */
1116         if ((new_msl || local_msl->version != primary_msl->version) &&
1117                         sync_existing(primary_msl, local_msl, hi, msl_idx))
1118                 return -1;
1119         return 0;
1120 }
1121
1122
1123 int
1124 eal_memalloc_sync_with_primary(void)
1125 {
1126         /* nothing to be done in primary */
1127         if (rte_eal_process_type() == RTE_PROC_PRIMARY)
1128                 return 0;
1129
1130         if (memseg_list_walk_thread_unsafe(sync_walk, NULL))
1131                 return -1;
1132         return 0;
1133 }