tests more consistent
[protos/libecoli.git] / lib / ecoli_node_re_lex.c
1 #include <stdio.h>
2 #include <stdlib.h>
3 #include <stdbool.h>
4 #include <string.h>
5 #include <regex.h>
6 #include <errno.h>
7
8 #include <ecoli_malloc.h>
9 #include <ecoli_log.h>
10 #include <ecoli_test.h>
11 #include <ecoli_strvec.h>
12 #include <ecoli_node.h>
13 #include <ecoli_parsed.h>
14 #include <ecoli_node_many.h>
15 #include <ecoli_node_or.h>
16 #include <ecoli_node_str.h>
17 #include <ecoli_node_int.h>
18 #include <ecoli_node_re_lex.h>
19
20 EC_LOG_TYPE_REGISTER(node_re_lex);
21
22 struct regexp_pattern {
23         char *pattern;
24         regex_t r;
25         bool keep;
26 };
27
28 struct ec_node_re_lex {
29         struct ec_node gen;
30         struct ec_node *child;
31         struct regexp_pattern *table;
32         size_t len;
33 };
34
35 static struct ec_strvec *
36 tokenize(struct regexp_pattern *table, size_t table_len, const char *str)
37 {
38         struct ec_strvec *strvec = NULL;
39         char *dup = NULL;
40         char c;
41         size_t len, off = 0;
42         size_t i;
43         int ret;
44         regmatch_t pos;
45
46         dup = ec_strdup(str);
47         if (dup == NULL)
48                 goto fail;
49
50         strvec = ec_strvec();
51         if (strvec == NULL)
52                 goto fail;
53
54         len = strlen(dup);
55         while (off < len) {
56                 for (i = 0; i < table_len; i++) {
57                         ret = regexec(&table[i].r, &dup[off], 1, &pos, 0);
58                         if (ret != 0)
59                                 continue;
60                         if (pos.rm_so != 0 || pos.rm_eo == 0) {
61                                 ret = -1;
62                                 continue;
63                         }
64
65                         if (table[i].keep == 0)
66                                 break;
67
68                         c = dup[pos.rm_eo + off];
69                         dup[pos.rm_eo + off] = '\0';
70                         EC_LOG(EC_LOG_DEBUG, "re_lex match <%s>\n", &dup[off]);
71                         if (ec_strvec_add(strvec, &dup[off]) < 0)
72                                 goto fail;
73
74                         dup[pos.rm_eo + off] = c;
75                         break;
76                 }
77
78                 if (ret != 0)
79                         goto fail;
80
81                 off += pos.rm_eo;
82         }
83
84         ec_free(dup);
85         return strvec;
86
87 fail:
88         ec_free(dup);
89         ec_strvec_free(strvec);
90         return NULL;
91 }
92
93 static int
94 ec_node_re_lex_parse(const struct ec_node *gen_node,
95                 struct ec_parsed *state,
96                 const struct ec_strvec *strvec)
97 {
98         struct ec_node_re_lex *node = (struct ec_node_re_lex *)gen_node;
99         struct ec_strvec *new_vec = NULL;
100         struct ec_parsed *child_parsed;
101         const char *str;
102         int ret;
103
104         if (ec_strvec_len(strvec) == 0) {
105                 new_vec = ec_strvec();
106         } else {
107                 str = ec_strvec_val(strvec, 0);
108                 new_vec = tokenize(node->table, node->len, str);
109         }
110         if (new_vec == NULL) {
111                 ret = -ENOMEM;
112                 goto fail;
113         }
114
115         ret = ec_node_parse_child(node->child, state, new_vec);
116         if (ret < 0)
117                 goto fail;
118
119         if ((unsigned)ret == ec_strvec_len(new_vec)) {
120                 ret = 1;
121         } else if (ret != EC_PARSED_NOMATCH) {
122                 child_parsed = ec_parsed_get_last_child(state);
123                 ec_parsed_del_child(state, child_parsed);
124                 ec_parsed_free(child_parsed);
125                 ret = EC_PARSED_NOMATCH;
126         }
127
128         ec_strvec_free(new_vec);
129         new_vec = NULL;
130
131         return ret;
132
133  fail:
134         ec_strvec_free(new_vec);
135         return ret;
136 }
137
138 static void ec_node_re_lex_free_priv(struct ec_node *gen_node)
139 {
140         struct ec_node_re_lex *node = (struct ec_node_re_lex *)gen_node;
141         unsigned int i;
142
143         for (i = 0; i < node->len; i++) {
144                 ec_free(node->table[i].pattern);
145                 regfree(&node->table[i].r);
146         }
147
148         ec_free(node->table);
149         ec_node_free(node->child);
150 }
151
152 static struct ec_node_type ec_node_re_lex_type = {
153         .name = "re_lex",
154         .parse = ec_node_re_lex_parse,
155         //.complete = ec_node_re_lex_complete, //XXX
156         .size = sizeof(struct ec_node_re_lex),
157         .free_priv = ec_node_re_lex_free_priv,
158 };
159
160 EC_NODE_TYPE_REGISTER(ec_node_re_lex_type);
161
162 int ec_node_re_lex_add(struct ec_node *gen_node, const char *pattern, int keep)
163 {
164         struct ec_node_re_lex *node = (struct ec_node_re_lex *)gen_node;
165         struct regexp_pattern *table;
166         int ret;
167         char *pat_dup = NULL;
168
169         ret = -ENOMEM;
170         pat_dup = ec_strdup(pattern);
171         if (pat_dup == NULL)
172                 goto fail;
173
174         ret = -ENOMEM;
175         table = ec_realloc(node->table, sizeof(*table) * (node->len + 1));
176         if (table == NULL)
177                 goto fail;
178
179         ret = regcomp(&table[node->len].r, pattern, REG_EXTENDED);
180         if (ret != 0) {
181                 EC_LOG(EC_LOG_ERR,
182                         "Regular expression <%s> compilation failed: %d\n",
183                         pattern, ret);
184                 if (ret == REG_ESPACE)
185                         ret = -ENOMEM;
186                 else
187                         ret = -EINVAL;
188
189                 goto fail;
190         }
191
192         table[node->len].pattern = pat_dup;
193         table[node->len].keep = keep;
194         node->len++;
195         node->table = table;
196
197         return 0;
198
199 fail:
200         ec_free(pat_dup);
201         return ret;
202 }
203
204 struct ec_node *ec_node_re_lex(const char *id, struct ec_node *child)
205 {
206         struct ec_node_re_lex *node = NULL;
207
208         if (child == NULL)
209                 return NULL;
210
211         node = (struct ec_node_re_lex *)__ec_node(&ec_node_re_lex_type, id);
212         if (node == NULL) {
213                 ec_node_free(child);
214                 return NULL;
215         }
216
217         node->child = child;
218
219         return &node->gen;
220 }
221
222 /* LCOV_EXCL_START */
223 static int ec_node_re_lex_testcase(void)
224 {
225         struct ec_node *node;
226         int ret, testres = 0;
227
228         node = ec_node_re_lex(EC_NO_ID,
229                 ec_node_many(EC_NO_ID,
230                         EC_NODE_OR(EC_NO_ID,
231                                 ec_node_str(EC_NO_ID, "foo"),
232                                 ec_node_str(EC_NO_ID, "bar"),
233                                 ec_node_int(EC_NO_ID, 0, 1000, 0)
234                         ), 0, 0
235                 )
236         );
237         if (node == NULL) {
238                 EC_LOG(EC_LOG_ERR, "cannot create node\n");
239                 return -1;
240         }
241
242         ret = ec_node_re_lex_add(node, "[a-zA-Z]+", 1);
243         testres |= EC_TEST_CHECK(ret == 0, "cannot add regexp");
244         ret = ec_node_re_lex_add(node, "[0-9]+", 1);
245         testres |= EC_TEST_CHECK(ret == 0, "cannot add regexp");
246         ret = ec_node_re_lex_add(node, "=", 1);
247         testres |= EC_TEST_CHECK(ret == 0, "cannot add regexp");
248         ret = ec_node_re_lex_add(node, "-", 1);
249         testres |= EC_TEST_CHECK(ret == 0, "cannot add regexp");
250         ret = ec_node_re_lex_add(node, "\\+", 1);
251         testres |= EC_TEST_CHECK(ret == 0, "cannot add regexp");
252         ret = ec_node_re_lex_add(node, "[       ]+", 0);
253         testres |= EC_TEST_CHECK(ret == 0, "cannot add regexp");
254         if (ret != 0) {
255                 EC_LOG(EC_LOG_ERR, "cannot add regexp to node\n");
256                 ec_node_free(node);
257                 return -1;
258         }
259
260         testres |= EC_TEST_CHECK_PARSE(node, 1, "  foo bar  324 bar234");
261         testres |= EC_TEST_CHECK_PARSE(node, 1, "foo bar324");
262         testres |= EC_TEST_CHECK_PARSE(node, 1, "");
263         testres |= EC_TEST_CHECK_PARSE(node, -1, "foobar");
264
265         ec_node_free(node);
266
267         return testres;
268 }
269 /* LCOV_EXCL_STOP */
270
271 static struct ec_test ec_node_re_lex_test = {
272         .name = "node_re_lex",
273         .test = ec_node_re_lex_testcase,
274 };
275
276 EC_TEST_REGISTER(ec_node_re_lex_test);