pipeline: fix endianness conversions
authorCristian Dumitrescu <cristian.dumitrescu@intel.com>
Sat, 3 Apr 2021 00:17:09 +0000 (01:17 +0100)
committerThomas Monjalon <thomas@monjalon.net>
Tue, 20 Apr 2021 00:34:16 +0000 (02:34 +0200)
The SWX pipeline instructions work with operands of different types:
header fields (h.header.field), packet meta-data (m.field), extern
object mailbox field (e.obj.field), extern function (f.field), action
data read from table entries (t.field), or immediate values; hence the
HMEFTI acronym. The H operands are stored in network byte order (NBO),
while the MEFT operands are stored in host byte order (HBO), hence the
need to operate endianness conversions.

Some of the endianness conversion macros were not working correctly
for some cases such as operands of different sizes, and they are fixed
now. Affected instructions: mov, and, or, xor, jmpeq, jmpneq.

Fixes: 7210349d5baa ("pipeline: add SWX move instruction")
Fixes: 650195cf965a ("pipeline: introduce SWX and instruction")
Fixes: 8f796198dcda ("pipeline: introduce SWX or instruction")
Fixes: b4e607f9fd5e ("pipeline: introduce SWX XOR instruction")
Fixes: b3947e25bed4 ("pipeline: introduce SWX jump and return instructions")
Cc: stable@dpdk.org
Signed-off-by: Cristian Dumitrescu <cristian.dumitrescu@intel.com>
lib/librte_pipeline/rte_swx_pipeline.c

index 2956dde..e17b449 100644 (file)
@@ -318,9 +318,11 @@ enum instruction_type {
         * dst = src
         * dst = HMEF, src = HMEFTI
         */
         * dst = src
         * dst = HMEF, src = HMEFTI
         */
-       INSTR_MOV,   /* dst = MEF, src = MEFT */
-       INSTR_MOV_S, /* (dst, src) = (MEF, H) or (dst, src) = (H, MEFT) */
-       INSTR_MOV_I, /* dst = HMEF, src = I */
+       INSTR_MOV,    /* dst = MEF, src = MEFT */
+       INSTR_MOV_MH, /* dst = MEF, src = H */
+       INSTR_MOV_HM, /* dst = H, src = MEFT */
+       INSTR_MOV_HH, /* dst = H, src = H */
+       INSTR_MOV_I,  /* dst = HMEF, src = I */
 
        /* dma h.header t.field
         * memcpy(h.header, t.field, sizeof(h.header))
 
        /* dma h.header t.field
         * memcpy(h.header, t.field, sizeof(h.header))
@@ -374,25 +376,31 @@ enum instruction_type {
         * dst &= src
         * dst = HMEF, src = HMEFTI
         */
         * dst &= src
         * dst = HMEF, src = HMEFTI
         */
-       INSTR_ALU_AND,   /* dst = MEF, src = MEFT */
-       INSTR_ALU_AND_S, /* (dst, src) = (MEF, H) or (dst, src) = (H, MEFT) */
-       INSTR_ALU_AND_I, /* dst = HMEF, src = I */
+       INSTR_ALU_AND,    /* dst = MEF, src = MEFT */
+       INSTR_ALU_AND_MH, /* dst = MEF, src = H */
+       INSTR_ALU_AND_HM, /* dst = H, src = MEFT */
+       INSTR_ALU_AND_HH, /* dst = H, src = H */
+       INSTR_ALU_AND_I,  /* dst = HMEF, src = I */
 
        /* or dst src
         * dst |= src
         * dst = HMEF, src = HMEFTI
         */
 
        /* or dst src
         * dst |= src
         * dst = HMEF, src = HMEFTI
         */
-       INSTR_ALU_OR,   /* dst = MEF, src = MEFT */
-       INSTR_ALU_OR_S, /* (dst, src) = (MEF, H) or (dst, src) = (H, MEFT) */
-       INSTR_ALU_OR_I, /* dst = HMEF, src = I */
+       INSTR_ALU_OR,    /* dst = MEF, src = MEFT */
+       INSTR_ALU_OR_MH, /* dst = MEF, src = H */
+       INSTR_ALU_OR_HM, /* dst = H, src = MEFT */
+       INSTR_ALU_OR_HH, /* dst = H, src = H */
+       INSTR_ALU_OR_I,  /* dst = HMEF, src = I */
 
        /* xor dst src
         * dst ^= src
         * dst = HMEF, src = HMEFTI
         */
 
        /* xor dst src
         * dst ^= src
         * dst = HMEF, src = HMEFTI
         */
-       INSTR_ALU_XOR,   /* dst = MEF, src = MEFT */
-       INSTR_ALU_XOR_S, /* (dst, src) = (MEF, H) or (dst, src) = (H, MEFT) */
-       INSTR_ALU_XOR_I, /* dst = HMEF, src = I */
+       INSTR_ALU_XOR,    /* dst = MEF, src = MEFT */
+       INSTR_ALU_XOR_MH, /* dst = MEF, src = H */
+       INSTR_ALU_XOR_HM, /* dst = H, src = MEFT */
+       INSTR_ALU_XOR_HH, /* dst = H, src = H */
+       INSTR_ALU_XOR_I,  /* dst = HMEF, src = I */
 
        /* shl dst src
         * dst <<= src
 
        /* shl dst src
         * dst <<= src
@@ -533,41 +541,45 @@ enum instruction_type {
        INSTR_JMP_ACTION_MISS,
 
        /* jmpeq LABEL a b
        INSTR_JMP_ACTION_MISS,
 
        /* jmpeq LABEL a b
-        * Jump is a is equal to b
+        * Jump if a is equal to b
         * a = HMEFT, b = HMEFTI
         */
         * a = HMEFT, b = HMEFTI
         */
-       INSTR_JMP_EQ,   /* (a, b) = (MEFT, MEFT) or (a, b) = (H, H) */
-       INSTR_JMP_EQ_S, /* (a, b) = (MEFT, H) or (a, b) = (H, MEFT) */
-       INSTR_JMP_EQ_I, /* (a, b) = (MEFT, I) or (a, b) = (H, I) */
+       INSTR_JMP_EQ,    /* a = MEFT, b = MEFT */
+       INSTR_JMP_EQ_MH, /* a = MEFT, b = H */
+       INSTR_JMP_EQ_HM, /* a = H, b = MEFT */
+       INSTR_JMP_EQ_HH, /* a = H, b = H */
+       INSTR_JMP_EQ_I,  /* (a, b) = (MEFT, I) or (a, b) = (H, I) */
 
        /* jmpneq LABEL a b
 
        /* jmpneq LABEL a b
-        * Jump is a is not equal to b
+        * Jump if a is not equal to b
         * a = HMEFT, b = HMEFTI
         */
         * a = HMEFT, b = HMEFTI
         */
-       INSTR_JMP_NEQ,   /* (a, b) = (MEFT, MEFT) or (a, b) = (H, H) */
-       INSTR_JMP_NEQ_S, /* (a, b) = (MEFT, H) or (a, b) = (H, MEFT) */
-       INSTR_JMP_NEQ_I, /* (a, b) = (MEFT, I) or (a, b) = (H, I) */
+       INSTR_JMP_NEQ,    /* a = MEFT, b = MEFT */
+       INSTR_JMP_NEQ_MH, /* a = MEFT, b = H */
+       INSTR_JMP_NEQ_HM, /* a = H, b = MEFT */
+       INSTR_JMP_NEQ_HH, /* a = H, b = H */
+       INSTR_JMP_NEQ_I,  /* (a, b) = (MEFT, I) or (a, b) = (H, I) */
 
        /* jmplt LABEL a b
         * Jump if a is less than b
         * a = HMEFT, b = HMEFTI
         */
 
        /* jmplt LABEL a b
         * Jump if a is less than b
         * a = HMEFT, b = HMEFTI
         */
-       INSTR_JMP_LT,    /* a = MEF, b = MEF */
-       INSTR_JMP_LT_MH, /* a = MEF, b = H */
-       INSTR_JMP_LT_HM, /* a = H, b = MEF */
+       INSTR_JMP_LT,    /* a = MEFT, b = MEFT */
+       INSTR_JMP_LT_MH, /* a = MEFT, b = H */
+       INSTR_JMP_LT_HM, /* a = H, b = MEFT */
        INSTR_JMP_LT_HH, /* a = H, b = H */
        INSTR_JMP_LT_HH, /* a = H, b = H */
-       INSTR_JMP_LT_MI, /* a = MEF, b = I */
+       INSTR_JMP_LT_MI, /* a = MEFT, b = I */
        INSTR_JMP_LT_HI, /* a = H, b = I */
 
        /* jmpgt LABEL a b
         * Jump if a is greater than b
         * a = HMEFT, b = HMEFTI
         */
        INSTR_JMP_LT_HI, /* a = H, b = I */
 
        /* jmpgt LABEL a b
         * Jump if a is greater than b
         * a = HMEFT, b = HMEFTI
         */
-       INSTR_JMP_GT,    /* a = MEF, b = MEF */
-       INSTR_JMP_GT_MH, /* a = MEF, b = H */
-       INSTR_JMP_GT_HM, /* a = H, b = MEF */
+       INSTR_JMP_GT,    /* a = MEFT, b = MEFT */
+       INSTR_JMP_GT_MH, /* a = MEFT, b = H */
+       INSTR_JMP_GT_HM, /* a = H, b = MEFT */
        INSTR_JMP_GT_HH, /* a = H, b = H */
        INSTR_JMP_GT_HH, /* a = H, b = H */
-       INSTR_JMP_GT_MI, /* a = MEF, b = I */
+       INSTR_JMP_GT_MI, /* a = MEFT, b = I */
        INSTR_JMP_GT_HI, /* a = H, b = I */
 
        /* return
        INSTR_JMP_GT_HI, /* a = H, b = I */
 
        /* return
@@ -901,7 +913,7 @@ struct thread {
 
 #if RTE_BYTE_ORDER == RTE_LITTLE_ENDIAN
 
 
 #if RTE_BYTE_ORDER == RTE_LITTLE_ENDIAN
 
-#define ALU_S(thread, ip, operator)  \
+#define ALU_MH(thread, ip, operator)  \
 {                                                                              \
        uint8_t *dst_struct = (thread)->structs[(ip)->alu.dst.struct_id];      \
        uint64_t *dst64_ptr = (uint64_t *)&dst_struct[(ip)->alu.dst.offset];   \
 {                                                                              \
        uint8_t *dst_struct = (thread)->structs[(ip)->alu.dst.struct_id];      \
        uint64_t *dst64_ptr = (uint64_t *)&dst_struct[(ip)->alu.dst.offset];   \
@@ -919,8 +931,6 @@ struct thread {
        *dst64_ptr = (dst64 & ~dst64_mask) | (result & dst64_mask);            \
 }
 
        *dst64_ptr = (dst64 & ~dst64_mask) | (result & dst64_mask);            \
 }
 
-#define ALU_MH ALU_S
-
 #define ALU_HM(thread, ip, operator)  \
 {                                                                              \
        uint8_t *dst_struct = (thread)->structs[(ip)->alu.dst.struct_id];      \
 #define ALU_HM(thread, ip, operator)  \
 {                                                                              \
        uint8_t *dst_struct = (thread)->structs[(ip)->alu.dst.struct_id];      \
@@ -941,6 +951,25 @@ struct thread {
        *dst64_ptr = (dst64 & ~dst64_mask) | result;                           \
 }
 
        *dst64_ptr = (dst64 & ~dst64_mask) | result;                           \
 }
 
+#define ALU_HM_FAST(thread, ip, operator)  \
+{                                                                                 \
+       uint8_t *dst_struct = (thread)->structs[(ip)->alu.dst.struct_id];         \
+       uint64_t *dst64_ptr = (uint64_t *)&dst_struct[(ip)->alu.dst.offset];      \
+       uint64_t dst64 = *dst64_ptr;                                              \
+       uint64_t dst64_mask = UINT64_MAX >> (64 - (ip)->alu.dst.n_bits);          \
+       uint64_t dst = dst64 & dst64_mask;                                        \
+                                                                                 \
+       uint8_t *src_struct = (thread)->structs[(ip)->alu.src.struct_id];         \
+       uint64_t *src64_ptr = (uint64_t *)&src_struct[(ip)->alu.src.offset];      \
+       uint64_t src64 = *src64_ptr;                                              \
+       uint64_t src64_mask = UINT64_MAX >> (64 - (ip)->alu.src.n_bits);          \
+       uint64_t src = hton64(src64 & src64_mask) >> (64 - (ip)->alu.dst.n_bits); \
+                                                                                 \
+       uint64_t result = dst operator src;                                       \
+                                                                                 \
+       *dst64_ptr = (dst64 & ~dst64_mask) | result;                              \
+}
+
 #define ALU_HH(thread, ip, operator)  \
 {                                                                              \
        uint8_t *dst_struct = (thread)->structs[(ip)->alu.dst.struct_id];      \
 #define ALU_HH(thread, ip, operator)  \
 {                                                                              \
        uint8_t *dst_struct = (thread)->structs[(ip)->alu.dst.struct_id];      \
@@ -960,12 +989,31 @@ struct thread {
        *dst64_ptr = (dst64 & ~dst64_mask) | result;                           \
 }
 
        *dst64_ptr = (dst64 & ~dst64_mask) | result;                           \
 }
 
+#define ALU_HH_FAST(thread, ip, operator)  \
+{                                                                                             \
+       uint8_t *dst_struct = (thread)->structs[(ip)->alu.dst.struct_id];                     \
+       uint64_t *dst64_ptr = (uint64_t *)&dst_struct[(ip)->alu.dst.offset];                  \
+       uint64_t dst64 = *dst64_ptr;                                                          \
+       uint64_t dst64_mask = UINT64_MAX >> (64 - (ip)->alu.dst.n_bits);                      \
+       uint64_t dst = dst64 & dst64_mask;                                                    \
+                                                                                             \
+       uint8_t *src_struct = (thread)->structs[(ip)->alu.src.struct_id];                     \
+       uint64_t *src64_ptr = (uint64_t *)&src_struct[(ip)->alu.src.offset];                  \
+       uint64_t src64 = *src64_ptr;                                                          \
+       uint64_t src = (src64 << (64 - (ip)->alu.src.n_bits)) >> (64 - (ip)->alu.dst.n_bits); \
+                                                                                             \
+       uint64_t result = dst operator src;                                                   \
+                                                                                             \
+       *dst64_ptr = (dst64 & ~dst64_mask) | result;                                          \
+}
+
 #else
 
 #else
 
-#define ALU_S ALU
 #define ALU_MH ALU
 #define ALU_HM ALU
 #define ALU_MH ALU
 #define ALU_HM ALU
+#define ALU_HM_FAST ALU
 #define ALU_HH ALU
 #define ALU_HH ALU
+#define ALU_HH_FAST ALU
 
 #endif
 
 
 #endif
 
@@ -1028,7 +1076,7 @@ struct thread {
 
 #if RTE_BYTE_ORDER == RTE_LITTLE_ENDIAN
 
 
 #if RTE_BYTE_ORDER == RTE_LITTLE_ENDIAN
 
-#define MOV_S(thread, ip)  \
+#define MOV_MH(thread, ip)  \
 {                                                                              \
        uint8_t *dst_struct = (thread)->structs[(ip)->mov.dst.struct_id];      \
        uint64_t *dst64_ptr = (uint64_t *)&dst_struct[(ip)->mov.dst.offset];   \
 {                                                                              \
        uint8_t *dst_struct = (thread)->structs[(ip)->mov.dst.struct_id];      \
        uint64_t *dst64_ptr = (uint64_t *)&dst_struct[(ip)->mov.dst.offset];   \
@@ -1043,9 +1091,44 @@ struct thread {
        *dst64_ptr = (dst64 & ~dst64_mask) | (src & dst64_mask);               \
 }
 
        *dst64_ptr = (dst64 & ~dst64_mask) | (src & dst64_mask);               \
 }
 
+#define MOV_HM(thread, ip)  \
+{                                                                              \
+       uint8_t *dst_struct = (thread)->structs[(ip)->mov.dst.struct_id];      \
+       uint64_t *dst64_ptr = (uint64_t *)&dst_struct[(ip)->mov.dst.offset];   \
+       uint64_t dst64 = *dst64_ptr;                                           \
+       uint64_t dst64_mask = UINT64_MAX >> (64 - (ip)->mov.dst.n_bits);       \
+                                                                              \
+       uint8_t *src_struct = (thread)->structs[(ip)->mov.src.struct_id];      \
+       uint64_t *src64_ptr = (uint64_t *)&src_struct[(ip)->mov.src.offset];   \
+       uint64_t src64 = *src64_ptr;                                           \
+       uint64_t src64_mask = UINT64_MAX >> (64 - (ip)->mov.src.n_bits);       \
+       uint64_t src = src64 & src64_mask;                                     \
+                                                                              \
+       src = hton64(src) >> (64 - (ip)->mov.dst.n_bits);                      \
+       *dst64_ptr = (dst64 & ~dst64_mask) | src;                              \
+}
+
+#define MOV_HH(thread, ip)  \
+{                                                                              \
+       uint8_t *dst_struct = (thread)->structs[(ip)->mov.dst.struct_id];      \
+       uint64_t *dst64_ptr = (uint64_t *)&dst_struct[(ip)->mov.dst.offset];   \
+       uint64_t dst64 = *dst64_ptr;                                           \
+       uint64_t dst64_mask = UINT64_MAX >> (64 - (ip)->mov.dst.n_bits);       \
+                                                                              \
+       uint8_t *src_struct = (thread)->structs[(ip)->mov.src.struct_id];      \
+       uint64_t *src64_ptr = (uint64_t *)&src_struct[(ip)->mov.src.offset];   \
+       uint64_t src64 = *src64_ptr;                                           \
+                                                                              \
+       uint64_t src = src64 << (64 - (ip)->mov.src.n_bits);                   \
+       src = src >> (64 - (ip)->mov.dst.n_bits);                              \
+       *dst64_ptr = (dst64 & ~dst64_mask) | src;                              \
+}
+
 #else
 
 #else
 
-#define MOV_S MOV
+#define MOV_MH MOV
+#define MOV_HM MOV
+#define MOV_HH MOV
 
 #endif
 
 
 #endif
 
@@ -1080,7 +1163,7 @@ struct thread {
 
 #if RTE_BYTE_ORDER == RTE_LITTLE_ENDIAN
 
 
 #if RTE_BYTE_ORDER == RTE_LITTLE_ENDIAN
 
-#define JMP_CMP_S(thread, ip, operator)  \
+#define JMP_CMP_MH(thread, ip, operator)  \
 {                                                                              \
        uint8_t *a_struct = (thread)->structs[(ip)->jmp.a.struct_id];          \
        uint64_t *a64_ptr = (uint64_t *)&a_struct[(ip)->jmp.a.offset];         \
 {                                                                              \
        uint8_t *a_struct = (thread)->structs[(ip)->jmp.a.struct_id];          \
        uint64_t *a64_ptr = (uint64_t *)&a_struct[(ip)->jmp.a.offset];         \
@@ -1096,8 +1179,6 @@ struct thread {
        (thread)->ip = (a operator b) ? (ip)->jmp.ip : ((thread)->ip + 1);     \
 }
 
        (thread)->ip = (a operator b) ? (ip)->jmp.ip : ((thread)->ip + 1);     \
 }
 
-#define JMP_CMP_MH JMP_CMP_S
-
 #define JMP_CMP_HM(thread, ip, operator)  \
 {                                                                              \
        uint8_t *a_struct = (thread)->structs[(ip)->jmp.a.struct_id];          \
 #define JMP_CMP_HM(thread, ip, operator)  \
 {                                                                              \
        uint8_t *a_struct = (thread)->structs[(ip)->jmp.a.struct_id];          \
@@ -1129,12 +1210,27 @@ struct thread {
        (thread)->ip = (a operator b) ? (ip)->jmp.ip : ((thread)->ip + 1);     \
 }
 
        (thread)->ip = (a operator b) ? (ip)->jmp.ip : ((thread)->ip + 1);     \
 }
 
+#define JMP_CMP_HH_FAST(thread, ip, operator)  \
+{                                                                              \
+       uint8_t *a_struct = (thread)->structs[(ip)->jmp.a.struct_id];          \
+       uint64_t *a64_ptr = (uint64_t *)&a_struct[(ip)->jmp.a.offset];         \
+       uint64_t a64 = *a64_ptr;                                               \
+       uint64_t a = a64 << (64 - (ip)->jmp.a.n_bits);                         \
+                                                                              \
+       uint8_t *b_struct = (thread)->structs[(ip)->jmp.b.struct_id];          \
+       uint64_t *b64_ptr = (uint64_t *)&b_struct[(ip)->jmp.b.offset];         \
+       uint64_t b64 = *b64_ptr;                                               \
+       uint64_t b = b64 << (64 - (ip)->jmp.b.n_bits);                         \
+                                                                              \
+       (thread)->ip = (a operator b) ? (ip)->jmp.ip : ((thread)->ip + 1);     \
+}
+
 #else
 
 #else
 
-#define JMP_CMP_S JMP_CMP
 #define JMP_CMP_MH JMP_CMP
 #define JMP_CMP_HM JMP_CMP
 #define JMP_CMP_HH JMP_CMP
 #define JMP_CMP_MH JMP_CMP
 #define JMP_CMP_HM JMP_CMP
 #define JMP_CMP_HH JMP_CMP
+#define JMP_CMP_HH_FAST JMP_CMP
 
 #endif
 
 
 #endif
 
@@ -2529,10 +2625,14 @@ instruction_is_jmp(struct instruction *instr)
        case INSTR_JMP_ACTION_HIT:
        case INSTR_JMP_ACTION_MISS:
        case INSTR_JMP_EQ:
        case INSTR_JMP_ACTION_HIT:
        case INSTR_JMP_ACTION_MISS:
        case INSTR_JMP_EQ:
-       case INSTR_JMP_EQ_S:
+       case INSTR_JMP_EQ_MH:
+       case INSTR_JMP_EQ_HM:
+       case INSTR_JMP_EQ_HH:
        case INSTR_JMP_EQ_I:
        case INSTR_JMP_NEQ:
        case INSTR_JMP_EQ_I:
        case INSTR_JMP_NEQ:
-       case INSTR_JMP_NEQ_S:
+       case INSTR_JMP_NEQ_MH:
+       case INSTR_JMP_NEQ_HM:
+       case INSTR_JMP_NEQ_HH:
        case INSTR_JMP_NEQ_I:
        case INSTR_JMP_LT:
        case INSTR_JMP_LT_MH:
        case INSTR_JMP_NEQ_I:
        case INSTR_JMP_LT:
        case INSTR_JMP_LT_MH:
@@ -3518,13 +3618,16 @@ instr_mov_translate(struct rte_swx_pipeline *p,
        fdst = struct_field_parse(p, NULL, dst, &dst_struct_id);
        CHECK(fdst, EINVAL);
 
        fdst = struct_field_parse(p, NULL, dst, &dst_struct_id);
        CHECK(fdst, EINVAL);
 
-       /* MOV or MOV_S. */
+       /* MOV, MOV_MH, MOV_HM or MOV_HH. */
        fsrc = struct_field_parse(p, action, src, &src_struct_id);
        if (fsrc) {
                instr->type = INSTR_MOV;
        fsrc = struct_field_parse(p, action, src, &src_struct_id);
        if (fsrc) {
                instr->type = INSTR_MOV;
-               if ((dst[0] == 'h' && src[0] != 'h') ||
-                   (dst[0] != 'h' && src[0] == 'h'))
-                       instr->type = INSTR_MOV_S;
+               if (dst[0] != 'h' && src[0] == 'h')
+                       instr->type = INSTR_MOV_MH;
+               if (dst[0] == 'h' && src[0] != 'h')
+                       instr->type = INSTR_MOV_HM;
+               if (dst[0] == 'h' && src[0] == 'h')
+                       instr->type = INSTR_MOV_HH;
 
                instr->mov.dst.struct_id = (uint8_t)dst_struct_id;
                instr->mov.dst.n_bits = fdst->n_bits;
 
                instr->mov.dst.struct_id = (uint8_t)dst_struct_id;
                instr->mov.dst.n_bits = fdst->n_bits;
@@ -3566,15 +3669,45 @@ instr_mov_exec(struct rte_swx_pipeline *p)
 }
 
 static inline void
 }
 
 static inline void
-instr_mov_s_exec(struct rte_swx_pipeline *p)
+instr_mov_mh_exec(struct rte_swx_pipeline *p)
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
-       TRACE("[Thread %2u] mov (s)\n",
+       TRACE("[Thread %2u] mov (mh)\n",
              p->thread_id);
 
              p->thread_id);
 
-       MOV_S(t, ip);
+       MOV_MH(t, ip);
+
+       /* Thread. */
+       thread_ip_inc(p);
+}
+
+static inline void
+instr_mov_hm_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] mov (hm)\n",
+             p->thread_id);
+
+       MOV_HM(t, ip);
+
+       /* Thread. */
+       thread_ip_inc(p);
+}
+
+static inline void
+instr_mov_hh_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] mov (hh)\n",
+             p->thread_id);
+
+       MOV_HH(t, ip);
 
        /* Thread. */
        thread_ip_inc(p);
 
        /* Thread. */
        thread_ip_inc(p);
@@ -4070,13 +4203,16 @@ instr_alu_and_translate(struct rte_swx_pipeline *p,
        fdst = struct_field_parse(p, NULL, dst, &dst_struct_id);
        CHECK(fdst, EINVAL);
 
        fdst = struct_field_parse(p, NULL, dst, &dst_struct_id);
        CHECK(fdst, EINVAL);
 
-       /* AND or AND_S. */
+       /* AND, AND_MH, AND_HM, AND_HH. */
        fsrc = struct_field_parse(p, action, src, &src_struct_id);
        if (fsrc) {
                instr->type = INSTR_ALU_AND;
        fsrc = struct_field_parse(p, action, src, &src_struct_id);
        if (fsrc) {
                instr->type = INSTR_ALU_AND;
-               if ((dst[0] == 'h' && src[0] != 'h') ||
-                   (dst[0] != 'h' && src[0] == 'h'))
-                       instr->type = INSTR_ALU_AND_S;
+               if (dst[0] != 'h' && src[0] == 'h')
+                       instr->type = INSTR_ALU_AND_MH;
+               if (dst[0] == 'h' && src[0] != 'h')
+                       instr->type = INSTR_ALU_AND_HM;
+               if (dst[0] == 'h' && src[0] == 'h')
+                       instr->type = INSTR_ALU_AND_HH;
 
                instr->alu.dst.struct_id = (uint8_t)dst_struct_id;
                instr->alu.dst.n_bits = fdst->n_bits;
 
                instr->alu.dst.struct_id = (uint8_t)dst_struct_id;
                instr->alu.dst.n_bits = fdst->n_bits;
@@ -4120,13 +4256,16 @@ instr_alu_or_translate(struct rte_swx_pipeline *p,
        fdst = struct_field_parse(p, NULL, dst, &dst_struct_id);
        CHECK(fdst, EINVAL);
 
        fdst = struct_field_parse(p, NULL, dst, &dst_struct_id);
        CHECK(fdst, EINVAL);
 
-       /* OR or OR_S. */
+       /* OR, OR_MH, OR_HM, OR_HH. */
        fsrc = struct_field_parse(p, action, src, &src_struct_id);
        if (fsrc) {
                instr->type = INSTR_ALU_OR;
        fsrc = struct_field_parse(p, action, src, &src_struct_id);
        if (fsrc) {
                instr->type = INSTR_ALU_OR;
-               if ((dst[0] == 'h' && src[0] != 'h') ||
-                   (dst[0] != 'h' && src[0] == 'h'))
-                       instr->type = INSTR_ALU_OR_S;
+               if (dst[0] != 'h' && src[0] == 'h')
+                       instr->type = INSTR_ALU_OR_MH;
+               if (dst[0] == 'h' && src[0] != 'h')
+                       instr->type = INSTR_ALU_OR_HM;
+               if (dst[0] == 'h' && src[0] == 'h')
+                       instr->type = INSTR_ALU_OR_HH;
 
                instr->alu.dst.struct_id = (uint8_t)dst_struct_id;
                instr->alu.dst.n_bits = fdst->n_bits;
 
                instr->alu.dst.struct_id = (uint8_t)dst_struct_id;
                instr->alu.dst.n_bits = fdst->n_bits;
@@ -4170,13 +4309,16 @@ instr_alu_xor_translate(struct rte_swx_pipeline *p,
        fdst = struct_field_parse(p, NULL, dst, &dst_struct_id);
        CHECK(fdst, EINVAL);
 
        fdst = struct_field_parse(p, NULL, dst, &dst_struct_id);
        CHECK(fdst, EINVAL);
 
-       /* XOR or XOR_S. */
+       /* XOR, XOR_MH, XOR_HM, XOR_HH. */
        fsrc = struct_field_parse(p, action, src, &src_struct_id);
        if (fsrc) {
                instr->type = INSTR_ALU_XOR;
        fsrc = struct_field_parse(p, action, src, &src_struct_id);
        if (fsrc) {
                instr->type = INSTR_ALU_XOR;
-               if ((dst[0] == 'h' && src[0] != 'h') ||
-                   (dst[0] != 'h' && src[0] == 'h'))
-                       instr->type = INSTR_ALU_XOR_S;
+               if (dst[0] != 'h' && src[0] == 'h')
+                       instr->type = INSTR_ALU_XOR_MH;
+               if (dst[0] == 'h' && src[0] != 'h')
+                       instr->type = INSTR_ALU_XOR_HM;
+               if (dst[0] == 'h' && src[0] == 'h')
+                       instr->type = INSTR_ALU_XOR_HH;
 
                instr->alu.dst.struct_id = (uint8_t)dst_struct_id;
                instr->alu.dst.n_bits = fdst->n_bits;
 
                instr->alu.dst.struct_id = (uint8_t)dst_struct_id;
                instr->alu.dst.n_bits = fdst->n_bits;
@@ -4578,15 +4720,45 @@ instr_alu_and_exec(struct rte_swx_pipeline *p)
 }
 
 static inline void
 }
 
 static inline void
-instr_alu_and_s_exec(struct rte_swx_pipeline *p)
+instr_alu_and_mh_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] and (mh)\n", p->thread_id);
+
+       /* Structs. */
+       ALU_MH(t, ip, &);
+
+       /* Thread. */
+       thread_ip_inc(p);
+}
+
+static inline void
+instr_alu_and_hm_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] and (hm)\n", p->thread_id);
+
+       /* Structs. */
+       ALU_HM_FAST(t, ip, &);
+
+       /* Thread. */
+       thread_ip_inc(p);
+}
+
+static inline void
+instr_alu_and_hh_exec(struct rte_swx_pipeline *p)
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
-       TRACE("[Thread %2u] and (s)\n", p->thread_id);
+       TRACE("[Thread %2u] and (hh)\n", p->thread_id);
 
        /* Structs. */
 
        /* Structs. */
-       ALU_S(t, ip, &);
+       ALU_HH_FAST(t, ip, &);
 
        /* Thread. */
        thread_ip_inc(p);
 
        /* Thread. */
        thread_ip_inc(p);
@@ -4623,15 +4795,45 @@ instr_alu_or_exec(struct rte_swx_pipeline *p)
 }
 
 static inline void
 }
 
 static inline void
-instr_alu_or_s_exec(struct rte_swx_pipeline *p)
+instr_alu_or_mh_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] or (mh)\n", p->thread_id);
+
+       /* Structs. */
+       ALU_MH(t, ip, |);
+
+       /* Thread. */
+       thread_ip_inc(p);
+}
+
+static inline void
+instr_alu_or_hm_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] or (hm)\n", p->thread_id);
+
+       /* Structs. */
+       ALU_HM_FAST(t, ip, |);
+
+       /* Thread. */
+       thread_ip_inc(p);
+}
+
+static inline void
+instr_alu_or_hh_exec(struct rte_swx_pipeline *p)
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
-       TRACE("[Thread %2u] or (s)\n", p->thread_id);
+       TRACE("[Thread %2u] or (hh)\n", p->thread_id);
 
        /* Structs. */
 
        /* Structs. */
-       ALU_S(t, ip, |);
+       ALU_HH_FAST(t, ip, |);
 
        /* Thread. */
        thread_ip_inc(p);
 
        /* Thread. */
        thread_ip_inc(p);
@@ -4668,15 +4870,45 @@ instr_alu_xor_exec(struct rte_swx_pipeline *p)
 }
 
 static inline void
 }
 
 static inline void
-instr_alu_xor_s_exec(struct rte_swx_pipeline *p)
+instr_alu_xor_mh_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] xor (mh)\n", p->thread_id);
+
+       /* Structs. */
+       ALU_MH(t, ip, ^);
+
+       /* Thread. */
+       thread_ip_inc(p);
+}
+
+static inline void
+instr_alu_xor_hm_exec(struct rte_swx_pipeline *p)
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
-       TRACE("[Thread %2u] xor (s)\n", p->thread_id);
+       TRACE("[Thread %2u] xor (hm)\n", p->thread_id);
 
        /* Structs. */
 
        /* Structs. */
-       ALU_S(t, ip, ^);
+       ALU_HM_FAST(t, ip, ^);
+
+       /* Thread. */
+       thread_ip_inc(p);
+}
+
+static inline void
+instr_alu_xor_hh_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] xor (hh)\n", p->thread_id);
+
+       /* Structs. */
+       ALU_HH_FAST(t, ip, ^);
 
        /* Thread. */
        thread_ip_inc(p);
 
        /* Thread. */
        thread_ip_inc(p);
@@ -6829,13 +7061,16 @@ instr_jmp_eq_translate(struct rte_swx_pipeline *p,
        fa = struct_field_parse(p, action, a, &a_struct_id);
        CHECK(fa, EINVAL);
 
        fa = struct_field_parse(p, action, a, &a_struct_id);
        CHECK(fa, EINVAL);
 
-       /* JMP_EQ or JMP_EQ_S. */
+       /* JMP_EQ, JMP_EQ_MH, JMP_EQ_HM, JMP_EQ_HH. */
        fb = struct_field_parse(p, action, b, &b_struct_id);
        if (fb) {
                instr->type = INSTR_JMP_EQ;
        fb = struct_field_parse(p, action, b, &b_struct_id);
        if (fb) {
                instr->type = INSTR_JMP_EQ;
-               if ((a[0] == 'h' && b[0] != 'h') ||
-                   (a[0] != 'h' && b[0] == 'h'))
-                       instr->type = INSTR_JMP_EQ_S;
+               if (a[0] != 'h' && b[0] == 'h')
+                       instr->type = INSTR_JMP_EQ_MH;
+               if (a[0] == 'h' && b[0] != 'h')
+                       instr->type = INSTR_JMP_EQ_HM;
+               if (a[0] == 'h' && b[0] == 'h')
+                       instr->type = INSTR_JMP_EQ_HH;
                instr->jmp.ip = NULL; /* Resolved later. */
 
                instr->jmp.a.struct_id = (uint8_t)a_struct_id;
                instr->jmp.ip = NULL; /* Resolved later. */
 
                instr->jmp.a.struct_id = (uint8_t)a_struct_id;
@@ -6883,13 +7118,16 @@ instr_jmp_neq_translate(struct rte_swx_pipeline *p,
        fa = struct_field_parse(p, action, a, &a_struct_id);
        CHECK(fa, EINVAL);
 
        fa = struct_field_parse(p, action, a, &a_struct_id);
        CHECK(fa, EINVAL);
 
-       /* JMP_NEQ or JMP_NEQ_S. */
+       /* JMP_NEQ, JMP_NEQ_MH, JMP_NEQ_HM, JMP_NEQ_HH. */
        fb = struct_field_parse(p, action, b, &b_struct_id);
        if (fb) {
                instr->type = INSTR_JMP_NEQ;
        fb = struct_field_parse(p, action, b, &b_struct_id);
        if (fb) {
                instr->type = INSTR_JMP_NEQ;
-               if ((a[0] == 'h' && b[0] != 'h') ||
-                   (a[0] != 'h' && b[0] == 'h'))
-                       instr->type = INSTR_JMP_NEQ_S;
+               if (a[0] != 'h' && b[0] == 'h')
+                       instr->type = INSTR_JMP_NEQ_MH;
+               if (a[0] == 'h' && b[0] != 'h')
+                       instr->type = INSTR_JMP_NEQ_HM;
+               if (a[0] == 'h' && b[0] == 'h')
+                       instr->type = INSTR_JMP_NEQ_HH;
                instr->jmp.ip = NULL; /* Resolved later. */
 
                instr->jmp.a.struct_id = (uint8_t)a_struct_id;
                instr->jmp.ip = NULL; /* Resolved later. */
 
                instr->jmp.a.struct_id = (uint8_t)a_struct_id;
@@ -7124,14 +7362,36 @@ instr_jmp_eq_exec(struct rte_swx_pipeline *p)
 }
 
 static inline void
 }
 
 static inline void
-instr_jmp_eq_s_exec(struct rte_swx_pipeline *p)
+instr_jmp_eq_mh_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] jmpeq (mh)\n", p->thread_id);
+
+       JMP_CMP_MH(t, ip, ==);
+}
+
+static inline void
+instr_jmp_eq_hm_exec(struct rte_swx_pipeline *p)
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
-       TRACE("[Thread %2u] jmpeq (s)\n", p->thread_id);
+       TRACE("[Thread %2u] jmpeq (hm)\n", p->thread_id);
 
 
-       JMP_CMP_S(t, ip, ==);
+       JMP_CMP_HM(t, ip, ==);
+}
+
+static inline void
+instr_jmp_eq_hh_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] jmpeq (hh)\n", p->thread_id);
+
+       JMP_CMP_HH_FAST(t, ip, ==);
 }
 
 static inline void
 }
 
 static inline void
@@ -7157,14 +7417,36 @@ instr_jmp_neq_exec(struct rte_swx_pipeline *p)
 }
 
 static inline void
 }
 
 static inline void
-instr_jmp_neq_s_exec(struct rte_swx_pipeline *p)
+instr_jmp_neq_mh_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] jmpneq (mh)\n", p->thread_id);
+
+       JMP_CMP_MH(t, ip, !=);
+}
+
+static inline void
+instr_jmp_neq_hm_exec(struct rte_swx_pipeline *p)
+{
+       struct thread *t = &p->threads[p->thread_id];
+       struct instruction *ip = t->ip;
+
+       TRACE("[Thread %2u] jmpneq (hm)\n", p->thread_id);
+
+       JMP_CMP_HM(t, ip, !=);
+}
+
+static inline void
+instr_jmp_neq_hh_exec(struct rte_swx_pipeline *p)
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
 {
        struct thread *t = &p->threads[p->thread_id];
        struct instruction *ip = t->ip;
 
-       TRACE("[Thread %2u] jmpneq (s)\n", p->thread_id);
+       TRACE("[Thread %2u] jmpneq (hh)\n", p->thread_id);
 
 
-       JMP_CMP_S(t, ip, !=);
+       JMP_CMP_HH_FAST(t, ip, !=);
 }
 
 static inline void
 }
 
 static inline void
@@ -8146,7 +8428,9 @@ static instr_exec_t instruction_table[] = {
        [INSTR_HDR_INVALIDATE] = instr_hdr_invalidate_exec,
 
        [INSTR_MOV] = instr_mov_exec,
        [INSTR_HDR_INVALIDATE] = instr_hdr_invalidate_exec,
 
        [INSTR_MOV] = instr_mov_exec,
-       [INSTR_MOV_S] = instr_mov_s_exec,
+       [INSTR_MOV_MH] = instr_mov_mh_exec,
+       [INSTR_MOV_HM] = instr_mov_hm_exec,
+       [INSTR_MOV_HH] = instr_mov_hh_exec,
        [INSTR_MOV_I] = instr_mov_i_exec,
 
        [INSTR_DMA_HT] = instr_dma_ht_exec,
        [INSTR_MOV_I] = instr_mov_i_exec,
 
        [INSTR_DMA_HT] = instr_dma_ht_exec,
@@ -8178,15 +8462,21 @@ static instr_exec_t instruction_table[] = {
        [INSTR_ALU_CKSUB_FIELD] = instr_alu_cksub_field_exec,
 
        [INSTR_ALU_AND] = instr_alu_and_exec,
        [INSTR_ALU_CKSUB_FIELD] = instr_alu_cksub_field_exec,
 
        [INSTR_ALU_AND] = instr_alu_and_exec,
-       [INSTR_ALU_AND_S] = instr_alu_and_s_exec,
+       [INSTR_ALU_AND_MH] = instr_alu_and_mh_exec,
+       [INSTR_ALU_AND_HM] = instr_alu_and_hm_exec,
+       [INSTR_ALU_AND_HH] = instr_alu_and_hh_exec,
        [INSTR_ALU_AND_I] = instr_alu_and_i_exec,
 
        [INSTR_ALU_OR] = instr_alu_or_exec,
        [INSTR_ALU_AND_I] = instr_alu_and_i_exec,
 
        [INSTR_ALU_OR] = instr_alu_or_exec,
-       [INSTR_ALU_OR_S] = instr_alu_or_s_exec,
+       [INSTR_ALU_OR_MH] = instr_alu_or_mh_exec,
+       [INSTR_ALU_OR_HM] = instr_alu_or_hm_exec,
+       [INSTR_ALU_OR_HH] = instr_alu_or_hh_exec,
        [INSTR_ALU_OR_I] = instr_alu_or_i_exec,
 
        [INSTR_ALU_XOR] = instr_alu_xor_exec,
        [INSTR_ALU_OR_I] = instr_alu_or_i_exec,
 
        [INSTR_ALU_XOR] = instr_alu_xor_exec,
-       [INSTR_ALU_XOR_S] = instr_alu_xor_s_exec,
+       [INSTR_ALU_XOR_MH] = instr_alu_xor_mh_exec,
+       [INSTR_ALU_XOR_HM] = instr_alu_xor_hm_exec,
+       [INSTR_ALU_XOR_HH] = instr_alu_xor_hh_exec,
        [INSTR_ALU_XOR_I] = instr_alu_xor_i_exec,
 
        [INSTR_ALU_SHL] = instr_alu_shl_exec,
        [INSTR_ALU_XOR_I] = instr_alu_xor_i_exec,
 
        [INSTR_ALU_SHL] = instr_alu_shl_exec,
@@ -8264,11 +8554,15 @@ static instr_exec_t instruction_table[] = {
        [INSTR_JMP_ACTION_MISS] = instr_jmp_action_miss_exec,
 
        [INSTR_JMP_EQ] = instr_jmp_eq_exec,
        [INSTR_JMP_ACTION_MISS] = instr_jmp_action_miss_exec,
 
        [INSTR_JMP_EQ] = instr_jmp_eq_exec,
-       [INSTR_JMP_EQ_S] = instr_jmp_eq_s_exec,
+       [INSTR_JMP_EQ_MH] = instr_jmp_eq_mh_exec,
+       [INSTR_JMP_EQ_HM] = instr_jmp_eq_hm_exec,
+       [INSTR_JMP_EQ_HH] = instr_jmp_eq_hh_exec,
        [INSTR_JMP_EQ_I] = instr_jmp_eq_i_exec,
 
        [INSTR_JMP_NEQ] = instr_jmp_neq_exec,
        [INSTR_JMP_EQ_I] = instr_jmp_eq_i_exec,
 
        [INSTR_JMP_NEQ] = instr_jmp_neq_exec,
-       [INSTR_JMP_NEQ_S] = instr_jmp_neq_s_exec,
+       [INSTR_JMP_NEQ_MH] = instr_jmp_neq_mh_exec,
+       [INSTR_JMP_NEQ_HM] = instr_jmp_neq_hm_exec,
+       [INSTR_JMP_NEQ_HH] = instr_jmp_neq_hh_exec,
        [INSTR_JMP_NEQ_I] = instr_jmp_neq_i_exec,
 
        [INSTR_JMP_LT] = instr_jmp_lt_exec,
        [INSTR_JMP_NEQ_I] = instr_jmp_neq_i_exec,
 
        [INSTR_JMP_LT] = instr_jmp_lt_exec,