44 #ifdef OJPH_COMPILER_MSVC
47 #include <x86intrin.h>
57 __m256i sh = _mm256_set1_epi32(shift);
58 for (
int i = (width + 7) >> 3; i > 0; --i, sp+=8, dp+=8)
60 __m256i s = _mm256_loadu_si256((__m256i*)sp);
61 s = _mm256_add_epi32(s, sh);
62 _mm256_storeu_si256((__m256i*)dp, s);
70 for (
int i = (repeat + 7) >> 3; i > 0; --i)
72 __m256i mr = _mm256_load_si256((__m256i*)r);
73 __m256i mg = _mm256_load_si256((__m256i*)g);
74 __m256i mb = _mm256_load_si256((__m256i*)b);
75 __m256i t = _mm256_add_epi32(mr, mb);
76 t = _mm256_add_epi32(t, _mm256_slli_epi32(mg, 1));
77 _mm256_store_si256((__m256i*)y, _mm256_srai_epi32(t, 2));
78 t = _mm256_sub_epi32(mb, mg);
79 _mm256_store_si256((__m256i*)cb, t);
80 t = _mm256_sub_epi32(mr, mg);
81 _mm256_store_si256((__m256i*)cr, t);
83 r += 8; g += 8; b += 8;
84 y += 8; cb += 8; cr += 8;
92 for (
int i = (repeat + 7) >> 3; i > 0; --i)
94 __m256i my = _mm256_load_si256((__m256i*)y);
95 __m256i mcb = _mm256_load_si256((__m256i*)cb);
96 __m256i mcr = _mm256_load_si256((__m256i*)cr);
98 __m256i t = _mm256_add_epi32(mcb, mcr);
99 t = _mm256_sub_epi32(my, _mm256_srai_epi32(t, 2));
100 _mm256_store_si256((__m256i*)g, t);
101 __m256i u = _mm256_add_epi32(mcb, t);
102 _mm256_store_si256((__m256i*)b, u);
103 u = _mm256_add_epi32(mcr, t);
104 _mm256_store_si256((__m256i*)r, u);
106 y += 8; cb += 8; cr += 8;
107 r += 8; g += 8; b += 8;
void avx2_rct_forward(const si32 *r, const si32 *g, const si32 *b, si32 *y, si32 *cb, si32 *cr, ui32 repeat)
void avx2_rct_backward(const si32 *y, const si32 *cb, const si32 *cr, si32 *r, si32 *g, si32 *b, ui32 repeat)
void avx2_cnvrt_si32_to_si32_shftd(const si32 *sp, si32 *dp, int shift, ui32 width)