use crate::CRC32_INITIAL_VALUE; use core::arch::x86_64::{ __m512i, _mm512_clmulepi64_epi128, _mm512_extracti32x4_epi32, _mm512_inserti32x4, _mm512_loadu_si512, _mm512_set4_epi32, _mm512_setzero_si512, _mm512_storeu_si512, _mm512_ternarylogic_epi32, _mm512_xor_si512, _mm512_zextsi128_si512, _mm_cvtsi32_si128, }; impl super::pclmulqdq::Accumulator { #[target_feature(enable = "vpclmulqdq", enable = "avx512f")] pub(super) unsafe fn fold_16_vpclmulqdq( &mut self, dst: &mut [u8], src: &mut &[u8], init_crc: &mut u32, ) -> usize { unsafe { self.fold_help_vpclmulqdq::(dst, src, init_crc) } } #[target_feature(enable = "vpclmulqdq", enable = "avx512f")] pub(super) unsafe fn fold_16_vpclmulqdq_copy( &mut self, dst: &mut [u8], src: &mut &[u8], ) -> usize { let mut init_crc = CRC32_INITIAL_VALUE; unsafe { self.fold_help_vpclmulqdq::(dst, src, &mut init_crc) } } #[target_feature(enable = "vpclmulqdq", enable = "avx512f")] unsafe fn fold_help_vpclmulqdq( &mut self, mut dst: &mut [u8], src: &mut &[u8], init_crc: &mut u32, ) -> usize { let [xmm_crc0, xmm_crc1, xmm_crc2, xmm_crc3] = &mut self.fold; let start_len = src.len(); unsafe { let zmm_fold4 = _mm512_set4_epi32(0x00000001, 0x54442bd4, 0x00000001, 0xc6e41596u32 as i32); let zmm_fold16 = _mm512_set4_epi32(0x00000001, 0x1542778a, 0x00000001, 0x322d1430); // zmm register init let zmm_crc0 = _mm512_setzero_si512(); let mut zmm_t0 = _mm512_loadu_si512(src.as_ptr().cast::<__m512i>()); if !COPY && *init_crc != CRC32_INITIAL_VALUE { let xmm_initial = _mm_cvtsi32_si128(*init_crc as i32); let zmm_initial = _mm512_zextsi128_si512(xmm_initial); zmm_t0 = _mm512_xor_si512(zmm_t0, zmm_initial); *init_crc = CRC32_INITIAL_VALUE; } let mut zmm_crc1 = _mm512_loadu_si512(src.as_ptr().cast::<__m512i>().add(1)); let mut zmm_crc2 = _mm512_loadu_si512(src.as_ptr().cast::<__m512i>().add(2)); let mut zmm_crc3 = _mm512_loadu_si512(src.as_ptr().cast::<__m512i>().add(3)); /* already have intermediate CRC in xmm registers * fold4 with 4 xmm_crc to get zmm_crc0 */ let mut zmm_crc0 = _mm512_inserti32x4(zmm_crc0, *xmm_crc0, 0); zmm_crc0 = _mm512_inserti32x4(zmm_crc0, *xmm_crc1, 1); zmm_crc0 = _mm512_inserti32x4(zmm_crc0, *xmm_crc2, 2); zmm_crc0 = _mm512_inserti32x4(zmm_crc0, *xmm_crc3, 3); let mut z0 = _mm512_clmulepi64_epi128(zmm_crc0, zmm_fold4, 0x01); zmm_crc0 = _mm512_clmulepi64_epi128(zmm_crc0, zmm_fold4, 0x10); zmm_crc0 = _mm512_ternarylogic_epi32(zmm_crc0, z0, zmm_t0, 0x96); if COPY { _mm512_storeu_si512(dst.as_mut_ptr().cast::<__m512i>(), zmm_t0); _mm512_storeu_si512(dst.as_mut_ptr().cast::<__m512i>().add(1), zmm_crc1); _mm512_storeu_si512(dst.as_mut_ptr().cast::<__m512i>().add(2), zmm_crc2); _mm512_storeu_si512(dst.as_mut_ptr().cast::<__m512i>().add(3), zmm_crc3); dst = &mut dst[256..]; } *src = &src[256..]; // fold-16 loops while src.len() >= 256 { let zmm_t0 = _mm512_loadu_si512(src.as_ptr().cast::<__m512i>()); let zmm_t1 = _mm512_loadu_si512(src.as_ptr().cast::<__m512i>().add(1)); let zmm_t2 = _mm512_loadu_si512(src.as_ptr().cast::<__m512i>().add(2)); let zmm_t3 = _mm512_loadu_si512(src.as_ptr().cast::<__m512i>().add(3)); let z0 = _mm512_clmulepi64_epi128(zmm_crc0, zmm_fold16, 0x01); let z1 = _mm512_clmulepi64_epi128(zmm_crc1, zmm_fold16, 0x01); let z2 = _mm512_clmulepi64_epi128(zmm_crc2, zmm_fold16, 0x01); let z3 = _mm512_clmulepi64_epi128(zmm_crc3, zmm_fold16, 0x01); zmm_crc0 = _mm512_clmulepi64_epi128(zmm_crc0, zmm_fold16, 0x10); zmm_crc1 = _mm512_clmulepi64_epi128(zmm_crc1, zmm_fold16, 0x10); zmm_crc2 = _mm512_clmulepi64_epi128(zmm_crc2, zmm_fold16, 0x10); zmm_crc3 = _mm512_clmulepi64_epi128(zmm_crc3, zmm_fold16, 0x10); zmm_crc0 = _mm512_ternarylogic_epi32(zmm_crc0, z0, zmm_t0, 0x96); zmm_crc1 = _mm512_ternarylogic_epi32(zmm_crc1, z1, zmm_t1, 0x96); zmm_crc2 = _mm512_ternarylogic_epi32(zmm_crc2, z2, zmm_t2, 0x96); zmm_crc3 = _mm512_ternarylogic_epi32(zmm_crc3, z3, zmm_t3, 0x96); if COPY { _mm512_storeu_si512(dst.as_mut_ptr().cast::<__m512i>(), zmm_t0); _mm512_storeu_si512(dst.as_mut_ptr().cast::<__m512i>().add(1), zmm_t1); _mm512_storeu_si512(dst.as_mut_ptr().cast::<__m512i>().add(2), zmm_t2); _mm512_storeu_si512(dst.as_mut_ptr().cast::<__m512i>().add(3), zmm_t3); dst = &mut dst[256..]; } *src = &src[256..]; } // zmm_crc[0,1,2,3] -> zmm_crc0 z0 = _mm512_clmulepi64_epi128(zmm_crc0, zmm_fold4, 0x01); zmm_crc0 = _mm512_clmulepi64_epi128(zmm_crc0, zmm_fold4, 0x10); zmm_crc0 = _mm512_ternarylogic_epi32(zmm_crc0, z0, zmm_crc1, 0x96); z0 = _mm512_clmulepi64_epi128(zmm_crc0, zmm_fold4, 0x01); zmm_crc0 = _mm512_clmulepi64_epi128(zmm_crc0, zmm_fold4, 0x10); zmm_crc0 = _mm512_ternarylogic_epi32(zmm_crc0, z0, zmm_crc2, 0x96); z0 = _mm512_clmulepi64_epi128(zmm_crc0, zmm_fold4, 0x01); zmm_crc0 = _mm512_clmulepi64_epi128(zmm_crc0, zmm_fold4, 0x10); zmm_crc0 = _mm512_ternarylogic_epi32(zmm_crc0, z0, zmm_crc3, 0x96); // zmm_crc0 -> xmm_crc[0, 1, 2, 3] *xmm_crc0 = _mm512_extracti32x4_epi32(zmm_crc0, 0); *xmm_crc1 = _mm512_extracti32x4_epi32(zmm_crc0, 1); *xmm_crc2 = _mm512_extracti32x4_epi32(zmm_crc0, 2); *xmm_crc3 = _mm512_extracti32x4_epi32(zmm_crc0, 3); // return n bytes processed start_len - src.len() } } }