kdf-sm3: mult 8 way avx2 version #222

2025-09-02 13:35:38 +08:00 · 2024-05-23 13:09:16 +08:00 · 2024-05-23 13:09:16 +08:00 · ed0b2551ed
commit ed0b2551ed
parent 2e05c453c8
5 changed files with 691 additions and 0 deletions
--- a/sm3/kdf_amd64.go
+++ b/sm3/kdf_amd64.go
@ -7,5 +7,9 @@ func kdf(baseMD *digest, keyLen int, limit int) []byte {
 		return kdfGeneric(baseMD, keyLen, limit)
 	}

+	if useAVX2 && limit >= 8 {
+		return kdfBy8(baseMD, keyLen, limit)
+	}
+
 	return kdfBy4(baseMD, keyLen, limit)
 }
--- a/sm3/kdf_mult4_asm.go
+++ b/sm3/kdf_mult4_asm.go
--- a/sm3/kdf_mult8_amd64.go
+++ b/sm3/kdf_mult8_amd64.go
@ -0,0 +1,97 @@
+//go:build !purego
+
+package sm3
+
+import "encoding/binary"
+
+// p || state || words
+// p = 64 * 8 * 2 = 1024
+// state = 8 * 32 = 256
+// words = 68 * 32 = 2176
+const preallocSizeBy8 = 3456
+
+const parallelSize8 = 8
+
+func kdfBy8(baseMD *digest, keyLen int, limit int) []byte {
+	var t uint64
+	blocks := 1
+	len := baseMD.len + 4
+	remainlen := len % 64
+	if remainlen < 56 {
+		t = 56 - remainlen
+	} else {
+		t = 64 + 56 - remainlen
+		blocks = 2
+	}
+	len <<= 3
+
+	var ct uint32 = 1
+	k := make([]byte, keyLen)
+	ret := k
+
+	// prepare temporary buffer
+	tmpStart := parallelSize8 * blocks * BlockSize
+	buffer := make([]byte, preallocSizeBy8)
+	tmp := buffer[tmpStart:]
+	// prepare processing data
+	var data [parallelSize8]*byte
+	var digs [parallelSize8]*[8]uint32
+	var states [parallelSize8][8]uint32
+	for j := 0; j < parallelSize8; j++ {
+		digs[j] = &states[j]
+	}
+
+	times := limit / parallelSize8
+	for i := 0; i < times; i++ {
+		for j := 0; j < parallelSize8; j++ {
+			// prepare states
+			states[j] = baseMD.h
+			// prepare data
+			p := buffer[blocks*BlockSize*j:]
+			data[j] = &p[0]
+			prepareData(baseMD, p, ct, len, t)
+			ct++
+		}
+		blockMultBy8(&digs[0], &data[0], &tmp[0], blocks)
+		for j := 0; j < parallelSize8; j++ {
+			copyResult(ret, digs[j])
+			ret = ret[Size:]
+		}
+	}
+
+	remain := limit % parallelSize8
+	if remain >= 4 {
+		for j := 0; j < 4; j++ {
+			// prepare states
+			states[j] = baseMD.h
+			// prepare data
+			p := buffer[blocks*BlockSize*j:]
+			data[j] = &p[0]
+			prepareData(baseMD, p, ct, len, t)
+			ct++
+		}
+		blockMultBy4(&digs[0], &data[0], &tmp[0], blocks)
+		for j := 0; j < 4; j++ {
+			copyResult(ret, digs[j])
+			ret = ret[Size:]
+		}
+		remain -= 4
+	}
+
+	for i := 0; i < remain; i++ {
+		binary.BigEndian.PutUint32(tmp[:], ct)
+		md := *baseMD
+		md.Write(tmp[:4])
+		h := md.checkSum()
+		copy(ret[i*Size:], h[:])
+		ct++
+	}
+
+	return k
+}
+
+//go:noescape
+func blockMultBy8(dig **[8]uint32, p **byte, buffer *byte, blocks int)
+
+//go:noescape
+func transposeMatrix8x8(dig **[8]uint32)
--- a/sm3/sm3blocks_avx2_amd64.s
+++ b/sm3/sm3blocks_avx2_amd64.s
@ -0,0 +1,443 @@
+//go:build !purego
+
+#include "textflag.h"
+
+// shuffle byte order from LE to BE
+DATA flip_mask<>+0x00(SB)/8, $0x0405060700010203
+DATA flip_mask<>+0x08(SB)/8, $0x0c0d0e0f08090a0b
+DATA flip_mask<>+0x10(SB)/8, $0x0405060700010203
+DATA flip_mask<>+0x18(SB)/8, $0x0c0d0e0f08090a0b
+GLOBL flip_mask<>(SB), 8, $32
+
+// left rotations of 32-bit words by 8-bit increments
+DATA r08_mask<>+0x00(SB)/8, $0x0605040702010003
+DATA r08_mask<>+0x08(SB)/8, $0x0E0D0C0F0A09080B
+DATA r08_mask<>+0x10(SB)/8, $0x0605040702010003
+DATA r08_mask<>+0x18(SB)/8, $0x0E0D0C0F0A09080B
+GLOBL r08_mask<>(SB), 8, $32
+
+#define a Y0
+#define b Y1
+#define c Y2
+#define d Y3
+#define e Y4
+#define f Y5
+#define g Y6
+#define h Y7
+#define TMP1 Y8
+#define TMP2 Y9
+#define TMP3 Y10
+#define TMP4 Y11
+
+#define srcPtr1 CX
+#define srcPtr2 R8
+#define srcPtr3 R9
+#define srcPtr4 R10
+#define srcPtr5 R11
+#define srcPtr6 R12
+#define srcPtr7 R13
+#define srcPtr8 R14
+
+// transpose matrix function, AVX2 version
+// parameters:
+// - r0: 256 bits register as input/output data
+// - r1: 256 bits register as input/output data
+// - r2: 256 bits register as input/output data
+// - r3: 256 bits register as input/output data
+// - r4: 256 bits register as input/output data
+// - r5: 256 bits register as input/output data
+// - r6: 256 bits register as input/output data
+// - r7: 256 bits register as input/output data
+// - tmp1: 256 bits temp register
+// - tmp2: 256 bits temp register
+// - tmp3: 256 bits temp register
+// - tmp4: 256 bits temp register
+#define TRANSPOSE_MATRIX(r0, r1, r2, r3, r4, r5, r6, r7, tmp1, tmp2, tmp3, tmp4) \
+	; \ // [r0, r1, r2, r3] => [tmp3, tmp4, tmp2, tmp1]
+	VPUNPCKHDQ r1, r0, tmp4;                 \ // tmp4 =  [w15, w7, w14, w6, w11, w3, w10, w2]
+	VPUNPCKLDQ r1, r0, r0;                   \ // r0 =    [w13, w5, w12, w4, w9, w1, w8, w0]
+	VPUNPCKLDQ r3, r2, tmp3;                 \ // tmp3 =  [w29, w21, w28, w20, w25, w17, w24, w16]
+	VPUNPCKHDQ r3, r2, r2;                   \ // r2 =    [w31, w27, w30, w22, w27, w19, w26, w18]
+	VPUNPCKHQDQ tmp3, r0, tmp2;                \ // tmp2 =    [w29, w21, w13, w5, w25, w17, w9, w1]
+	VPUNPCKLQDQ tmp3, r0, tmp1;                \ // tmp1 =    [w28, w20, w12, w4, w24, w16, w8, w0]
+	VPUNPCKHQDQ r2, tmp4, tmp3;                \ // tmp3 =    [w31, w23, w15, w7, w27, w19, w11, w3]
+	VPUNPCKLQDQ r2, tmp4, tmp4;                \ // tmp4 =    [w30, w22, w14, w6, w26, w18, w10, w2]
+	; \ // [r4, r5, r6, r7] => [r4, r5, r6, r7]
+	VPUNPCKHDQ r5, r4, r1;                 \ // r1 =  [w47, w39, w46, w38, w43, w35, w42, w34]
+	VPUNPCKLDQ r5, r4, r4;                   \ // r4 =    [w45, w37, w44, w36, w41, w33, w40, w32]
+	VPUNPCKLDQ r7, r6, r0;                 \ // r0 =  [w61, w53, w60, w52, w57, w49, w56, w48]
+	VPUNPCKHDQ r7, r6, r6;                   \ // r6 =    [w63, w59, w52, w54, w59, w51, w58, w50]
+	VPUNPCKHQDQ r0, r4, r5;                \ // r5 =    [w61, w53, w45, w37, w57, w49, w41, w33]
+	VPUNPCKLQDQ r0, r4, r4;                \ // r4 =    [w60, w52, w44, w36, w56, w48, w40, w32]
+	VPUNPCKHQDQ r6, r1, r7;                \ // r7 =    [w63, w55, w47, w39, w59, w51, w43, w35]
+	VPUNPCKLQDQ r6, r1, r6;                \ // r6 =    [w62, w54, w46, w38, w58, w50, w42, w34]
+	; \ // [tmp3, tmp4, tmp2, tmp1], [r4, r5, r6, r7] => [r0, r1, r2, r3, r4, r5, r6, r7]
+	VPERM2I128 $0x20, r4, tmp1, r0;              \ // r0 =    [w56, w48, w40, w32, w24, w16, w8, w0]
+	VPERM2I128 $0x20, r5, tmp2, r1;              \ // r1 =    [w57, w49, w41, w33, w25, w17, w9, w1]
+	VPERM2I128 $0x20, r6, tmp4, r2;              \ // r2 =    [w58, w50, w42, w34, w26, w18, w10, w2]
+	VPERM2I128 $0x20, r7, tmp3, r3;              \ // r3 =    [w59, w51, w43, w35, w27, w19, w11, w3]
+	VPERM2I128 $0x31, r4, tmp1, r4;              \ // r4 =    [w60, w52, w44, w36, w28, w20, w12, w4]
+	VPERM2I128 $0x31, r5, tmp2, r5;              \ // r5 =    [w61, w53, w45, w37, w29, w21, w13, w5]
+	VPERM2I128 $0x31, r6, tmp4, r6;              \ // r6 =    [w62, w54, w46, w38, w30, w22, w14, w6]
+	VPERM2I128 $0x31, r7, tmp3, r7;              \ // r7 =    [w63, w55, w47, w39, w31, w23, w15, w7]
+
+// xorm (mem), reg
+// xor reg to mem using reg-mem xor and store
+#define xorm(P1, P2) \
+	VPXOR P1, P2, P2; \
+	VMOVDQU P2, P1
+
+// store 256 bits
+#define storeWord(W, j) VMOVDQU W, (256+(j)*32)(BX)
+// load 256 bits
+#define loadWord(W, i) VMOVDQU (256+(i)*32)(BX), W
+
+#define prepare8Words(i) \
+	VMOVDQU (i*32)(srcPtr1), a; \
+	VMOVDQU (i*32)(srcPtr2), b; \
+	VMOVDQU (i*32)(srcPtr3), c; \
+	VMOVDQU (i*32)(srcPtr4), d; \
+	VMOVDQU (i*32)(srcPtr5), e; \
+	VMOVDQU (i*32)(srcPtr6), f; \
+	VMOVDQU (i*32)(srcPtr7), g; \
+	VMOVDQU (i*32)(srcPtr8), h; \    
+	; \
+	TRANSPOSE_MATRIX(a, b, c, d, e, f, g, h, TMP1, TMP2, TMP3, TMP4); \
+	VPSHUFB flip_mask<>(SB), a, a; \
+	VPSHUFB flip_mask<>(SB), b, b; \
+	VPSHUFB flip_mask<>(SB), c, c; \
+	VPSHUFB flip_mask<>(SB), d, d; \
+	VPSHUFB flip_mask<>(SB), e, e; \
+	VPSHUFB flip_mask<>(SB), f, f; \
+	VPSHUFB flip_mask<>(SB), g, g; \
+	VPSHUFB flip_mask<>(SB), h, h; \    
+	; \
+	storeWord(a, 8*i+0); \
+	storeWord(b, 8*i+1); \
+	storeWord(c, 8*i+2); \
+	storeWord(d, 8*i+3); \
+	storeWord(e, 8*i+4); \
+	storeWord(f, 8*i+5); \
+	storeWord(g, 8*i+6); \
+	storeWord(h, 8*i+7)
+
+#define saveState \
+	VMOVDQU a, (0*32)(BX); \
+	VMOVDQU b, (1*32)(BX); \
+	VMOVDQU c, (2*32)(BX); \
+	VMOVDQU d, (3*32)(BX); \
+	VMOVDQU e, (4*32)(BX); \
+	VMOVDQU f, (5*32)(BX); \
+	VMOVDQU g, (6*32)(BX); \
+	VMOVDQU h, (7*32)(BX)
+
+#define loadState \
+	VMOVDQU (0*32)(BX), a; \
+	VMOVDQU (1*32)(BX), b; \
+	VMOVDQU (2*32)(BX), c; \
+	VMOVDQU (3*32)(BX), d; \
+	VMOVDQU (4*32)(BX), e; \
+	VMOVDQU (5*32)(BX), f; \
+	VMOVDQU (6*32)(BX), g; \
+	VMOVDQU (7*32)(BX), h
+
+// r <<< n
+#define VPROLD(r, n) \
+	VPSLLD $(n), r, TMP1; \
+	VPSRLD $(32-n), r, r; \
+	VPOR TMP1, r, r
+
+// d = r <<< n
+#define VPROLD2(r, d, n) \
+	VPSLLD $(n), r, TMP1; \
+	VPSRLD $(32-n), r, d; \
+	VPOR TMP1, d, d
+
+#define LOAD_T(index, T) \
+	VPBROADCASTD (index*4)(AX), T
+
+#define ROUND_00_11(index, a, b, c, d, e, f, g, h) \
+	VPROLD2(a, Y13, 12); \ // a <<< 12
+	LOAD_T(index, Y12);   \
+	VPADDD Y12, Y13, Y12; \
+	VPADDD e, Y12, Y12; \
+	VPROLD(Y12, 7); \ // SS1
+	VPXOR Y12, Y13, Y13; \ // SS2
+	; \
+	VPXOR a, b, Y14; \
+	VPXOR c, Y14, Y14; \ // (a XOR b XOR c)
+	VPADDD d, Y14, Y14; \ // (a XOR b XOR c) + d 
+	loadWord(Y10, index); \
+	loadWord(Y11, index+4); \
+	VPXOR Y10, Y11, Y11; \ //Wt XOR Wt+4
+	VPADDD Y11, Y14, Y14; \ // (a XOR b XOR c) + d + Wt XOR Wt+4
+	VPADDD Y14, Y13, Y13; \ // TT1
+	VPADDD h, Y10, Y10; \ // Wt + h
+	VPADDD Y12, Y10, Y10; \ // Wt + h + SS1
+	VPXOR e, f, Y11; \
+	VPXOR g, Y11, Y11; \ // (e XOR f XOR g)
+	VPADDD Y11, Y10, Y10; \ // TT2 = (e XOR f XOR g) + Wt + h + SS1
+	; \ // copy result
+	VPROLD(b, 9); \
+	VMOVDQU Y13, h; \
+	VPROLD(f, 19); \
+	VPROLD2(Y10, Y13, 9); \ // tt2 <<< 9
+	VPSHUFB r08_mask<>(SB), Y13, Y11; \ // ROTL(17, tt2)
+	VPXOR Y10, Y13, Y13; \ // tt2 XOR ROTL(9, tt2)
+	VPXOR Y11, Y13, d
+
+#define MESSAGE_SCHEDULE(index) \
+	loadWord(Y10, index+1); \ // Wj-3
+	VPROLD(Y10, 15); \
+	VPXOR (256+(index-12)*32)(BX), Y10, Y10; \ // Wj-16
+	VPXOR (256+(index-5)*32)(BX), Y10, Y10; \ // Wj-9
+	; \ // P1
+	VPROLD2(Y10, Y11, 15); \
+	VPXOR Y11, Y10, Y10; \
+	VPSHUFB r08_mask<>(SB), Y11, Y11; \
+	VPXOR Y11, Y10, Y10; \ // P1
+	loadWord(Y11, index-9); \ // Wj-13
+	VPROLD(Y11, 7); \
+	VPXOR Y11, Y10, Y10; \
+	VPXOR (256+(index-2)*32)(BX), Y10, Y11; \
+	storeWord(Y11, index+4)
+
+#define ROUND_12_15(index, a, b, c, d, e, f, g, h) \
+	MESSAGE_SCHEDULE(index); \
+	ROUND_00_11(index, a, b, c, d, e, f, g, h)
+
+#define ROUND_16_63(index, a, b, c, d, e, f, g, h) \
+	MESSAGE_SCHEDULE(index); \ // Y11 is Wt+4 now, Pls do not use it
+	VPROLD2(a, Y13, 12); \ // a <<< 12
+	LOAD_T(index, Y12);  \
+	VPADDD Y12, Y13, Y12; \
+	VPADDD e, Y12, Y12; \
+	VPROLD(Y12, 7); \ // SS1
+	VPXOR Y12, Y13, Y13; \ // SS2
+	; \
+	VPOR a, b, Y14; \
+	VPAND a, b, Y10; \
+	VPAND c, Y14, Y14; \
+	VPOR Y10, Y14, Y14; \ // (a AND b) OR (a AND c) OR (b AND c)
+	VPADDD d, Y14, Y14; \ // (a AND b) OR (a AND c) OR (b AND c) + d
+	loadWord(Y10, index); \
+	VPXOR Y10, Y11, Y11; \ //Wt XOR Wt+4
+	VPADDD Y11, Y14, Y14; \ // (a AND b) OR (a AND c) OR (b AND c) + d + Wt XOR Wt+4
+	VPADDD Y14, Y13, Y13; \ // TT1
+	; \
+	VPADDD h, Y10, Y10; \ // Wt + h
+	VPADDD Y12, Y10, Y10; \ // Wt + h + SS1
+	VPXOR f, g, Y11; \
+	VPAND e, Y11, Y11; \ 
+	VPXOR g, Y11, Y11; \ // (f XOR g) AND e XOR g
+	VPADDD Y11, Y10, Y10; \ // TT2 = (e XOR f XOR g) + Wt + h + SS1
+	; \ // copy result
+	VPROLD(b, 9); \
+	VMOVDQU Y13, h; \
+	VPROLD(f, 19); \
+	VPROLD2(Y10, Y13, 9); \ // tt2 <<< 9
+	VPSHUFB r08_mask<>(SB), Y13, Y11; \ // ROTL(17, tt2)
+	VPXOR Y10, Y13, Y13; \ // tt2 XOR ROTL(9, tt2)
+	VPXOR Y11, Y13, d
+
+// transposeMatrix8x8(dig **[8]uint32)
+TEXT ·transposeMatrix8x8(SB),NOSPLIT,$0
+	MOVQ	dig+0(FP), DI
+
+	// load state
+	MOVQ (DI), R8
+	VMOVDQU (R8), a
+	MOVQ 8(DI), R8
+	VMOVDQU (R8), b
+	MOVQ 16(DI), R8
+	VMOVDQU (R8), c
+	MOVQ 24(DI), R8
+	VMOVDQU (R8), d
+	MOVQ 32(DI), R8
+	VMOVDQU (R8), e
+	MOVQ 40(DI), R8
+	VMOVDQU (R8), f
+	MOVQ 48(DI), R8
+	VMOVDQU (R8), g
+	MOVQ 56(DI), R8
+	VMOVDQU (R8), h
+
+	TRANSPOSE_MATRIX(a, b, c, d, e, f, g, h, TMP1, TMP2, TMP3, TMP4)
+
+	// save state
+	MOVQ (DI), R8
+	VMOVDQU a, (R8)
+	MOVQ 8(DI), R8
+	VMOVDQU b, (R8)
+	MOVQ 16(DI), R8
+	VMOVDQU c, (R8)
+	MOVQ 24(DI), R8
+	VMOVDQU d, (R8)
+	MOVQ 32(DI), R8
+	VMOVDQU e, (R8)
+	MOVQ 40(DI), R8
+	VMOVDQU f, (R8)
+	MOVQ 48(DI), R8
+	VMOVDQU g, (R8)
+	MOVQ 56(DI), R8
+	VMOVDQU h, (R8)
+
+	VZEROUPPER
+
+	RET
+
+// blockMultBy8(dig **[8]uint32, p *[]byte, buffer *byte, blocks int)
+TEXT ·blockMultBy8(SB),NOSPLIT,$0
+	MOVQ	dig+0(FP), DI
+	MOVQ	p+8(FP), SI
+	MOVQ	buffer+16(FP), BX
+	MOVQ	blocks+24(FP), DX
+
+	// load state
+	MOVQ (DI), R8
+	VMOVDQU (R8), a
+	MOVQ 8(DI), R8
+	VMOVDQU (R8), b
+	MOVQ 16(DI), R8
+	VMOVDQU (R8), c
+	MOVQ 24(DI), R8
+	VMOVDQU (R8), d
+	MOVQ 32(DI), R8
+	VMOVDQU (R8), e
+	MOVQ 40(DI), R8
+	VMOVDQU (R8), f
+	MOVQ 48(DI), R8
+	VMOVDQU (R8), g
+	MOVQ 56(DI), R8
+	VMOVDQU (R8), h
+
+	TRANSPOSE_MATRIX(a, b, c, d, e, f, g, h, TMP1, TMP2, TMP3, TMP4)
+
+	saveState
+
+	MOVQ $·_K+0(SB), AX
+	MOVQ (0*8)(SI), srcPtr1
+	MOVQ (1*8)(SI), srcPtr2
+	MOVQ (2*8)(SI), srcPtr3
+	MOVQ (3*8)(SI), srcPtr4
+	MOVQ (4*8)(SI), srcPtr5
+	MOVQ (5*8)(SI), srcPtr6
+	MOVQ (6*8)(SI), srcPtr7
+	MOVQ (7*8)(SI), srcPtr8
+
+loop:
+	prepare8Words(0)
+	prepare8Words(1)
+
+	loadState
+
+	ROUND_00_11(0, a, b, c, d, e, f, g, h)
+	ROUND_00_11(1, h, a, b, c, d, e, f, g)
+	ROUND_00_11(2, g, h, a, b, c, d, e, f)
+	ROUND_00_11(3, f, g, h, a, b, c, d, e)
+	ROUND_00_11(4, e, f, g, h, a, b, c, d)
+	ROUND_00_11(5, d, e, f, g, h, a, b, c)
+	ROUND_00_11(6, c, d, e, f, g, h, a, b)
+	ROUND_00_11(7, b, c, d, e, f, g, h, a)
+	ROUND_00_11(8, a, b, c, d, e, f, g, h)
+	ROUND_00_11(9, h, a, b, c, d, e, f, g)
+	ROUND_00_11(10, g, h, a, b, c, d, e, f)
+	ROUND_00_11(11, f, g, h, a, b, c, d, e)
+
+	ROUND_12_15(12, e, f, g, h, a, b, c, d)
+	ROUND_12_15(13, d, e, f, g, h, a, b, c)
+	ROUND_12_15(14, c, d, e, f, g, h, a, b)
+	ROUND_12_15(15, b, c, d, e, f, g, h, a)
+
+	ROUND_16_63(16, a, b, c, d, e, f, g, h)
+	ROUND_16_63(17, h, a, b, c, d, e, f, g)
+	ROUND_16_63(18, g, h, a, b, c, d, e, f)
+	ROUND_16_63(19, f, g, h, a, b, c, d, e)
+	ROUND_16_63(20, e, f, g, h, a, b, c, d)
+	ROUND_16_63(21, d, e, f, g, h, a, b, c)
+	ROUND_16_63(22, c, d, e, f, g, h, a, b)
+	ROUND_16_63(23, b, c, d, e, f, g, h, a)
+	ROUND_16_63(24, a, b, c, d, e, f, g, h)
+	ROUND_16_63(25, h, a, b, c, d, e, f, g)
+	ROUND_16_63(26, g, h, a, b, c, d, e, f)
+	ROUND_16_63(27, f, g, h, a, b, c, d, e)
+	ROUND_16_63(28, e, f, g, h, a, b, c, d)
+	ROUND_16_63(29, d, e, f, g, h, a, b, c)
+	ROUND_16_63(30, c, d, e, f, g, h, a, b)
+	ROUND_16_63(31, b, c, d, e, f, g, h, a)
+	ROUND_16_63(32, a, b, c, d, e, f, g, h)
+	ROUND_16_63(33, h, a, b, c, d, e, f, g)
+	ROUND_16_63(34, g, h, a, b, c, d, e, f)
+	ROUND_16_63(35, f, g, h, a, b, c, d, e)
+	ROUND_16_63(36, e, f, g, h, a, b, c, d)
+	ROUND_16_63(37, d, e, f, g, h, a, b, c)
+	ROUND_16_63(38, c, d, e, f, g, h, a, b)
+	ROUND_16_63(39, b, c, d, e, f, g, h, a)
+	ROUND_16_63(40, a, b, c, d, e, f, g, h)
+	ROUND_16_63(41, h, a, b, c, d, e, f, g)
+	ROUND_16_63(42, g, h, a, b, c, d, e, f)
+	ROUND_16_63(43, f, g, h, a, b, c, d, e)
+	ROUND_16_63(44, e, f, g, h, a, b, c, d)
+	ROUND_16_63(45, d, e, f, g, h, a, b, c)
+	ROUND_16_63(46, c, d, e, f, g, h, a, b)
+	ROUND_16_63(47, b, c, d, e, f, g, h, a)
+	ROUND_16_63(48, a, b, c, d, e, f, g, h)
+	ROUND_16_63(49, h, a, b, c, d, e, f, g)
+	ROUND_16_63(50, g, h, a, b, c, d, e, f)
+	ROUND_16_63(51, f, g, h, a, b, c, d, e)
+	ROUND_16_63(52, e, f, g, h, a, b, c, d)
+	ROUND_16_63(53, d, e, f, g, h, a, b, c)
+	ROUND_16_63(54, c, d, e, f, g, h, a, b)
+	ROUND_16_63(55, b, c, d, e, f, g, h, a)
+	ROUND_16_63(56, a, b, c, d, e, f, g, h)
+	ROUND_16_63(57, h, a, b, c, d, e, f, g)
+	ROUND_16_63(58, g, h, a, b, c, d, e, f)
+	ROUND_16_63(59, f, g, h, a, b, c, d, e)
+	ROUND_16_63(60, e, f, g, h, a, b, c, d)
+	ROUND_16_63(61, d, e, f, g, h, a, b, c)
+	ROUND_16_63(62, c, d, e, f, g, h, a, b)
+	ROUND_16_63(63, b, c, d, e, f, g, h, a)
+
+	xorm(  0(BX), a)
+	xorm( 32(BX), b)
+	xorm( 64(BX), c)
+	xorm( 96(BX), d)
+	xorm( 128(BX), e)
+	xorm( 160(BX), f)
+	xorm( 192(BX), g)
+	xorm(224(BX), h)
+
+	LEAQ 64(srcPtr1), srcPtr1
+	LEAQ 64(srcPtr2), srcPtr2
+	LEAQ 64(srcPtr3), srcPtr3
+	LEAQ 64(srcPtr4), srcPtr4
+	LEAQ 64(srcPtr5), srcPtr5
+	LEAQ 64(srcPtr6), srcPtr6
+	LEAQ 64(srcPtr7), srcPtr7
+	LEAQ 64(srcPtr8), srcPtr8
+
+	DECQ DX
+	JNZ loop
+
+	TRANSPOSE_MATRIX(a, b, c, d, e, f, g, h, TMP1, TMP2, TMP3, TMP4)
+
+	// save state
+	MOVQ (DI), R8
+	VMOVDQU a, (R8)
+	MOVQ 8(DI), R8
+	VMOVDQU b, (R8)
+	MOVQ 16(DI), R8
+	VMOVDQU c, (R8)
+	MOVQ 24(DI), R8
+	VMOVDQU d, (R8)
+	MOVQ 32(DI), R8
+	VMOVDQU e, (R8)
+	MOVQ 40(DI), R8
+	VMOVDQU f, (R8)
+	MOVQ 48(DI), R8
+	VMOVDQU g, (R8)
+	MOVQ 56(DI), R8
+	VMOVDQU h, (R8)
+
+	VZEROUPPER
+	RET
--- a/sm3/sm3blocks_avx2_test.go
+++ b/sm3/sm3blocks_avx2_test.go
@ -0,0 +1,147 @@
+//go:build amd64 && !purego
+
+package sm3
+
+import (
+	"fmt"
+	"testing"
+)
+
+func initState8() [8]*[8]uint32 {
+	d := new(digest)
+	d.Reset()
+	var dig1 = d.h
+	var dig2 = d.h
+	var dig3 = d.h
+	var dig4 = d.h
+	var dig5 = d.h
+	var dig6 = d.h
+	var dig7 = d.h
+	return [8]*[8]uint32{&d.h, &dig1, &dig2, &dig3, &dig4, &dig5, &dig6, &dig7}
+}
+
+func createOneBlockBy8() [8]*byte {
+	var p1 [64]byte
+	p1[0] = 0x61
+	p1[1] = 0x62
+	p1[2] = 0x63
+	p1[3] = 0x80
+	p1[63] = 0x18
+	var p2 = p1
+	var p3 = p1
+	var p4 = p1
+	var p5 = p1
+	var p6 = p1
+	var p7 = p1
+	var p8 = p1
+	return [8]*byte{&p1[0], &p2[0], &p3[0], &p4[0], &p5[0], &p6[0], &p7[0], &p8[0]}
+}
+
+func createTwoBlocksBy8() [8]*byte {
+	var p1 [128]byte
+	p1[0] = 0x61
+	p1[1] = 0x62
+	p1[2] = 0x63
+	p1[3] = 0x64
+	copy(p1[4:], p1[:4])
+	copy(p1[8:], p1[:8])
+	copy(p1[16:], p1[:16])
+	copy(p1[32:], p1[:32])
+	p1[64] = 0x80
+	p1[126] = 0x02
+	var p2 = p1
+	var p3 = p1
+	var p4 = p1
+	var p5 = p1
+	var p6 = p1
+	var p7 = p1
+	var p8 = p1
+	return [8]*byte{&p1[0], &p2[0], &p3[0], &p4[0], &p5[0], &p6[0], &p7[0], &p8[0]}
+}
+
+func TestTransposeMatrix8x8(t *testing.T) {
+	if !useAVX2 {
+		t.Skip("AVX2 is not supported")
+	}
+	var m [8][8]uint32
+	for i := 0; i < 8; i++ {
+		for j := 0; j < 8; j++ {
+			m[i][j] = uint32(i*8 + j)
+		}
+	}
+	input := [8]*[8]uint32{&m[0], &m[1], &m[2], &m[3], &m[4], &m[5], &m[6], &m[7]}
+	transposeMatrix8x8(&input[0])
+	for i := 0; i < 8; i++ {
+		for j := 0; j < 8; j++ {
+			if m[j][i] != uint32(i*8+j) {
+				t.Errorf("m[%d][%d] got %d", i, j, m[j][i])
+			}
+		}
+	}
+	transposeMatrix8x8(&input[0])
+	for i := 0; i < 8; i++ {
+		for j := 0; j < 8; j++ {
+			if m[i][j] != uint32(i*8+j) {
+				t.Errorf("m[%d][%d] got %d", i, j, m[i][j])
+			}
+		}
+	}
+}
+
+func TestBlockMultBy8(t *testing.T) {
+	if !useAVX2 {
+		t.Skip("AVX2 is not supported")
+	}
+	digs := initState8()
+	p := createOneBlockBy8()
+	buffer := make([]byte, preallocSizeBy8)
+	blockMultBy8(&digs[0], &p[0], &buffer[0], 1)
+	expected := "[66c7f0f4 62eeedd9 d1f2d46b dc10e4e2 4167c487 5cf2f7a2 297da02b 8f4ba8e0]"
+	for i := 0; i < 8; i++ {
+		s := fmt.Sprintf("%x", digs[i][:])
+		if s != expected {
+			t.Errorf("digs[%d] got %s", i, s)
+		}
+	}
+
+	digs = initState8()
+	p = createTwoBlocksBy8()
+	blockMultBy8(&digs[0], &p[0], &buffer[0], 2)
+	expected = "[debe9ff9 2275b8a1 38604889 c18e5a4d 6fdb70e5 387e5765 293dcba3 9c0c5732]"
+	for i := 0; i < 8; i++ {
+		s := fmt.Sprintf("%x", digs[i][:])
+		if s != expected {
+			t.Errorf("digs[%d] got %s", i, s)
+		}
+	}
+}
+
+func BenchmarkOneBlockBy8(b *testing.B) {
+	if !useAVX2 {
+		b.Skip("AVX2 is not supported")
+	}
+	digs := initState8()
+	p := createOneBlockBy8()
+	buffer := make([]byte, preallocSizeBy8)
+	b.SetBytes(64 * 8)
+	b.ReportAllocs()
+	b.ResetTimer()
+	for i := 0; i < b.N; i++ {
+		blockMultBy8(&digs[0], &p[0], &buffer[0], 1)
+	}
+}
+
+func BenchmarkTwoBlocksBy8(b *testing.B) {
+	if !useAVX2 {
+		b.Skip("AVX2 is not supported")
+	}
+	digs := initState8()
+	p := createTwoBlocksBy8()
+	buffer := make([]byte, preallocSizeBy8)
+	b.SetBytes(64 * 2 * 8)
+	b.ReportAllocs()
+	b.ResetTimer()
+	for i := 0; i < b.N; i++ {
+		blockMultBy8(&digs[0], &p[0], &buffer[0], 2)
+	}
+}