From 3e32a52bee01eeb0171460f148ca2db501693d0e Mon Sep 17 00:00:00 2001
From: Emman <emman.sun@cargosmart.com>
Date: Thu, 13 Jan 2022 08:40:32 +0800
Subject: [PATCH] [SM4] try arm64 gcmSm4Init

---
 sm4/gcm_arm64.s      | 125 ++++++++++++++++++++-----------------------
 sm4/sm4_gcm_arm64.go |   6 +--
 sm4/sm4_gcm_test.go  |   4 +-
 3 files changed, 63 insertions(+), 72 deletions(-)

diff --git a/sm4/gcm_arm64.s b/sm4/gcm_arm64.s
index 6563de6..298d2b7 100644
--- a/sm4/gcm_arm64.s
+++ b/sm4/gcm_arm64.s
@@ -107,71 +107,45 @@ TEXT ·gcmSm4Finish(SB),NOSPLIT,$0
 #undef dlen
 
 #define SM4_SBOX(x, y, z, z1, z2) \
-	MOVD $0x0F0F0F0F0F0F0F0F, R19;                 \
-	VMOV R19, z1.D2;                                \ // nibble mask
-	VAND x.B16, z1.B16, z2.B16;                    \
-	MOVD $0x9197E2E474720701, R19;                 \
-	VMOV R19, z.D[0];                              \ 
-	MOVD $0xC7C1B4B222245157, R19;                 \
-	VMOV R19, z.D[1];                              \ // m1 low	
-	VTBL z2.B16, [z.B16], y.B16;                   \
-	VUSHR $4, x.D2, x.D2;                          \
-	VAND x.B16, z1.B16, z2.B16;                    \
-	MOVD $0xE240AB09EB49A200, R19;                 \
-	VMOV R19, z.D[0];                              \
-	MOVD $0xF052B91BF95BB012, R19;                 \
-	VMOV R19, z.D[1];                              \ // m1 high		
-	VTBL z2.B16, [z.B16], z2.B16;                  \
-	VEOR y.B16, z2.B16, x.B16;                     \
-	MOVD $0x0B0E0104070A0D00, R19;                 \ 
-	VMOV R19, z.D[0];                              \
-	MOVD $0x0306090C0F020508, R19;                 \
-	VMOV R19, z.D[1];                              \ // inverse shift row			
-	VTBL z.B16, [x.B16], x.B16;                    \
-	AESE ZERO.B16, x.B16;                          \	
-	VAND x.B16, z1.B16, z2.B16;                    \
-	MOVD $0x5B67F2CEA19D0834, R19;                 \
-	VMOV R19, z.D[0];                              \
-	MOVD $0xEDD14478172BBE82, R19;                 \
-	VMOV R19, z.D[1];                              \ // m2 low		
-	VTBL z2.B16, [z.B16], y.B16;                   \
-	VUSHR $4, x.D2, x.D2;                          \
-	VAND x.B16, z1.B16, z2.B16;                    \
-	MOVD $0xAE7201DD73AFDC00, R19;                 \
-	VMOV R19, z.D[0];                              \
-	MOVD $0x11CDBE62CC1063BF, R19;                 \
-	VMOV R19, z.D[1];                              \ // m2 high		
-	VTBL z2.B16, [z.B16], z2.B16;                  \
+	VMOVQ $0x0F0F0F0F0F0F0F0F, $0x0F0F0F0F0F0F0F0F, z1;   \ // nibble mask
+	VAND x.B16, z1.B16, z2.B16;                           \
+	VMOVQ $0xC7C1B4B222245157, $0x9197E2E474720701, z;    \
+	VTBL z2.B16, [z.B16], y.B16;                          \
+	VUSHR $4, x.D2, x.D2;                                 \
+	VAND x.B16, z1.B16, z2.B16;                           \
+	VMOVQ $0xF052B91BF95BB012, $0xE240AB09EB49A200, z;    \
+	VTBL z2.B16, [z.B16], z2.B16;                         \
+	VEOR y.B16, z2.B16, x.B16;                            \
+	VMOVQ $0x0306090C0F020508, $0x0B0E0104070A0D00, z;    \
+	VTBL z.B16, [x.B16], x.B16;                           \
+	AESE ZERO.B16, x.B16;                                 \	
+	VAND x.B16, z1.B16, z2.B16;                           \
+	VMOVQ $0xEDD14478172BBE82, $0x5B67F2CEA19D0834, z;    \
+	VTBL z2.B16, [z.B16], y.B16;                          \
+	VUSHR $4, x.D2, x.D2;                                 \
+	VAND x.B16, z1.B16, z2.B16;                           \
+	VMOVQ $0x11CDBE62CC1063BF, $0xAE7201DD73AFDC00, z;    \
+	VTBL z2.B16, [z.B16], z2.B16;                         \
 	VEOR y.B16, z2.B16, x.B16
 
 #define SM4_TAO_L1(x, y, z, z1, z2)         \
-	SM4_SBOX(x, y, z, z1, z2);                   \
-	;                                            \
-	MOVD $0x0605040702010003, R19;               \
-	VMOV R19, z.D[0];                            \
-	MOVD $0x0E0D0C0F0A09080B, R19;               \
-	VMOV R19, z.D[1];                            \ // r08 mask
-	VTBL z.B16, [x.B16], y.B16;                  \
-	VEOR y.B16, x.B16, y.B16;                    \
-	MOVD $0x0504070601000302, R19;               \
-	VMOV R19, z.D[0];                            \
-	MOVD $0x0D0C0F0E09080B0A, R19;               \
-	VMOV R19, z.D[1];                            \ // r16 mask
-	VTBL z.B16, [x.B16], z.B16;                  \
-	VEOR z.B16, y.B16, y.B16;                    \
-	VSHL $2, y.S4, z.S4;                         \
-	VUSHR $30, y.S4, y.S4;                       \
-	VORR y.B16, z.B16, y.B16;                    \
-	MOVD $0x0407060500030201, R19;               \
-	VMOV R19, z.D[0];                            \
-	MOVD $0x0C0F0E0D080B0A09, R19;               \
-	VMOV R19, z.D[1];                            \ // r24 mask
-	VTBL z.B16, [x.B16], z.B16;                  \
-	VEOR z.B16, x.B16, x.B16;                    \
+	SM4_SBOX(x, y, z, z1, z2);                           \
+	VMOVQ $0x0E0D0C0F0A09080B, $0x0605040702010003, z;   \
+	VTBL z.B16, [x.B16], y.B16;                          \
+	VEOR y.B16, x.B16, y.B16;                            \
+	VMOVQ $0x0D0C0F0E09080B0A, $0x0504070601000302, z;   \
+	VTBL z.B16, [x.B16], z.B16;                          \
+	VEOR z.B16, y.B16, y.B16;                            \
+	VSHL $2, y.S4, z.S4;                                 \
+	VUSHR $30, y.S4, y.S4;                               \
+	VORR y.B16, z.B16, y.B16;                            \
+	VMOVQ $0x0C0F0E0D080B0A09, $0x0407060500030201, z;   \
+	VTBL z.B16, [x.B16], z.B16;                          \
+	VEOR z.B16, x.B16, x.B16;                            \
 	VEOR y.B16, x.B16, x.B16
 
-#define SM4_ROUND(RK, x, y, z, z1, z2, t0, t1, t2, t3)  \ 
-	MOVW.P 4(RK), R19;                                \
+#define SM4_ROUND(index, RK, x, y, z, z1, z2, t0, t1, t2, t3)  \ 
+	MOVW (index*4)(RK), R19;                          \
 	VMOV R19, x.S4;                                   \
 	VEOR t1.B16, x.B16, x.B16;                        \
 	VEOR t2.B16, x.B16, x.B16;                        \
@@ -179,10 +153,10 @@ TEXT ·gcmSm4Finish(SB),NOSPLIT,$0
 	SM4_TAO_L1(x, y, z, z1, z2);                      \
 	VEOR x.B16, t0.B16, t0.B16
 
-// func precomputeTableAsm(productTable *[256]byte, src *[16]byte)
-TEXT ·precomputeTableAsm(SB),NOSPLIT,$0
+// func gcmSm4Init(productTable *[256]byte, rk []uint32)
+TEXT ·gcmSm4Init(SB),NOSPLIT,$0
 #define pTbl R0
-#define SRC R1
+#define RK R1
 #define I R2
 
 	MOVD productTable+0(FP), pTbl
@@ -195,8 +169,27 @@ TEXT ·precomputeTableAsm(SB),NOSPLIT,$0
 	VMOV	I, POLY.D[1]
 	VEOR	ZERO.B16, ZERO.B16, ZERO.B16
 
-	VLD1 (SRC), [B0.B16]
-	VREV64	B0.B16, B0.B16
+	// Encrypt block 0 with the SM4 keys to generate the hash key H
+	VEOR	B0.B16, B0.B16, B0.B16
+	VEOR	B1.B16, B1.B16, B1.B16
+	VEOR	B2.B16, B2.B16, B2.B16
+	VEOR	B3.B16, B3.B16, B3.B16
+	EOR R3, R3
+
+sm4InitEncLoop:	
+	SM4_ROUND(0, RK, K0, K1, K2, K3, K4, B0, B1, B2, B3)
+	SM4_ROUND(1, RK, K0, K1, K2, K3, K4, B1, B2, B3, B0)
+	SM4_ROUND(2, RK, K0, K1, K2, K3, K4, B2, B3, B0, B1)
+	SM4_ROUND(3, RK, K0, K1, K2, K3, K4, B3, B0, B1, B2)
+
+	ADD $16, R3
+	CMP $128, R3
+	BNE sm4InitEncLoop
+
+	VMOV B0.S[0], B0.S[2]
+	VMOV B1.S[0], B0.S[3]
+	VMOV B2.S[0], B0.S[0]
+	VMOV B3.S[0], B0.S[1]
 
 	// Multiply by 2 modulo P
 	VMOV	B0.D[0], I
@@ -254,7 +247,7 @@ initLoop:
 	BNE	initLoop
 	RET
 #undef I
-#undef SRC
+#undef RK
 #undef pTbl	
 
 // func gcmSm4Data(productTable *[256]byte, data []byte, T *[16]byte)
diff --git a/sm4/sm4_gcm_arm64.go b/sm4/sm4_gcm_arm64.go
index ed4dd8b..9949176 100644
--- a/sm4/sm4_gcm_arm64.go
+++ b/sm4/sm4_gcm_arm64.go
@@ -21,7 +21,7 @@ type sm4CipherGCM struct {
 var _ gcmAble = (*sm4CipherGCM)(nil)
 
 //go:noescape
-func precomputeTableAsm(productTable *[256]byte, src *[16]byte)
+func gcmSm4Init(productTable *[256]byte, rk []uint32)
 
 //go:noescape
 func gcmSm4Data(productTable *[256]byte, data []byte, T *[16]byte)
@@ -41,9 +41,7 @@ func (c *sm4CipherGCM) NewGCM(nonceSize, tagSize int) (cipher.AEAD, error) {
 	g.cipher = &c.sm4CipherAsm
 	g.nonceSize = nonceSize
 	g.tagSize = tagSize
-	var key [gcmBlockSize]byte
-	c.Encrypt(key[:], key[:])
-	precomputeTableAsm(&g.bytesProductTable, &key)
+	gcmSm4Init(&g.bytesProductTable, g.cipher.enc)
 	return g, nil
 }
 
diff --git a/sm4/sm4_gcm_test.go b/sm4/sm4_gcm_test.go
index 4b7c7f1..75acca9 100644
--- a/sm4/sm4_gcm_test.go
+++ b/sm4/sm4_gcm_test.go
@@ -1,5 +1,5 @@
-//go:build amd64
-// +build amd64
+//go:build amd64 || arm64
+// +build amd64 arm64
 
 package sm4