first commit
This commit is contained in:
commit
ad9bae788e
90
gbk.go
Normal file
90
gbk.go
Normal file
@ -0,0 +1,90 @@
|
|||||||
|
package startext
|
||||||
|
|
||||||
|
import "golang.org/x/text/encoding/simplifiedchinese"
|
||||||
|
|
||||||
|
func IsUtf8(data []byte) bool {
|
||||||
|
return isUtf8(data)
|
||||||
|
}
|
||||||
|
|
||||||
|
func IsGBK(data []byte) bool {
|
||||||
|
return (!isUtf8(data)) && isGBK(data)
|
||||||
|
}
|
||||||
|
|
||||||
|
func isGBK(data []byte) bool {
|
||||||
|
length := len(data)
|
||||||
|
var i int = 0
|
||||||
|
for i < length {
|
||||||
|
if data[i] <= 0x7f {
|
||||||
|
//编码0~127,只有一个字节的编码,兼容ASCII码
|
||||||
|
i++
|
||||||
|
continue
|
||||||
|
} else {
|
||||||
|
//大于127的使用双字节编码,落在gbk编码范围内的字符
|
||||||
|
if data[i] >= 0x81 &&
|
||||||
|
data[i] <= 0xfe &&
|
||||||
|
data[i+1] >= 0x40 &&
|
||||||
|
data[i+1] <= 0xfe &&
|
||||||
|
data[i+1] != 0x7f {
|
||||||
|
i += 2
|
||||||
|
continue
|
||||||
|
} else {
|
||||||
|
return false
|
||||||
|
}
|
||||||
|
}
|
||||||
|
}
|
||||||
|
return true
|
||||||
|
}
|
||||||
|
|
||||||
|
//UTF-8编码格式的判断
|
||||||
|
|
||||||
|
func preNUm(data byte) int {
|
||||||
|
var mask byte = 0x80
|
||||||
|
var num int = 0
|
||||||
|
//8bit中首个0bit前有多少个1bits
|
||||||
|
for i := 0; i < 8; i++ {
|
||||||
|
if (data & mask) == mask {
|
||||||
|
num++
|
||||||
|
mask = mask >> 1
|
||||||
|
} else {
|
||||||
|
break
|
||||||
|
}
|
||||||
|
}
|
||||||
|
return num
|
||||||
|
}
|
||||||
|
func isUtf8(data []byte) bool {
|
||||||
|
i := 0
|
||||||
|
for i < len(data) {
|
||||||
|
if (data[i] & 0x80) == 0x00 {
|
||||||
|
// 0XXX_XXXX
|
||||||
|
i++
|
||||||
|
continue
|
||||||
|
} else if num := preNUm(data[i]); num > 2 {
|
||||||
|
// 110X_XXXX 10XX_XXXX
|
||||||
|
// 1110_XXXX 10XX_XXXX 10XX_XXXX
|
||||||
|
// 1111_0XXX 10XX_XXXX 10XX_XXXX 10XX_XXXX
|
||||||
|
// 1111_10XX 10XX_XXXX 10XX_XXXX 10XX_XXXX 10XX_XXXX
|
||||||
|
// 1111_110X 10XX_XXXX 10XX_XXXX 10XX_XXXX 10XX_XXXX 10XX_XXXX
|
||||||
|
// preNUm() 返回首个字节的8个bits中首个0bit前面1bit的个数,该数量也是该字符所使用的字节数
|
||||||
|
i++
|
||||||
|
for j := 0; j < num-1; j++ {
|
||||||
|
//判断后面的 num - 1 个字节是不是都是10开头
|
||||||
|
if (data[i] & 0xc0) != 0x80 {
|
||||||
|
return false
|
||||||
|
}
|
||||||
|
i++
|
||||||
|
}
|
||||||
|
} else {
|
||||||
|
//其他情况说明不是utf-8
|
||||||
|
return false
|
||||||
|
}
|
||||||
|
}
|
||||||
|
return true
|
||||||
|
}
|
||||||
|
|
||||||
|
func GBK2UTF8(data []byte) ([]byte,error) {
|
||||||
|
return simplifiedchinese.GBK.NewDecoder().Bytes(data)
|
||||||
|
}
|
||||||
|
|
||||||
|
func UTF82GBK(data []byte) ([]byte,error) {
|
||||||
|
return simplifiedchinese.GBK.NewEncoder().Bytes(data)
|
||||||
|
}
|
31
gbk_test.go
Normal file
31
gbk_test.go
Normal file
@ -0,0 +1,31 @@
|
|||||||
|
package startext
|
||||||
|
|
||||||
|
import (
|
||||||
|
"fmt"
|
||||||
|
"testing"
|
||||||
|
)
|
||||||
|
|
||||||
|
func Test_Gbk(t *testing.T) {
|
||||||
|
str:="你好"
|
||||||
|
if IsGBK([]byte(str)) {
|
||||||
|
t.Fail()
|
||||||
|
}
|
||||||
|
if !IsUtf8([]byte(str)) {
|
||||||
|
t.Fail()
|
||||||
|
}
|
||||||
|
gbk,err:=UTF82GBK([]byte(str))
|
||||||
|
if err!=nil{
|
||||||
|
t.Fatal(err)
|
||||||
|
}
|
||||||
|
if !IsGBK(gbk) {
|
||||||
|
t.Fail()
|
||||||
|
}
|
||||||
|
if IsUtf8(gbk) {
|
||||||
|
t.Fail()
|
||||||
|
}
|
||||||
|
utf8,err:=GBK2UTF8(gbk)
|
||||||
|
if err!=nil{
|
||||||
|
t.Fatal(err)
|
||||||
|
}
|
||||||
|
fmt.Println(string(utf8))
|
||||||
|
}
|
Loading…
x
Reference in New Issue
Block a user