8、数据结构-字符串、编码集

news/2024/7/23 15:10:53 标签: 数据结构

编码表

中文编码表

​ 数字到中文单一字符的映射,汉字只能使用多字节的2字节,总有65535种状态。常见的中文编码有GB2312 、GBK 、GB18030 、BIG 5。

​ 所有编码表都兼容单字节的ASCII表。

UNICODE

​ 多字节,一张编码表解决全球多数字符对应问题

​ 表示汉字多数使用2个字节

​ Go中’x’方式,保存int32 rune整数值,%c打印通过Unicode编码表找到字符输出

​ 因为字符是int32 rune类型,所以是4字节,但是汉字只占2个字节

func main() {
	var s1 = 'x'
	fmt.Println(s1)
	fmt.Printf("%c", s1)

}
120
x

UTF-8

​ 多字节

​ 汉字转化为3个字节

​ utf8mb4

​ 字符串,字符序列,每个汉字就是utf8编码的,也就是汉字是3个字节

乱码问题:编码和解码用得不是一套编码表

ASCII

在这里插入图片描述

ascii码总有有 128位,用来表示常用的字符。

在这里插入图片描述

注意:这里的1指的是字符1,不是数字1

UTF-8、GBK都兼容了ASCII

"a\x09b\x0ac \x31\x20\x41\x61" 表示什么?
"a	b
c 1 Aa"
'A' > 'a'  谁大?字符比较
	if 'A' > 'a' {
		fmt.Println("A大")
	} else {
		fmt.Println("a大")
	}
a大		本质比较的是在ascii中A和a对应的编码值

"a" > "A"  谁大?字符串比较 同上
"AA" > "Aa" 谁大?先比较第一位,第一位相同在比较第二位

字符

​ 本质上来说,计算机中一切都是字节的,字符串也是多个字节组合而成,就是多个字节形成的有序序列。但是对于多字节编码的中文来说,用一个字节描述不了,需要多个字节表示一个字符,Go提供了rune类型。

  • byte:兼容ASCII码的字符,是byte类型,即uint8别名,占用1个字节
  • rune: 汉字等字符,unicode编码,是rune类型,即int32别名,占用4个字节
  • 一个字符字面量使用单引号引起来

字符串与字节序列的转换

func main() {
	s1 := "abc"
	s2 := "测试"
	fmt.Println(len(s1), len(s2))
}
3 6 
//结论:在字符串中,中文一个汉字占3个字节
// 强制类型转换 string => []byte; string => []rune
// 注意[]byte表示字节序列;[]rune表示rune序列
func main() {
	s1 := "abc"
	 s2 := "测试"
	fmt.Println([]byte(s1))
	fmt.Println([]rune(s1))
}
[97 98 99]
[97 98 99]

func main() {
	s2 := "测试" 
	fmt.Println([]byte(s2))		 // utf-8 bytes,长度为6即6个字节
	fmt.Println([]rune(s2))		// unicode切片,长度为2,每个元素4字节
}
[230 181 139 232 175 149]
[27979 35797]
//结论:汉字转字节  在字符串中,一个汉字对应3个字节 所以测试是6个字节
func main() {
	fmt.Printf("%x, %x\n", 27979, 35797) //转16进制
	fmt.Printf("%c%c\n", 27979, 35797)

}
6d4b, 8bd5   
测试
// []byte => string
func main() {
	fmt.Println(string([]byte{49, 65, 97}))
}
1Aa 
//结论:在ASCII中查询对应的值
// []rune => string
测试
//结论:rune使用unicode,但是字符串内部使用utf-8

重点

func main() {
	var s2 = "测试"
	fmt.Println(s2[0], s2[1], s2[2])
}
230 181 139
//结论:是按照字节的形式取出来的

string(一个整数),强制类型转换一个整数,相当于把整数当unicode码,去查一个字符,最后返回
字符串
string(整数序列),强制类型转换一个整数序列,也是转成字符串

字符串

  • 字面常量,只读,不可变
  • 线性数据结构,可以索引
  • 值类型
  • utf-8编码

长度

​ 使用内建函数len,返回字符串占用的字节数。时间复杂度为O(1),字符串是字面常量,定义时已经知道长度,记录下来即可

索引

​ 不支持负索引,索引范围[0, len(s)-1]。

​ 即使是有中文,索引指的是按照 字节的偏移量。

​ 时间复杂度O(1),使用索引计算该字符相对开头的偏移量即可。

​ 对于顺序表来说,使用索引效率查找效率是最高的。

​ s[i] 获取索引i处的UTF-8编码的一个字节。

遍历

C风格使用索引遍历,相当于字节遍历

func main() {
	s := "ZFL努力学习编程"
	for i := 0; i < len(s); i++ {
		fmt.Printf("%d, %T, %[2]d %[2]c\n", i, s[i])
	}
}
0, uint8, 90 Z
1, uint8, 70 F
2, uint8, 76 L
3, uint8, 229 å
4, uint8, 138 Š
5, uint8, 170 ª
6, uint8, 229 å
7, uint8, 138 Š
8, uint8, 1559, uint8, 229 å
10, uint8, 173 ­
11, uint8, 166 ¦
12, uint8, 228 ä
13, uint8, 185 ¹
14, uint8, 160  
15, uint8, 231 ç
16, uint8, 188 ¼
17, uint8, 15018, uint8, 231 ç
19, uint8, 168 ¨
20, uint8, 139//这是以字节遍历的 因为汉字是3个字节 所以后面的%c会看不懂
func main() {
	s := "ZFL努力学习编程"
	for i, v := range s {
		fmt.Printf("%d: %[3]d %[3]c\n", i, s[i], v)
	}
}
0: 90 Z
1: 70 F
2: 76 L
3: 211626: 211479: 2339812: 2006415: 3253418: 31243//结论:高级for循环是遍历字符的。   因为字符是rune类型,所以查找表,将对应的值输出来

strings库

字符串是字面常量,不可修改,很多操作都是返回新的字符串

拼接

常用的四种:

  • join:使用间隔符拼接字符串切片
  • Builder:多次拼接,推荐
  • fmt.Sprintf:方便快捷,推荐
  • 直接通过+来拼接
func main() {
	s0 := "zfl"
	s1 := "努力学习编程"
	s2 := s0 + s1
	fmt.Println(s2)
}
zfl努力学习编程
func main() {
	s0 := "zfl"
	s1 := "努力学习编程"
	s3 := strings.Join([]string{s0, s1}, "")
	fmt.Println(s3)
}
zfl努力学习编程
func main() {
	s0 := "zfl"
	s1 := "努力学习编程"
	s4 := fmt.Sprintf("%s%s\n", s0, s1)
	fmt.Println(s4)
}
zfl努力学习编程
//多次拼接
func main() {
	s0 := "zfl"
	s1 := "努力学习编程"
	var b strings.Builder
	b.WriteString(s0)
	b.WriteByte('-')
	b.WriteString(s1)
	s5 := b.String()
	fmt.Println(s5)
}
zfl-努力学习编程

结论:简单拼接字符串常用+、fmt.Sprintf。如果手里正好有字符串的序列,可以考虑Join。如果反复多次拼接,strings.Builder是推荐的方式。

查询

  • Index:从左至右搜索,返回子串第一次出现的字节索引位置。未找到,返回-1。子串为空,也返回0。
  • LastIndex:从右至左搜索,返回子串第一次出现的字节索引位置。未找到,返回-1。
  • IndexByte、IndexRune与Index类似;LastIndexByte与LastIndex类似。
  • IndexAny:从左至右搜索,找到给定的字符集字符串中任意一个字符就返回索引位置。未找到返回-1。
  • Contains方法本质上就是Index方法,只不过返回bool值,方便使用bool值时使用。
  • LastIndexAny与IndexAny搜索方向相反。
  • Count:从左至右搜索子串,返回子串出现的次数

时间复杂度是O(n),效率不高,该用则用,但要少用。>

//Index:从左至右搜索,返回子串第一次出现的字节索引位置。未找到,返回-1。子串为空,也返回0。
func main() {
	s0 := "zfl努力学习编程"
	fmt.Println(strings.Index(s0, "学"))

}
9
结论:一个汉字三个字节,所以为9
​~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~``
func main() {
	s0 := "zfl努力学习编程"
	fmt.Println(strings.Index(s0, "学"))
	fmt.Println(strings.Index(s0, "龙"))
}
-1
​~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~``
func main() {
	s0 := "zfl努力学习编程"
	fmt.Println(strings.Index(s0, "学"))
	fmt.Println(strings.Index(s0, ""))
}
0
//LastIndex:从右至左搜索,返回子串第一次出现的字节索引位置。未找到,返回-1。
func main() {
	s0 := "zfl努力学习编程"
	fmt.Println(strings.LastIndex(s0, "学"))
	fmt.Println(strings.LastIndex(s0, "龙"))
}
9
-1
结论:索引号是不变的 虽然从右到左,但是也仍旧是左到右的索引
//IndexByte、IndexRune与Index类似;LastIndexByte与LastIndex类似。
//IndexAny:从左至右搜索,找到给定的字符集字符串中任意一个字符就返回索引位置。未找到返回-1
func main() {
	s0 := "zfl努力学习编程"
	fmt.Println(strings.IndexAny(s0, "学l"))
}
2
结论:只要找到学或者l任意的一个 直接就返回索引值 先找到谁直接返回  不在继续找
func main() {
	s0 := "zfl努力学习编程"
	fmt.Println([]byte("学"))
	fmt.Println([]rune("学"))
	fmt.Println(strings.IndexByte(s0, 173))
	fmt.Println(strings.IndexRune(s0, 23398))
}
[229 173 166]
[23398]
10
9
结论:从做到右通过码点来找
//Contains*方法本质上就是Index*方法,只不过返回bool值,方便使用bool值时使用。
func main() {
	s0 := "zfl努力学习编程"
	fmt.Println(strings.Contains(s0, "习"))
}
true
​~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
func main() {
	s0 := "zfl努力学习编程"
	fmt.Println(strings.Contains(s0, "了"))
}
false
//Count:从左至右搜索子串,返回子串出现的次数
func main() {
	s0 := "zfl好好努力学习编程"
	fmt.Println(strings.Count(s0, "学"))
	fmt.Println(strings.Count(s0, "好"))
}
1
2

大小写

  • ToLower:转换为小写
  • ToUpper:转换为大写

func main() {
	s0 := "ZFL"
	s1 := "hello world"
	fmt.Println(strings.ToLower(s0))
	fmt.Println(strings.ToUpper(s1))
}
zfl
HELLO WORLD

前后缀

  • HasPrefix:是否以子串开头
  • HasSuffix:是否以子串结尾
func main() {
	s0 := "zfl好好学习xyz"
	fmt.Println(strings.HasPrefix(s0, "zfl"))
	fmt.Println(strings.HasPrefix(s0, "zflxx"))
	fmt.Println("~~~~~~~~~~~~~~")
	fmt.Println(strings.HasSuffix(s0, "xyz"))
}
true
false
​~~~~~~~~~~~~~~
true

移除

  • TrimSpace:去除字符串两端的空白字符。
  • TrimPrefix、TrimSuffix:如果开头或结尾匹配,则去除。否则,返回原字符串的副本。
  • TrimLeft:字符串开头的字符如果在字符集中,则全部移除,直到碰到第一个不在字符集中的字符为止。
  • TrimRight:字符串结尾的字符如果在字符集中,则全部移除,直到碰到第一个不在字符集中的字符为止。
  • Trim:字符串两头的字符如果在字符集中,则全部移除,直到左或右都碰到第一个不在字符集中的字符为止。
//TrimSpace:去除字符串两端的空白字符。
func main() {
	s0 := "\v\n\r \tabc\txyz\t \v\r\n"
	fmt.Println(strings.TrimSpace(s0))
}
abc	xyz
结论:字符串两端的空白字符取掉,中间的不取

//TrimPrefix、TrimSuffix:如果开头或结尾匹配,则去除。否则,返回原字符串的副本。
func main() {
	s0 := "zfl好好学习xyz"
	fmt.Println(strings.TrimPrefix(s0, "zfl"))
	fmt.Println(strings.TrimSuffix(s0, "xyz"))
}
好好学习xyz
zfl好好学习
//TrimLeft:字符串开头的字符如果在字符集中,则全部移除,直到碰到第一个不在字符集中的字符为止。
//TrimRight:字符串结尾的字符如果在字符集中,则全部移除,直到碰到第一个不在字符集中的字符为止。
func main() {
	s0 := "abcdddeabeccc"
	fmt.Println(strings.TrimLeft(s0, "abcd"))
	fmt.Println(strings.TrimRight(s0, "abcd"))
}
eabeccc
abcdddeabe
//Trim:字符串两头的字符如果在字符集中,则全部移除,直到左或右都碰到第一个不在字符集中的字符为止。
func main() {
	s0 := "abcdddeabeccc"
	fmt.Println(strings.Trim(s0, "abcd"))
}
eabe

分割

  • Split:按照给定的分割子串去分割,返回切割后的字符串切片。
    • 切割字符串是被切掉的,不会出现在结果中
    • 没有切到,也会返回一个元素的切片,元素就是被切的字符串
    • 分割字符串为空串,那么返回将被切割字符串按照每个rune字符分解后转成string存入切片返回
  • SplitN(s, sep string, n int) []string ,n表示最终切片中有几个元素
    • n == 0,返回空切片,切成0个子串
    • n > 0,返回切片元素的个数
      • n == 1,返回一个元素切片,元素为s,相当于Split的没有切到
      • n > 1,按照sep切割。返回多个元素的切片。按照sep切成的段数最多有x段,当n < x
        时,会有部分剩余字符串未切;n == x时,字符串s正好从头到尾切完,返回所有段的切片;n > x时,和n == x一样。n表示切割出来的子串的上限,即至多切片里面有n个元素
      • n < 0,等价Split,能切多少切出多少
  • SplitAfter和Split相似,就是不把sep切掉
  • SplitAfterN和SplitN相似,也不把sep切掉
  • Cut(s, sep string) (before, after string, found bool)
    • 内部使用Index找sep,所以是从左至右搜索切割点。可以认为就是切一刀,一刀两段
    • 没有切到,返回 s, “”, false
    • 切到了,匹配切割符的部分要切掉,返回 切割符前部分,切割符后部分, true
func main() {
	s := "www.itzfl.com-好好学习"
	var s1 = strings.Split(s, ".")   //声明以·切割
	fmt.Println(s1)
	fmt.Println(s1[0])
}
[www itzfl com-好好学习]
www
//没有切到,也会返回一个元素的切片,元素就是被切的字符串
	s := "www.itzfl.com-好好学习"
	var s1 = strings.Split(s, "=")
[www.itzfl.com-好好学习]

//分割字符串为空串,那么返回将被切割字符串按照每个rune字符分解后转成string存入切片返回
func main() {
	s := "www.itzfl.com-好好学习"
	fmt.Println(strings.Split(s, ""))
}
[w w w . i t z f l . c o m - 好 好 学 习]
//- SplitAfter和Split相似,就是不把sep切掉
//- SplitAfterN和SplitN相似,也不把sep切掉
func main() {
	s := "www.itzfl.com-好好学习"
	fmt.Println(strings.SplitAfter(s, "."))
	fmt.Println(strings.SplitAfter(s, "="))
	fmt.Println(strings.SplitAfter(s, ""))
}
[www. itzfl. com-好好学习]
[www.itzfl.com-好好学习]
[w w w . i t z f l . c o m - 好 好 学 习]
//结论:就是将切割符保留
//SplitN(s, sep string, n int) []string ,n表示最终切片中有几个元素
func main() {
	s := "www.itzfl.com-好好学习"
	fmt.Println(strings.SplitN(s, ".", 1))      // 返回的切片只能有1个元素
	fmt.Println(strings.SplitN(s, ".", 2))      // 返回的切片只能有2个元素
	fmt.Println(strings.SplitAfterN(s, ".", 2)) // 返回的切片只能有2个元素
}
[www.itzfl.com-好好学习]
[www itzfl.com-好好学习]
[www. itzfl.com-好好学习]
//Cut(s, sep string) (before, after string, found bool)
func main() {
	s := "www.itzfl.com-好好学习"
	fmt.Println(strings.Cut(s, "."))
}
www itzfl.com-好好学习 true

替换

  • Replace(s, old, new string, n int) string
    • n < 0,等价ReplaceAll,全部替换
    • n == 0,或old == new,就返回s
    • n > 0,至多替换n次,如果n超过找到old子串的次数x,也就只能替换x次了
    • 未找到替换处,就返回s
func main() {
	s := "www.itzfl.com-好好学习"
	fmt.Println(strings.Replace(s, "w", "l", 2))
	fmt.Println(strings.Replace(s, "w", "l", 0)) //n == 0,或old == new,就返回s
	fmt.Println(strings.Replace(s, "w", "l", 5)) //n > 0,至多替换n次,如果n超过找到old子串的次数x,也就只能替换x次了
	fmt.Println(strings.Replace(s, "w", "l", -1)) //n < 0,等价ReplaceAll,全部替换
}
llw.itzfl.com-好好学习
www.itzfl.com-好好学习
lll.itzfl.com-好好学习
lll.itzfl.com-好好学习

其他

Repeat:使用给定的字符串重复n次拼接成一个新字符串。

Map:按照给定处理每个rune字符的函数依次处理每个字符后,拼接成字符串返回。注意Map是
一对一的映射,不能减少元素个数。

func main() {
	s := "www.itzfl.com-好好学习"
	fmt.Println(strings.Map(func(r rune) rune {
		if 'a' <= r && r <= 'z' {
			return r - 0x20 // 请问这是干什么?
		}
		return r
	}, s))
    WWW.ITZFL.COM-好好学习

类型转换

数值类型转换

  • 低精度向高精度转换可以,高精度向低精度转换会损失精度
  • 无符号向有符号转换,最高位是符号位
  • byte和int可以互相转换
  • float和int可以相互转换,float到int会丢失精度
  • bool和int不能相互转换
  • 不同长度的int和float之间可以互相转换
func main() {
	var i int8 = -1
	var j uint8 = uint8(i)
	fmt.Println(i, j) // 请问j是多少
}
-1 255


func main() {
	fmt.Println(int(3.14))  // 错误,不允许无类型float常量转到int
	var a = 3.14             // 定义有类型变量转换就没有问题
	fmt.Printf("%T: %[1]v => %T %[2]d\n", a, int(a)) // float64: 3.14 => int 3
}
func main() {
	// byte rune本质上就是整数和无类型常量可以直接计算,自动转换
	b := 'a'
	c := b + 1
	fmt.Printf("%T %[1]c %[1]d", c) // 请问c显示什么,什么类型}
}
int32 b 98

类型别名和类型定义

var a byte = 'C'
var b uint8 = 49
fmt.Println(a, b, a+b) // 为什么类型不同,可以相加?
原因是在源码中定义了 type byte = uint8byteuint8的别名。
别名说明就是uint8的另外一个名字,和uint8是一回事
type myByte uint8
var c myByte = 50
fmt.Println(a, c, a + c) // 可以吗?为什么?
答案是不可以。原因就是Go原因不允许不同类型随便运算。就算我们眼睛看到可以,也不行,必须强制
类型转换,
type myByte uint8 // 类型定义
type byte = uint8 // 类型别名
func main() {
	type myByte = uint8
	var a byte = 'C'

	var c myByte = 50
	fmt.Println(a, c, a+c)
}
67 50 117

}


~~~go
func main() {
	// byte rune本质上就是整数和无类型常量可以直接计算,自动转换
	b := 'a'
	c := b + 1
	fmt.Printf("%T %[1]c %[1]d", c) // 请问c显示什么,什么类型}
}
int32 b 98

类型别名和类型定义

var a byte = 'C'
var b uint8 = 49
fmt.Println(a, b, a+b) // 为什么类型不同,可以相加?
原因是在源码中定义了 type byte = uint8byteuint8的别名。
别名说明就是uint8的另外一个名字,和uint8是一回事
type myByte uint8
var c myByte = 50
fmt.Println(a, c, a + c) // 可以吗?为什么?
答案是不可以。原因就是Go原因不允许不同类型随便运算。就算我们眼睛看到可以,也不行,必须强制
类型转换,
type myByte uint8 // 类型定义
type byte = uint8 // 类型别名
func main() {
	type myByte = uint8
	var a byte = 'C'

	var c myByte = 50
	fmt.Println(a, c, a+c)
}
67 50 117

http://www.niftyadmin.cn/n/5178986.html

相关文章

常见加密算法与实例

目录 加密算法MD5算法SHA算法AES算法RSA算法 加密算法 常见加密算法有以下三大类 单向加密算法&#xff1a;只能单向对明文进行加密,而不能逆向通过密文得到明文&#xff0c;常见的单向加密算法有MD5、SHA算法 对称加密算法&#xff1a;使用相同的密钥进行加密和解密。也就是…

解决Mac配置maven环境后,关闭终端后环境失效的问题(适用于所有终端关闭后环境失效的问题)

目录 问题的原因 解决方式一、每次打开终端时输入&#xff1a;"source ~/.bash_profile"&#xff0c;这个方式比较繁琐 解决方式二、我们终端输入"vim ~/.zshrc"打开".zshrc"文件 1、我们输入以下代码&#xff1a; 2、首先需要按 " i…

以太网和局域网

计算机网络的定义 计算机网络是一个将分散的、具有独立功能的计算机&#xff0c;通过通信设备与线路连接起来&#xff0c;由根据协议编写的软件来实现的资源共享和信息传递的系统 计算机网络的分类 广域网是互联网的核心部分 局域网 常见的局域网拓扑结构有4大类&#xff1a…

Django 的国际化与本地化详解

概要 随着全球化的发展&#xff0c;为 Web 应用提供多语言支持变得日益重要。Django 作为一个功能强大的 Web 框架&#xff0c;提供了一套完整的国际化&#xff08;i18n&#xff09;和本地化&#xff08;l10n&#xff09;工具&#xff0c;使得开发多语言应用变得简单。本文将详…

Debian中执行脚本 提示没有那个文件或目录

原因是在脚本头有句&#xff1a; ~/.bash_profile这个在CentOS里执行是正常的&#xff0c;但在Debian中是没有的&#xff0c;它改成了&#xff1a; ~/.profile一、区别&#xff1a; 1、/etc/profile&#xff1a; 此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文…

Spring全家桶源码解析--2.6 Spring scope 限制bean的作用范围

文章目录 前言一、Scope是什么&#xff1f;二、Scope使用2.1 单例&#xff1a;2.1.1 单例Bean的特点如下&#xff1a;2.1.2 单例设计模式 与单例bean&#xff1a; 2.2 原型bean&#xff1a;2.2.1 原型Bean的特点&#xff1a;2.2.2 原型Bean的销毁&#xff1a; 2.3 Request bean…

C# 实现动态数组

题目 实现动态数组&#xff08;非固定大小的数组&#xff09;&#xff0c;不能使用 STL 如Vector 或C# 容器库来实现。 最近我在做这道题&#xff0c;结果做得很不好。刚开始有两种思路&#xff1a; &#xff08;1&#xff09;以链表的形式来实现&#xff0c;想利用一个元素和…

2023年,移动端应用开发的出路是什么?

我觉得是跨平台&#xff0c;一份代码&#xff0c;多端运行&#xff0c;Flutter是个不错的选择&#xff0c;鸿蒙的ArkUI也是个新方向&#xff0c;我觉得有机会可以尝试。 原生开发的话&#xff0c;也尽可能使用新的开发框架&#xff0c;SwiftUI&#xff0c;Compose&#xff0c;…