Python的字符集或字符编码

字符集或字符编码

中国人讲汉语,英国人和美国人主要讲英语,日本人主要讲日语。

初中上计算机课的时候,老师讲过——计算机里面本质上存储的是0和1。

在计算机里面记录文字也有这样的特点:

英文 有自己的0和1组成的编码

日文 有自己的0和1组成的编码

汉语 有自己的0和1组成的编码

如下图:

在这里插入图片描述

最开始的时候,网络没有那么发达,各个国家使用各自的编码方式。以中国为例:

作为中国人,常用的字符编码有ASCII、 Unicode、UTF-8、GBK(简、繁体字融于一库)、GB2312(简体中文字符集)、BIG5(繁体中文字符集)。

后来,随着网络通信和计算机在应用领域越来越发达,需要将世界上所有的语言和符号统一在一起,于是大家约定了Unicode编码,将中文、英语、日本语、韩语、法语… 全都包含在里面。于是,就有了Unicode编码。

但是早些年网络带宽和存储成本较高,大家又约定了一个简化一些的Unicode编码,根据不同的字符实现占据不同的存储长度,又定义了一个节约存储空间、可变化长度的UTF-8编码。

所以,大家写代码的时候统一使用 UTF-8编码哟。

为了保证字符集的统一性,有的时候会在写Python代码之前声明一句话:

# -*- coding: utf-8 -*-

或者:

#coding=utf-8

推荐使用下面一种,因为更加简洁。


注:

世界上有各种各样的编码语言,每个字符表示的编码字符都是不一样的,而Unicode码就是将世界上所有编码语言汇在一起,每个字符所表示的编码代号都是独一无二的。

另外:UTF-8 它是属于Unicode码的哟。

本文原创,转载请注明来源:python李文凯

相关推荐
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页