python码调试：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xaf in position 12: illegal...|电子爱好者

admin管理员组
文章数量:1611142

一、说明

在文本文件读入的时候，经常出现“gbk”错误码。本文记录这种错误出现的机会，以及如何改进错误。

二、错误再现

在如下的原始代码中：

stopkey = [w.strip() for w in codecs.open('data/stopWord.txt', 'r').readlines()]

出现错误：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xaf in position 12: illegal multibyte sequen

三、错误原因

这是因为stopWord.txt内存在汉字与字母混合的结果。我们可以将Unicode和 UTF-8的对应方式列出：

Unicode符号范围（十六进制） | UTF-8编码方式(二进制)
------------------------------------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

当前的TXT文件都默认是Unicode码，如果TXT是Unicode码，那么很容易对齐取出，不会出错。然而如果TXT是UTF-8，（一般从网上下载的多为UTF-8）那么，按照Unicode码取出，必然是出现错误，因为UTF-8码长短不一致，容易出现歧义。因此，在读取的时候预先告诉系统，此文本是UTF-8码，那么按照UTF-8协议读出来就不会有错了。

详细记录请看：计算机码ASCII、Unicode、GBK、UTF-8之间的关系

四、改正办法

4.1 或者按照二进制文件读取

改正如下：

stopkey = [ w.strip() for w in codecs.open('data/stopWord.txt', 'rb').readlines()]

4.2 或者指定文本协议是UTF-8，代码如下

stopkey = [w.strip() for w in codecs.open('data/stopWord.txt', 'r'，,encoding='utf-8').readlines()]

五、后记

这种错误可能在任何字符串使用的时候发生。一般做法就是告诉系统，这里是UTF-8码！值得一提的是：UTF-8不是一种新的码，是对unicode中的那些零进行压缩的码，比如：Unicode=0000 0000-0000 007F对应的UTF-8码是 01111111，显然从4字节转成1字节，更有利于网上传输！

本文标签： Codec Decode gbk Python UnicodeDecodeError

版权声明：本文标题：python码调试：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xaf in position 12: illegal... 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1728605602a1165410.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

python码调试：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xaf in position 12: illegal...

一、说明

二、错误再现

三、错误原因

四、改正办法

4.1 或者按照二进制文件读取

4.2 或者指定文本协议是UTF-8，代码如下

五、后记

更多相关文章

‘utf-8‘ codec can‘t decode byte 0xc6 in position 7: invalid continuation byte

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0x80 in position 1: invalid start byte

UnicodeDecodeError asciicodec can't decode byte 0xe5 in position 0 ordinal not in range(128)

解决UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xe5 in position 108: ordinal not in range(128

Python3遇到问题unicodeescape codec cant decode bytes in position 2 3 truncated UXXXXXXXX escape解决办法

解决‘utf-8‘ codec can‘t decode byte 0xd0 in position 398: invalid continuation byte

UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xf9 in position 53: illegal multibyte sequence

【Python】UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘xxx‘ in position xxx解决

python读取字符报错：‘utf-8‘ codec can‘t decode byte 0xbd in position 2: invalid start byte

UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc9 in position 0: invalid continuation byte！！！

求助【UnicodeDecodeError: ‘charmap‘ codec can‘t decode byte 0x9d in position 3201character maps to ＜un】

python读取文件时报错，‘utf-8‘ codec can‘t decode byte 0xb1 in position 0: invalid start byte

(unicode error) 'unicodeescape' codec can't decode bytes in position 12-13: truncated UXXXXXXXX esc

Python-logging报错解决：UnicodeEncodeError: 'gbk' codec can't encode character 'u' in position: illegal

UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘xa0‘ in position 67008: illegal multibyte s

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc7 in position 0: invalid continuation byte

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa6 in position 9737: ill....

UnicodeDecodeError: ‘gbk’ codec can‘t decode byte 0xaa in position 2: illegal multibyte sequence解决方法

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)

python显示安装失败_Win7安装Python失败 提示Setup failed

发表评论

推荐文章

android x86 32位64位系统,安卓x86 6.0 rc2下载

excel表格横向纵向变换_表格的制作方法

Android cpu降频工具,免root安卓cpu降频软件-安卓cpu降频软件免root版下载-游戏大玩家...

好用不难的粘性布局 position:sticky

【解决错误】SyntaxError(unicode error)unicodeescape codec cant decode bytes in position 2-3 truncate

热门文章

华为电脑可以升级鸿蒙系统吗,华为电脑现在是鸿蒙系统吗_华为p40升级鸿蒙系统...

[MySQL]-压力测试之性能监测指标

Note: further occurrences of HTTP request parsing errors will be logged at DEBUG level.错误解决

超全app测试流程及测试点

Deep Learning Meets SAR

Interpretable Models - Logistic Regression&amp;GLM&amp;GAM

按键精灵、autojs、冰狐智能辅助到底该如何选择？

Position属性四个取值用法和区别

NPM包发布过程中报错——`npm ERR! Unexpected token ＜ in JSON at position 0 while parsing near ‘＜!DOCTYPE HTML P

彻底解决UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘xa0‘ in position XXX

最新文章

CUDA out of memory. Tried to allocate 150.00 MiB (GPU 0； 4.00 GiB total capacity； 2.24 GiB already a

关于hashMap的扩容与红黑树与属性TREEIFY_THRESHOLD（树型阈值）与MIN_TREEIFY_CAPACITY（最小树容量）

ambari Capacity Scheduler 调度排序策略

linux centos7 hadoop &amp; yarn的调度模式以及参数配置 Yarn的资源调度器默认CapacityScheduler默认只有一个root.default队列 调整Yarn资源队列

关于神经网络的capacity、regularization、generalization

LaTeX使用LuaLaTeX和TikZ编译时出错TeX capacity exceeded, sorry [input stack size=5000]

StringBuilder的容量（StringBuilder Capacity）

Yarn的fair和capacity调度器

flume batchsize transactionCapacity capacity的简单理解

C++ length()、size()、sizeof()、strlen()四者的区别,以及capacity()

CUDA out of memory. Tried to allocate 392.00 MiB (GPU 0； 10.76 GiB total capacity； 652.77 MiB alread

Primer C++ 学习笔记：vector容器的容量改变（size，capacity，resize，reserve，shrink_to_fit）

容器容量和容器大小（capacity和size）

Capacity Scheduler 中资源计算器(Resource Calculator)的使用

vector的capacity()size() reverse() resize() clear() swap()

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

python显示安装失败_Win7安装Python失败提示Setup failed

Interpretable Models - Logistic Regression&GLM&GAM

linux centos7 hadoop & yarn的调度模式以及参数配置 Yarn的资源调度器默认CapacityScheduler默认只有一个root.default队列调整Yarn资源队列

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载