《机器学习实战》：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xae in position 199: illegal multibyte|电子爱好者

admin管理员组
文章数量:1611961

问题引入

UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence

这样的错误估计大家都不陌生。我也是被这种错误折磨许久。在open函数参数中设置encoding='utf-8’也不能解决问题，会出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte类似错误。
通过查询大量的资料，我才搞明白这种错误背后的原因是什么。

该问题的根源在于Windows中与Unicode的编码方法。

以系统自带的记事本为例:
记事本“另存为”中有4种编码方式，含义为：

ANSI: 对英文系统即ASCII 对中文系统即gbk/big5
Unicode: UTF-16(LE)
Unicode big endian: UTF-16(BE)
UTF-8:UTF-8-SIG

其中Unicode相关编码方式有3种，这3种编码方式的区别不再赘述，我们可以从文件的头部（即Windows中的特色！BOM:byte order mark）来区分一个文件是属于哪种编码。
当头部开始的两个字节为 FF FE时，是UTF-16(LE)编码；当头部的两个字节为FEFF时，是UTF-16(BE)编码；当头部两个字节为EF BB时，是UTF-8-sig编码。

实际问题

我遇到这样的问题是在《机器学习实战》朴素贝叶斯中，当时是对垃圾邮件分类，有50个文件，读取文件后报错。

word_list=text_parse(open('native_bayes  email dataset/ham/%d.txt'%i,'r').read()) # 读取每个非垃圾邮件，并字符串转换成字符串列表

用gbk编码的无法用utf-8解码，继续改回去，在for循环中加print(i),查看哪个txt文件出问题：


```python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Traceback (most recent call last):
  File , line 1, in <module>
    bayes.spamTest()
  File "F:/PycharmProject/bayes_practice_1.py", line 96, in spamTest
    word_list = text_parse(open('native_bayes  email dataset/ham/%d.txt'%i,'r'' % i).read())
UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence

查出问题在文档《23.Txt》中，“SciFinance?is ”改成“SciFinance is ”即可，原文如下：

SciFinance?is a derivatives pricing and risk model development tool that automatically generates C/C++ and GPU-enabled source code from concise, high-level model specifications. No parallel computing or CUDA programming expertise is required.

更改后问题便可解决！

本文标签：实战机器 gbk Codec Decode

版权声明：本文标题：《机器学习实战》：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xae in position 199: illegal multibyte 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1728604471a1165276.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

《机器学习实战》：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xae in position 199: illegal multibyte

问题引入

实际问题

更多相关文章

‘utf-8‘ codec can‘t decode byte 0xd5 in position 116

解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa7 in position 85: illegal multibyte sequence

解答篇:完美解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position 14

‘gbk‘ codec can‘t decode byte 0x80 in position 27: illegal multibyte sequenc

UnicodeDecodeError: ‘ascii‘ codec can‘t decode byte 0xd7 in position 0: ordinal not in range(128)

python open报错：‘gbk‘ codec can‘t decode byte 0xbd in position xxxx: illegal multibyte sequence

python报错:UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xb8 in position 9: invalid start byte

UnicodeDecodeError asciicodec can't decode byte 0xe5 in position 0 ordinal not in range(128)

UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘xe7‘ in position 295: illegal multibyte seq

UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xf9 in position 53: illegal multibyte sequence

python读取字符报错：‘utf-8‘ codec can‘t decode byte 0xbd in position 2: invalid start byte

求助【UnicodeDecodeError: ‘charmap‘ codec can‘t decode byte 0x9d in position 3201character maps to ＜un】

UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 43: illegal multibyte sequence

(unicode error) 'unicodeescape' codec can't decode bytes in position 12-13: truncated UXXXXXXXX esc

UnicodeDecodeError: ‘utf8‘ codec can‘t decode byte 0xd3 in position 3: invalid continuation byte

解决‘ascii‘ codec can‘t decode byte 0xe8 in position 0: ordinal not in range(128)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc7 in position 0: invalid continuation byte

UnicodeDecodeError: 'gbk' codec can't decode byte 0xa6 in position 9737: ill....

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)

[DUBBO] Decode rpc invocation failed: null, dubbo version: 2.8.4, current host: 127.0.0.1

发表评论

推荐文章

25 b下载和Google play仍在快速增长

Excel表格转换为Word表格，并且保留Excel表格中公式不发生变化

Docker Toolbox For Win10 家庭版

Windows10各版本的区别、我们应该如何选择Windows10的系统版本？

POSITION定位有哪几种？各有什么特点？

热门文章

sdp cdp dcp及快速充电技术介绍

摄像头模组介绍和技术指标

dbeaver连接MySQL数据库及错误Connection refusedconnect处理

python pymysql+pandas进行筛选合并excel表格处理后导入到两个新表格中的两个sheet

CVPR代码和论文链接目录大全

CVPR2020论文和代码整理链接

微信小程序：position: fixed导致的滚动时页面元素不跟着动的问题

玩转电脑篇章二

Android studio Error:Illegal Capacity 错误

vector的reserve（），resize（），capacity（）

最新文章

HDU 5112 A Curious Matt (2014ACMICPC亚洲区北京站-重现赛)

HDU - 5112 A Curious Matt

This Curious AI Beats Many Games...and Gets Addicted to the TV

2014ACMICPC亚洲区北京站-A Curious Matt

Lightoj 1112 - Curious Robin Hood 【单点改动 + 单点、 区间查询】【树状数组 水题】...

hdu 5112 A Curious Matt (结构体+cmp函数)

hdu5512 - A Curious Matt （排序）水

联合机器学习中的概念及应用

Kattis-Curious Cupid(莫队)

HDU-5112-A Curious Matt（2014ACMICPC北京赛区现场赛A题！）

文章标题 HDU 5112- A Curious Matt

Codeforces 407C&amp;408E Curious Array 组合数多层差分

hdu5512 A Curious Matt（2014ACMICPC亚洲区北京站-A）（结构体排序）

Monads for the Curious Programmer, Part 1 (中英文对照版)

linux libgtk 3.so.0,Cannot run the game on Linux: .The Curious Expedition: error while loading shar...

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

Lightoj 1112 - Curious Robin Hood 【单点改动 + 单点、区间查询】【树状数组水题】...

Codeforces 407C&408E Curious Array 组合数多层差分

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载