[931]产生 \ufeff 问题的原因及解决办法

编程入门 行业动态 更新时间:2024-10-25 04:24:38

[931]产生 \ufeff 问题的原因及<a href=https://www.elefans.com/category/jswz/34/1767401.html style=解决办法"/>

[931]产生 \ufeff 问题的原因及解决办法

今天遇到以下问题:

name = []
with open('唐诗宋词.txt', 'r', encoding='utf-8') as f:for i in f:fen = i.split(':')print(fen[0], fen[1])if fen[0].strip() == '诗名':name.append(fen[1].strip())print(name)

结果为:

诗名 贼退示官吏并序
[]

这是为什么呢?后来发现:

print(fen)

结果为:

['\ufeff诗名', '贼退示官吏并序\n']

\ufeff 这是哪来的呢?网上搜索后发现原来是文本保存时包含了BOM(Byte Order Mark,字节顺序标记,出现在文本文件头部,Unicode编码标准中用于标识文件是采用哪种格式的编码)导致的,解决方法是使用 utf-8-sig 编码:

name = []
with open('唐诗宋词.txt', 'r', encoding='utf-8-sig') as f:for i in f:fen = i.split(':')print(fen)if fen[0].strip() == '诗名':name.append(fen[1].strip())print(name)

结果为:

['诗名', '贼退示官吏并序\n']
['贼退示官吏并序']

以后保存 txt 文件时一定要注意不要带有 bom,如果已经包含了 bom 则可使用 notepad++ 编辑器转换为无BOM格式的文本文件。

utf-8与utf-8-sig两种编码格式的区别:

As UTF-8 is an 8-bit encoding no BOM is required and anyU+FEFF character in the decoded Unicode string (even if it’s the firstcharacter) is treated as a ZERO WIDTH NO-BREAK SPACE.

UTF-8以字节为编码单元,它的字节顺序在所有系统中都是一样的,没有字节序的问题,也因此它实际上并不需要BOM(“ByteOrder Mark”)。但是UTF-8 with BOM即utf-8-sig需要提供BOM。

参考:
.html

更多推荐

[931]产生 \ufeff 问题的原因及解决办法

本文发布于:2024-02-08 22:02:09,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1675564.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:解决办法   原因   ufeff

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!