python爬虫之 BeautifulSoup修复残损的html文本

编程入门 行业动态 更新时间:2024-10-09 00:45:53

python<a href=https://www.elefans.com/category/jswz/34/1770264.html style=爬虫之 BeautifulSoup修复残损的html文本"/>

python爬虫之 BeautifulSoup修复残损的html文本

原因

众所周知,当你使用lxml解析html文本时,它是不能解析残损的html文本的,所以一旦你下载的是残损的文本,它也要么解析不出来,要么parse出错,那怎么解决呢?

Beautifulsoup

首先 pip install beautifulsoup4, pip install htmllib5

    data = requests.get(url=get_url, headers=headers, proxies=proxies)r = data.contentcontent = str(r, encoding='utf-8', errors='ignore')soup = BeautifulSoup(content, 'html5lib')fixed_html = soup.prettify()fixed_html = etree.HTML(fixed_html

在使用Beautifulsoup修复后的html,就可以使用lxml解析了,或者你可以使用Beautifulsoup直接解析。

更多推荐

python爬虫之 BeautifulSoup修复残损的html文本

本文发布于:2024-02-19 14:40:04,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1764447.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:爬虫   文本   python   html   BeautifulSoup

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!