python爬虫之 BeautifulSoup修复残损的html文本

编程入门行业动态更新时间:2024-10-09 00:45:53

python<a href=https://www.elefans.com/category/jswz/34/1770264.html style= 爬虫之 BeautifulSoup修复残损的html文本"/>

python爬虫之 BeautifulSoup修复残损的html文本

原因

众所周知，当你使用lxml解析html文本时，它是不能解析残损的html文本的，所以一旦你下载的是残损的文本，它也要么解析不出来，要么parse出错，那怎么解决呢？

Beautifulsoup

首先 pip install beautifulsoup4， pip install htmllib5

    data = requests.get(url=get_url, headers=headers, proxies=proxies)r = data.contentcontent = str(r, encoding='utf-8', errors='ignore')soup = BeautifulSoup(content, 'html5lib')fixed_html = soup.prettify()fixed_html = etree.HTML(fixed_html

在使用Beautifulsoup修复后的html，就可以使用lxml解析了，或者你可以使用Beautifulsoup直接解析。

更多推荐

python爬虫之 BeautifulSoup修复残损的html文本

本文发布于:2024-02-19 14:40:04，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1764447.html

爬虫文本 python html BeautifulSoup

上一篇：动物之美计算机教案,【小盐STEAM课程】走近动物朋友，感悟生命之美
下一篇： vue父组件给子孙组件传值（provide inject）

发布评论取消回复

评论列表（有 0 条评论）

python爬虫之 BeautifulSoup修复残损的html文本

python爬虫之 BeautifulSoup修复残损的html文本

原因

Beautifulsoup

发布评论取消回复

最近发表

热门文章

标签列表