爬虫之 BeautifulSoup修复残损的html文本"/>
python爬虫之 BeautifulSoup修复残损的html文本
原因
众所周知,当你使用lxml解析html文本时,它是不能解析残损的html文本的,所以一旦你下载的是残损的文本,它也要么解析不出来,要么parse出错,那怎么解决呢?
Beautifulsoup
首先 pip install beautifulsoup4, pip install htmllib5
data = requests.get(url=get_url, headers=headers, proxies=proxies)r = data.contentcontent = str(r, encoding='utf-8', errors='ignore')soup = BeautifulSoup(content, 'html5lib')fixed_html = soup.prettify()fixed_html = etree.HTML(fixed_html
在使用Beautifulsoup修复后的html,就可以使用lxml解析了,或者你可以使用Beautifulsoup直接解析。
更多推荐
python爬虫之 BeautifulSoup修复残损的html文本
发布评论