Python获取html的div标签内容问题
# 因为我没有学习过html,所以标题可能不准确 因为在Github(https://github.com/jiaweihli/manga_downloader)上看到了一个漫画下载脚本,不过只支持英文漫画网站,因为是Python脚本,在我能力之内,我打算自己写一个XinxinParser.熟悉了一下自定义函数之后,打算开始动手.虽然我没有学过html(计划在之后),不过只要会正则表达式就大致可以查找到图片地址.可是新新的漫画图片地址,简单右键"查看网页源代码"是隐藏的?测试网址是:http://www.77mh.com/201305/247410.html(见图)
追问:
不好意思. 我的意思是有没有办法在getSourceCode的步骤中得到完整的网页源代码.(如果右键"查看网页源代码"或者getSourceCode方法,图片地址都是隐藏的,见上图). 因为你的代码只是用正则表达式在source中查找,并返回列表第一项(没错吧) : )
追答:
这种情况应该是它对请求头做了判断或者用 js 异步加载这种情况。
可以通过浏览器查看它的请求,都返回了什么东西,确定是什么时候加载图片链接,然后再去抓内容
评论0
2
0
加载更多
最满意答案
import re reg = re.compile(r'更多推荐
发布评论