漫画网站"/>
python爬取web漫画网站
ac.qq的页面的漫画是flash,取了个巧,当时用ipad看的时候发现是可以看的(iOS可没有flash)。于是curl -vH "User-Agent: $ipadUA"请求ac.qq的时候,发现有302跳转,指向m.ac.qq,再用浏览器访问,发现跳转到了移动端的页面,这个页面没有flash,于是也有了后来提交的代码,修改ipad的UA,直接对ac.qq/xxxxx这样的地址进行请求,会跳转为m.ac.qq/xxx/xxx/id这样的地址,然后就可以用id参数解析了。不过对ac.qq/cf这个地址却无法跳转,只能加判断了,将跳转后的URL用正则判断一下。
于是果断开搞,利用移动端的地址下载漫画,发现页面上漫画是用js生成的,对比了一下URL规则与firebug抓到的页面请求到的json,发现这个js虽然是生成的,但是规则其实很好搞,并没有太复杂的加密过程。于是就看到代码中那段奇怪的j,k,m,那就是js的函数重写为python版,连变量名都没换。
顺便吐槽下腾讯,vip收费漫画居然只在前端页面有个验证,但是后端请求的JSON API和图片URL居然统统没有验证,可以直接下载VIP收费漫画。
命令行版的那个完成差不多了,加入了下载指定章节的功能,这周争取写个简单的GUI出来。
更多推荐
python爬取web漫画网站
发布评论