python爬取web漫画网站

编程入门 行业动态 更新时间:2024-10-25 04:16:02

python爬取web<a href=https://www.elefans.com/category/jswz/34/1764798.html style=漫画网站"/>

python爬取web漫画网站

ac.qq的页面的漫画是flash,取了个巧,当时用ipad看的时候发现是可以看的(iOS可没有flash)。于是curl -vH "User-Agent: $ipadUA"请求ac.qq的时候,发现有302跳转,指向m.ac.qq,再用浏览器访问,发现跳转到了移动端的页面,这个页面没有flash,于是也有了后来提交的代码,修改ipad的UA,直接对ac.qq/xxxxx这样的地址进行请求,会跳转为m.ac.qq/xxx/xxx/id这样的地址,然后就可以用id参数解析了。不过对ac.qq/cf这个地址却无法跳转,只能加判断了,将跳转后的URL用正则判断一下。

于是果断开搞,利用移动端的地址下载漫画,发现页面上漫画是用js生成的,对比了一下URL规则与firebug抓到的页面请求到的json,发现这个js虽然是生成的,但是规则其实很好搞,并没有太复杂的加密过程。于是就看到代码中那段奇怪的j,k,m,那就是js的函数重写为python版,连变量名都没换。

顺便吐槽下腾讯,vip收费漫画居然只在前端页面有个验证,但是后端请求的JSON API和图片URL居然统统没有验证,可以直接下载VIP收费漫画。

命令行版的那个完成差不多了,加入了下载指定章节的功能,这周争取写个简单的GUI出来。

更多推荐

python爬取web漫画网站

本文发布于:2024-02-11 07:17:24,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1679800.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:漫画   网站   python   web

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!