python爬取web漫画网站

编程入门行业动态更新时间:2024-10-25 04:16:02

python爬取web<a href=https://www.elefans.com/category/jswz/34/1764798.html style= 漫画网站"/>

python爬取web漫画网站

ac.qq的页面的漫画是flash，取了个巧，当时用ipad看的时候发现是可以看的（iOS可没有flash）。于是curl -vH "User-Agent: $ipadUA"请求ac.qq的时候，发现有302跳转，指向m.ac.qq，再用浏览器访问，发现跳转到了移动端的页面，这个页面没有flash，于是也有了后来提交的代码，修改ipad的UA，直接对ac.qq/xxxxx这样的地址进行请求，会跳转为m.ac.qq/xxx/xxx/id这样的地址，然后就可以用id参数解析了。不过对ac.qq/cf这个地址却无法跳转，只能加判断了，将跳转后的URL用正则判断一下。

于是果断开搞，利用移动端的地址下载漫画，发现页面上漫画是用js生成的，对比了一下URL规则与firebug抓到的页面请求到的json，发现这个js虽然是生成的，但是规则其实很好搞，并没有太复杂的加密过程。于是就看到代码中那段奇怪的j,k,m，那就是js的函数重写为python版，连变量名都没换。

顺便吐槽下腾讯，vip收费漫画居然只在前端页面有个验证，但是后端请求的JSON API和图片URL居然统统没有验证，可以直接下载VIP收费漫画。

命令行版的那个完成差不多了，加入了下载指定章节的功能，这周争取写个简单的GUI出来。

更多推荐

python爬取web漫画网站

本文发布于:2024-02-11 07:17:24，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1679800.html