比Python更狠毒的一种爬虫!

编程入门 行业动态 更新时间:2024-10-25 16:30:52

比Python更狠毒的一种<a href=https://www.elefans.com/category/jswz/34/1770264.html style=爬虫!"/>

比Python更狠毒的一种爬虫!

爬虫:一段自动抓取互联网信息的程序,从互联网抓取对我们有价值的信息!

说起爬虫,可能你首先想起的就是Python,因为Python在爬虫方面是出了名的。但是希望你不要被误导,不只是Python可以写爬虫程序,其他高级语言也是可以的,比如Java。

那么,今天我们来讲一个比Python更狠毒的爬虫。它不是Java,也不是其他高级语言。这时候,你只需要默默的打开Kali Linux即可。我将开始新的爬虫之旅~

打开Kali之后,我们需要用到工具httrack。由于Kali本身不自带该工具,所以我们需要安装它,下面我一步一步来操作!

一、打开Kali,安装httrack

首先我们更新一下列表:

apt-get update


安装httrack:

apt-get install httrack


完成安装!

二、开始使用httrack爬取信息

首先我们可以创建一个目录用于存放爬取的信息。

接着我就拿我的个人网站来爬取一下信息:

httrack URL


上图显示正在爬取,将网站信息保存到本地。

完成之后,就如下图所示:

接着我们查看一下爬取的信息:

因为我个人网站没有动态页面,所以不会产生cookies.txt文件,等一下我将列出爬取的信息都包含什么。

我们先来看一下orgloft目录,这里存放的是网站源码、图片等信息。


要注意的是,蓝色字体的都是目录,即这些目录下包含的有文件,白色字体的是文件,可以直接使用vim打开。

我们打开一个源码文件看一下:


满满的源码展示在你眼前!

使用httrack爬取网站,我们能得到以下信息:

  • 网页源码

  • 网站所有图片

  • 所有下载文件

  • cookies.txt文件,包含用于下载站点的cookie信息

  • hts-cache目录包含由爬虫检测到的文件列表,这是httrack所处理的文件列表

  • hts-log.txt文件包含错误、警告和其他在爬取站点时的信息

除此之外,httrack还有许多其它选项可以使用,让我们自定义它的行为来完成我们的需求:

  • -rN : 将爬取的链接深度设置为N

  • -%eN: 设置外部链接的深度界限

  • -F[user-agent]: 用于下载站点的UA即浏览器标识符

三、除httrack之外的wget

我们已经知道,httrack可以爬取网站的信息。httrack直接将网站的所有内容都可以爬取到本地,但是我们只需要部分信息的时候呢?该怎么办?

这时候就需要wget,wget是kali自带的一种工具,所以你无需安装,直接打开终端使用即可。

下面还是以我个人网站为事例:

wget /

看这种情况和刚才的httrack有什么不同之处。

仔细看,在url最后我加了 / ,这是一个很重要的符号,有了 / ,就代表只需要爬取当前的页面信息,而不是全站点信息!

这时候你很容易发现跟刚才的httrack有着很大的区别,这时候就只爬取了主页面一个文件 index.html。

依据此原理,你可以转到其他页面后面加一个 / 。这时就只爬取该一页内容。如果没有 / ,那么爬取的将是所有内容。

注意:在使用wget时,它会自动将爬取的内容存放在当前目录下。当然,你也可以指定目录

wget -P 目录/ URL

这里参数 -P 就代表着允许设置目录并且文件存放在该目录里。

wget的另外一些参数:

  • -r : 该参数是将站点所有信息遍历爬取到本地。

  • -l : 在该参数后面我们可以加上遍历深度值,以便让其爬取有个界限

  • -k : 该参数能够指向本地文件,将你爬取的站点信息在本地浏览

  • -p : 爬取该站点所有图像

本篇爬虫到此就结束了,在你安装httrack时,可能会遇到一些问题,不要慌。你可以来找我咨询,公众号内可联系我,我帮你解答。如果你还没有Kali ,你可以在公众号内回复 Kali 获取。

温馨提示:各位在使用爬虫时,请注意自己的行为。不要触及法律规定的内容,不随意爬取别人的隐私,更不能贩卖数据!有句话说得好:

爬虫玩的好,监狱进的早;数据玩的溜,牢饭吃个够!

请文明使用爬虫!Over!

查看原文请关注公众号【Honker】,更多有关黑客知识送给你!

更多推荐

比Python更狠毒的一种爬虫!

本文发布于:2024-02-10 23:13:42,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1677858.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:爬虫   狠毒   Python

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!