Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻|电子爱好者

admin管理员组
文章数量:1660819

0x0 背景

最近学习爬虫，分析了几种主流的爬虫框架，决定使用最原始的两大框架进行练手：

Jsoup&HttpUnit

其中jsoup可以获取静态页面，并解析页面标签，最主要的是，可以采用类似于jquery的语法获取想要的标签元素，例如：

//1.获取url地址的网页html

html = Jsoup.connect(url).get();

// 2.jsoup获取新闻<a>标签

Elements newsATags = html.select("div#headLineDefault")

.select("ul.FNewMTopLis")

.select("li")

.select("a");

但是，有些网页（例如今日头条）并非是静态页面，而是在首页加载后通过ajax获取新闻内容然后用js渲染到页面上的。对于这种页面，我们需要使用htmlunit来模拟一个浏览器访问该url，即可获取该页面的html字符串。代码如下：

WebClient webClient = new WebClient(BrowserVersion.CHROME);

webClient.getOptions().setJavaScriptEnabled(true);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setActiveXNative(false);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setThrowExceptionOnScriptError(false);

webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

webClient.getOptions().setTimeout(10000);

HtmlPage htmlPage = null;

try {

htmlPage = webClient.getPage(url);

webClient.waitForBackgroundJavaScript(10000);

String htmlString = htmlPage.asXml();

return Jsoup.parse(htmlString);

} finally {

webClient.close();

}

0x1 搜狐、凤凰、网易爬虫

这三家的页面都是静态的，因此代码都差不多，只要分析页面标签找到对应的元素，提取出想要的内容即可。

爬虫基本步骤为以下四步：

（1）获取首页

（2）使用jsoup获取新闻<a>标签

（3）从<a>标签中抽取基本信息，封装成News对象

（4）根据新闻url访问新闻页面，获取新闻内容、图片等

1.爬虫接口

一个接口，接口有一个抽象方法pullNews用于拉新闻，有一个默认方法用于获取新闻首页：

public interface NewsPuller {

void pullNews();

// url:即新闻首页url

// useHtmlUnit:是否使用htmlunit

default Document getHtmlFromUrl(String url, boolean useHtmlUnit) throws Exception {

if (!useHtmlUnit) {

return Jsoup.connect(url)

//模拟火狐浏览器

.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)")

.get();

} else {

WebClient webClient = new WebClient(BrowserVersion.CHROME);

webClient.getOptions().setJavaScriptEnabled(true);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setActiveXNative(false);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setThrowExceptionOnScriptError(false);

webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

webClient.getOptions().setTimeout(10000);

HtmlPage htmlPage = null;

try {

htmlPage = webClient.getPage(url);

webClient.waitForBackgroundJavaScript(10000);

String htmlString = htmlPage.asXml();

return Jsoup.parse(htmlString);

} finally {

webClient.close();

}

2.搜狐爬虫

@Component("sohuNewsPuller")

public class SohuNewsPuller implements NewsPuller {

private static final Logger logger = LoggerFactory.getLogger(SohuNewsPuller.class);

@Value("${news.sohu.url}")

private String url;

@Autowired

private NewsService newsService;

@Override

public void pullNews() {

logger.info("开始拉取搜狐新闻！");

// 1.获取首页

Document html= null;

try {

html = getHtmlFromUrl(url, false);

} catch (Exception e) {

logger.error("==============获取搜狐首页失败: {}=============", url);

e.printStackTrace();

return;

}

// 2.jsoup获取新闻<a>标签

Elements newsATags = html.select("div.focus-news")

.select("div.list16")

.select("li")

.select("a");

// 3.从<a>标签中抽取基本信息，封装成news

HashSet<News> newsSet = new HashSet<>();

for (Element a : newsATags) {

String url = a.attr("href");

String title = a.attr("title");

News n = new News();

n.setSource("搜狐");

n.setUrl(url);

n.setTitle(title);

n.setCreateDate(new Date());

newsSet.add(n);

}

// 4.根据新闻url访问新闻，获取新闻内容

newsSet.forEach(news -> {

logger.info("开始抽取搜狐新闻内容：{}", news.getUrl());

Document newsHtml = null;

try {

newsHtml = getHtmlFromUrl(news.getUrl(), false);

Element newsContent = newsHtml.select("div#article-container")

.select("div.main")

.select("div.text")

.first();

String title = newsContent.select("div.text-title").select("h1").text();

String content = newsContent.select("article.article").first().toString();

String image = NewsUtils.getImageFromContent(content);

news.setTitle(title);

news.setContent(content);

news.setImage(image);

newsService.saveNews(news);

logger.info("抽取搜狐新闻《{}》成功！", news.getTitle());

} catch (Exception e) {

logger.error("新闻抽取失败:{}", news.getUrl());

e.printStackTrace();

}

});

}

2.凤凰新闻爬虫

@Component("ifengNewsPuller")

public class IfengNewsPuller implements NewsPuller {

private static final Logger logger = LoggerFactory.getLogger(IfengNewsPuller.class);

@Value("${news.ifeng.url}")

private String url;

@Autowired

private NewsService newsService;

@Override

public void pullNews() {

logger.info("开始拉取凤凰新闻！");

// 1.获取首页

Document html= null;

try {

html = getHtmlFromUrl(url, false);

} catch (Exception e) {

logger.error("==============获取凤凰首页失败: {} =============", url);

e.printStackTrace();

return;

}

// 2.jsoup获取新闻<a>标签

Elements newsATags = html.select("div#headLineDefault")

.select("ul.FNewMTopLis")

.select("li")

.select("a");

// 3.从<a>标签中抽取基本信息，封装成news

HashSet<News> newsSet = new HashSet<>();

for (Element a : newsATags) {

String url = a.attr("href");

String title = a.text();

News n = new News();

n.setSource("凤凰");

n.setUrl(url);

n.setTitle(title);

n.setCreateDate(new Date());

newsSet.add(n);

}

// 4.根据新闻url访问新闻，获取新闻内容

newsSet.parallelStream().forEach(news -> {

logger.info("开始抽取凤凰新闻《{}》内容：{}", news.getTitle(), news.getUrl());

Document newsHtml = null;

try {

newsHtml = getHtmlFromUrl(news.getUrl(), false);

Elements contentElement = newsHtml.select("div#main_content");

if (contentElement.isEmpty()) {

contentElement = newsHtml.select("div#yc_con_txt");

}

if (contentElement.isEmpty())

return;

String content = contentElement.toString();

String image = NewsUtils.getImageFromContent(content);

news.setContent(content);

news.setImage(image);

newsService.saveNews(news);

logger.info("抽取凤凰新闻《{}》成功！", news.getTitle());

} catch (Exception e) {

logger.error("凤凰新闻抽取失败:{}", news.getUrl());

e.printStackTrace();

}

});

logger.info("凤凰新闻抽取完成！");

}

3.网易爬虫

@Component("netEasyNewsPuller")

public class NetEasyNewsPuller implements NewsPuller {

private static final Logger logger = LoggerFactory.getLogger(NetEasyNewsPuller.class);

@Value("${newseasy.url}")

private String url;

@Autowired

private NewsService newsService;

@Override

public void pullNews() {

logger.info("开始拉取网易热门新闻！");

// 1.获取首页

Document html= null;

try {

html = getHtmlFromUrl(url, false);

} catch (Exception e) {

logger.error("==============获取网易新闻首页失败: {}=============", url);

e.printStackTrace();

return;

}

// 2.jsoup获取指定标签

Elements newsA = html.select("div#whole")

.next("div.area-half.left")

.select("div.tabContents")

.first()

.select("tbody > tr")

.select("a[href~=^http://news.163.*]");

// 3.从标签中抽取信息，封装成news

HashSet<News> newsSet = new HashSet<>();

newsA.forEach(a -> {

String url = a.attr("href");

News n = new News();

n.setSource("网易");

n.setUrl(url);

n.setCreateDate(new Date());

newsSet.add(n);

});

// 4.根据url访问新闻，获取新闻内容

newsSet.forEach(news -> {

logger.info("开始抽取新闻内容：{}", news.getUrl());

Document newsHtml = null;

try {

newsHtml = getHtmlFromUrl(news.getUrl(), false);

Elements newsContent = newsHtml.select("div#endText");

Elements titleP = newsContent.select("p.otitle");

String title = titleP.text();

title = title.substring(5, title.length() - 1);

String image = NewsUtils.getImageFromContent(newsContent.toString());

news.setTitle(title);

news.setContent(newsContent.toString());

news.setImage(image);

newsService.saveNews(news);

logger.info("抽取网易新闻《{}》成功！", news.getTitle());

} catch (Exception e) {

logger.error("新闻抽取失败:{}", news.getUrl());

e.printStackTrace();

}

});

logger.info("网易新闻拉取完成！");

}

0x2 今日头条爬虫

由于今日头条页面中的新闻是通过ajax获取后加载的，因此需要使用httpunit进行抓取。

主要代码如下：

@Component("toutiaoNewsPuller")

public class ToutiaoNewsPuller implements NewsPuller {

private static final Logger logger = LoggerFactory.getLogger(ToutiaoNewsPuller.class);

private static final String TOUTIAO_URL = "https://www.toutiao";

@Autowired

private NewsService newsService;

@Value("${news.toutiao.url}")

private String url;

@Override

public void pullNews() {

logger.info("开始拉取今日头条热门新闻！");

// 1.load html from url

Document html = null;

try {

html = getHtmlFromUrl(url, true);

} catch (Exception e) {

logger.error("获取今日头条主页失败！");

e.printStackTrace();

return;

}

// 2.parse the html to news information and load into POJO

Map<String, News> newsMap = new HashMap<>();

for (Element a : html.select("a[href~=/group/.*]:not(ment)")) {

logger.info("标签a: \n{}", a);

String href = TOUTIAO_URL + a.attr("href");

String title = StringUtils.isNotBlank(a.select("p").text()) ?

a.select("p").text() : a.text();

String image = a.select("img").attr("src");

News news = newsMap.get(href);

if (news == null) {

News n = new News();

n.setSource("今日头条");

n.setUrl(href);

n.setCreateDate(new Date());

n.setImage(image);

n.setTitle(title);

newsMap.put(href, n);

} else {

if (a.hasClass("img-wrap")) {

news.setImage(image);

} else if (a.hasClass("title")) {

news.setTitle(title);

}

logger.info("今日头条新闻标题拉取完成!");

logger.info("开始拉取新闻内容...");

newsMap.values().parallelStream().forEach(news -> {

logger.info("===================={}====================", news.getTitle());

Document contentHtml = null;

try {

contentHtml = getHtmlFromUrl(news.getUrl(), true);

} catch (Exception e) {

logger.error("获取新闻《{}》内容失败！", news.getTitle());

return;

}

Elements scripts = contentHtml.getElementsByTag("script");

scripts.forEach(script -> {

String regex = "articleInfo: \\{\\s*[\\n\\r]*\\s*title: '.*',\\s*[\\n\\r]*\\s*content: '(.*)',";

Pattern pattern = Patternpile(regex);

Matcher matcher = pattern.matcher(script.toString());

if (matcher.find()) {

String content = matcher.group(1)

.replace("<", "<")

.replace(">", ">")

.replace(""", "\"")

.replace("=", "=");

logger.info("content: {}", content);

news.setContent(content);

}

});

newsMap.values()

.stream()

.filter(news -> StringUtils.isNotBlank(news.getContent()) && !news.getContent().equals("null"))

.forEach(newsService::saveNews);

logger.info("今日头条新闻内容拉取完成!");

}

点击关注，有趣分析

转载于:https://blog.51cto/13878196/2394620

本文标签：爬虫凤凰搜狐网易头条

版权声明：本文标题：Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729881975a1216033.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻

更多相关文章

【高仿今日头条】APIcloud混合H5双端趣赚APP源码带新闻资讯赚钱APP应用源码双端APP]

python爬虫今日头条_Python爬取今日头条JS内容

前端vue仿今日头条网易新闻 tabs 组件标签页，根据文字多少自适应 tab项宽度(更新版)

基于Android平台开发，仿头条新闻app（一）

今日头条极速版自动脚本_今日头条极速版多开软件，这个工具造福广大自媒体人！...

今日头条阅读量怎么刷_今日头条提升头条号阅读量的几大方法

今日头条极速版【青龙面板】

Python3网络爬虫：今日头条新闻App的广告数据抓取

头条php,基于PHP的免费新闻头条接口查询

爬取今日头条新闻

GitHub：今日头条机器人

Python递归爬取今日头条指定用户一个月内发表的所有文章，视频，微头条(2)

青龙面板----今日头条脚本修复版

可狱可囚的爬虫系列课程 10：在网站中寻找 API 接口（今日头条热榜爬取）

python 爬取今日头条热点新闻

Appium+Android SDK自动阅读今日头条极速版新闻

python 刷手机今日头条金币_刷金币全自动脚本 | 让Python每天帮你薅一个早餐钱（送源码）...

playwrite今日头条自动发帖

命令行版今日头条——上班“摸鱼”的好帮手

python爬取今日头条瀑布流_连续动作：滚屏采集瀑布流网页—以头条新闻为例

发表评论

推荐文章

QGIS打开无响应或每操作一下就卡很久

猎人华为单机离线版资源介绍

cloudreve安装linux教程,Cloudreve云盘系统小白超详细图文安装教程

dl388g8 惠普 linux 网卡驱动,hp dl388 gen9驱动下载

多媒体播放基础

热门文章

怎么一键重装笔记本系统(笔记本电脑一键装系统教程)

windows控制iPhone（不需要蓝牙）

Android上面做Flash播放器

repmgr promote

电脑出现ntdll.dll错误模块是什么情况？常见ntdll.dll修复的问题

一篇文章让你了解Android各个版本的历程

笔记本计算机被限制无法上网,电脑上网受限制或无法连接怎么办 电脑上网受限制或无法连接的解决方法...

Apache Hudi 建表需要考虑哪些参数？（Spark）-- 上篇

Simulink Design Optimization的参数估计（续）

【干货】今日头条的新闻推荐算法原理

最新文章

linux运行微软运行库,Windows Desktop Runtime(微软官方运行库) V3.1.6

Windows Server 2008 R2微软官方下载

Windows 10 microsoft store微软商店 0x800700B7解决

在linux安装windows应用商店,Ubuntu 已在微软官方应用商店 Windows Store上免费提供下载...

如何在微软的下载商店找到下载的图片?

探秘 Windows 检查点累积更新

redis下载安装启动的详细步骤（Windows）

微软内存测试软件,内存检测工具Microsoft Windows Memory Diagnostic是用说明

微软Windows7自带tsmmc.msc远程桌面管理工具

Windows7不能使用MS-Speech语音库的解决方法

windows软件兼容性测试工具,win8.1软件兼容性检测微软官方有妙招

[下载]微软Windows命令行PowerShell 2.0

Windows10最新微软纯净安装版制作教程

云计算 第四章 微软云计算 Windows Azure

微软晓晓朗读录音工具windows-文字转语音

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

笔记本计算机被限制无法上网,电脑上网受限制或无法连接怎么办电脑上网受限制或无法连接的解决方法...

云计算第四章微软云计算 Windows Azure

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载