今日头条爬虫 java_Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻...|电子爱好者

admin管理员组
文章数量:1660709

0x0 背景

最近学习爬虫，分析了几种主流的爬虫框架，决定使用最原始的两大框架进行练手：

Jsoup&HttpUnit

其中jsoup可以获取静态页面，并解析页面标签，最主要的是，可以采用类似于jquery的语法获取想要的标签元素，例如：

//1.获取url地址的网页html

html = Jsoup.connect(url).get();

// 2.jsoup获取新闻标签

Elements newsATags = html.select("div#headLineDefault")

.select("ul.FNewMTopLis")

.select("li")

.select("a");

但是，有些网页(例如今日头条)并非是静态页面，而是在首页加载后通过ajax获取新闻内容然后用js渲染到页面上的。对于这种页面，我们需要使用htmlunit来模拟一个浏览器访问该url，即可获取该页面的html字符串。代码如下：

WebClient webClient = new WebClient(BrowserVersion.CHROME);

webClient.getOptions().setJavaScriptEnabled(true);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setActiveXNative(false);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setThrowExceptionOnScriptError(false);

webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

webClient.getOptions().setTimeout(10000);

HtmlPage htmlPage = null;

try {

htmlPage = webClient.getPage(url);

webClient.waitForBackgroundJavaScript(10000);

String htmlString = htmlPage.asXml();

return Jsoup.parse(htmlString);

} finally {

webClient.close();

}

0x1 搜狐、凤凰、网易爬虫

这三家的页面都是静态的，因此代码都差不多，只要分析页面标签找到对应的元素，提取出想要的内容即可。

爬虫基本步骤为以下四步：

(1)获取首页

(2)使用jsoup获取新闻标签

(3)从标签中抽取基本信息，封装成News对象

(4)根据新闻url访问新闻页面，获取新闻内容、图片等

1.爬虫接口

一个接口，接口有一个抽象方法pullNews用于拉新闻，有一个默认方法用于获取新闻首页：

public interface NewsPuller {

void pullNews();

// url:即新闻首页url

// useHtmlUnit:是否使用htmlunit

default Document getHtmlFromUrl(String url, boolean useHtmlUnit) throws Exception {

if (!useHtmlUnit) {

return Jsoup.connect(url)

//模拟火狐浏览器

.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)")

.get();

} else {

WebClient webClient = new WebClient(BrowserVersion.CHROME);

webClient.getOptions().setJavaScriptEnabled(true);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setActiveXNative(false);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setThrowExceptionOnScriptError(false);

webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

webClient.getOptions().setTimeout(10000);

HtmlPage htmlPage = null;

try {

htmlPage = webClient.getPage(url);

webClient.waitForBackgroundJavaScript(10000);

Strin

本文标签：爬虫头条今日凤凰搜狐

版权声明：本文标题：今日头条爬虫 java_Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻... 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729880885a1215902.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

html头条新闻样式,请问今日头条图片频道布局样式如何实现的？

1小时前

Title *{ margin: 0; padding: 0; } ul,li{ list-style: none; } .middle { width: 136px; height: 136px; } .right { float: ri

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

1小时前

简介在现在的安卓开发中，大部分需求会经常遇上viewpager和tablayout组合实现的功能，然后通过网络请求拿到数据然后显示在页面上，之前自己也在网上搜索过一些文章

头条php,基于PHP的免费新闻头条接口查询

1小时前

1、开通接口新闻头条接口服务使用的聚合数据提供的免费接口，每天可以100次免费调用。可以通过https:www.juhedocsapiid235注册及开通。 2、新闻头条列表查询 ** * 聚合新闻头条

推荐开源项目：react-toutiao - React 实现的今日头条

1小时前

推荐开源项目：react-toutiao - React 实现的今日头条去发现同类优质开源项目:https:gitcode 1. 项目介绍 react-toutiao 是一个基于 Facebook 的 R

爬取今日头条新闻

1小时前

转载：：https:blog.csdnweixin_39416561articledetails84672104

GitHub：今日头条机器人

1小时前

hello，小伙伴们大家好，今天给大家介绍的开源项目是：TTBot，这个开源项目是使用今日头条web版API实现的头条机器人，涵盖

java新闻爬虫_java实现简单的爬虫之今日头条

1小时前

前言需要提前说下的是，由于今日头条的文章的特殊性，所以无法直接获取文章的地址，需要获取文章的id然后在拼接成url再访问。下面话不多说了，直接上代码。

Python递归爬取今日头条指定用户一个月内发表的所有文章，视频，微头条(2)

1小时前

感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的： ①　2000多本Python电子书（主流和经典的书籍应该都有了&

抓取今日头条新闻

1小时前

抓取内容文章作者信息也就是文章作者管理客户端提供文章作者首页地址，http:www.toutiaocuser6310889977 通过如下方式可以获取到作者信息: publicvoidtest2()

“今日头条”发展困境与未来发展策略

1小时前

本人产品新人一枚，近期闲来没事，于是查阅相关资料，进行了整合，现对“今日头条”这款App的发展困境与未来发展策略说说自己的看法，如

Axure新闻资讯APP客户端原型图，今日头条内容社交，RP成品原型197页

1小时前

作品说明作品页数：共 190 页支持软件：Axure RP 910，不支持低版本应用领域：新闻资讯，信息内容作品

【vue前端项目实战案例】Vue3仿今日头条App

1小时前

本文将开发一款仿“今日头条”的新闻App。该案例是基于 Vue3.0Vue RouterwebpackTypeScript 等技术栈实现的一款新闻资讯类App，适合有一定Vue框架使用经验的开发者进行学习。

可狱可囚的爬虫系列课程 10：在网站中寻找 API 接口（今日头条热榜爬取）

1小时前

上一篇文章我们讲述了爬虫中一个比较重要的知识点，如何从 API 接口中获取数据，本篇文章我们继续讲述，如何在网站中寻找 API 接口，我们以“今日头条”

今日头条付费项目，帮你赚到更多的钱，学会钱生钱的玩法

1小时前

今日头条作为一款广受欢迎的新闻资讯平台，其付费项目为用户提供了更多赚钱的机会。本文将探讨今日头条付费项目的运作方式以及如何利用这些项目学会钱生钱的玩法，帮助你赚到更多的钱。今日头条付费项目概述

java爬虫系列（五）——今日头条文章爬虫实战

1小时前

文章目录项目源码爬虫目标爬虫设计思路爬取方式动态解析网页方式爬取解析接口方式爬取解析思路破解入口接口对比破解加密参数参数生成方式解析js 分析接口返回值解析原文地址 java项目解析基本功能队列和线程池操作界面——swagger2 总结

Django项目实践（爬取今日头条的头条热榜）

1小时前

本文按照下列项目来进行说明。 mysite2 - manage.py - mysite2 - app01 1、打开今日头条，对网页进行分析并爬取获取请求URL 分析网站的数据来源后。开始构造headers&a

Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻

1小时前

0x0 背景最近学习爬虫，分析了几种主流的爬虫框架，决定使用最原始的两大框架进行练手： Jsoup&HttpUnit 其中jsoup可以获取静态页面&#

命令行版今日头条——上班“摸鱼”的好帮手

1小时前

简介上班无聊怎么办？想刷新闻怎么办？怕被发现怎么办？ 命令行版今日头条帮你忙，摸鱼神器~ 喜欢请帮忙点下star 项目说明项目地址功能&a

Python爬虫从入门到精通——爬虫实战：爬取今日头条图片新闻

1小时前

分类目录：《Python爬虫从入门到精通》总目录本文为实战篇，需提前学习Python爬虫从入门到精通中《基本库requests的使用》和《Ajax数据爬取（一&#

利用鸿蒙开发新闻头条

1小时前

大家好，我是老王~ 本来计划要做一个本地数据库存储相关的项目，但是官方的小伙伴给我说，ArkUI数据库目前不支持最新的模拟器。所以只能另想其他的，想了大概一周，期间也在调研技术能否实现，纠结的很，想着要不断的突破自己，至少比上一次的

电子爱好者 - 最新技术资讯及电子产品介绍！

今日头条 爬虫 java_Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻...

更多相关文章

html头条新闻样式,请问今日头条图片频道布局样式如何实现的？

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

头条php,基于PHP的免费新闻头条接口查询

推荐开源项目：react-toutiao - React 实现的今日头条

爬取今日头条新闻

GitHub：今日头条机器人

java新闻爬虫_java实现简单的爬虫之今日头条

Python递归爬取今日头条指定用户一个月内发表的所有文章，视频，微头条(2)

抓取今日头条新闻

“今日头条”发展困境与未来发展策略

Axure新闻资讯APP客户端原型图，今日头条内容社交，RP成品原型197页

【vue前端项目实战案例】Vue3仿今日头条App

可狱可囚的爬虫系列课程 10：在网站中寻找 API 接口（今日头条热榜爬取）

今日头条付费项目，帮你赚到更多的钱，学会钱生钱的玩法

java爬虫系列（五）——今日头条文章爬虫实战

Django项目实践（爬取今日头条的头条热榜）

Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻

命令行版今日头条——上班“摸鱼”的好帮手

Python爬虫从入门到精通——爬虫实战：爬取今日头条图片新闻

利用鸿蒙开发新闻头条

发表评论

推荐文章

网盘调研

升级android studio2.0后， build grade running速度太慢，完美解决！

第三章 教育法律法规

ML之XGBoost：XGBoost参数调优的优秀外文翻译—《XGBoost中的参数调优完整指南(带python中的代码)》(二)

聚类算法(2)--Mean Shift

热门文章

Bilibili的网站后台源码被发到了GitHub上?

stable-diffusion-webui 启动服务，卡在浏览器loading中, 重定向解决

安卓手机android文件,安卓Android手机系统内文件夹目录解释

数据分析实战项目1：应用商店Appstore数据分析

搭建嵌入式ARM完整系统

RL4RS，离线强化学习，无模型强化学习等等资源汇总

使用mac的遇到的Wi-Fi不能上网之能ping通但是上不了网的解决办法

【VMware安装及虚拟机配置】

如何将Windows 10恢复出厂设置

dos命令创建电脑Wifi热点后，手机连接获取不到IP地址解决办法

最新文章

【转】KMS error code 0x8007000d 解决方法

Visio2013激活破解

Unraid安装KMS Docker激活Windows+Office

VAMT3管理工具:查看哪些客户端使用kms进行了激活

【无标题】win11 kms 所请求的操作需要提升权限。 页面不可用你的IT管理员已限制对此应用的某些区域的访问，并且你尝试访问的项目不可用。有关详细信息，请与IT支持人员联系。

极路由KMS_Activator插件使用教程

window7下visio 201364位激活工具

电脑如何激活windows

教你一段代码激活计算机系统

如何激活Windows server服务器

会员业务基于Cloud KMS的数据安全应用

开源工具专题-02 Confluence企业级wiki

开源项目激活脚本（Activation Script）安装与使用指南

图解支付-金融级密钥管理系统：构建支付系统的安全基石_kms框架

10款你一定不知道的实用工具！

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

今日头条爬虫 java_Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻...

第三章教育法律法规

【无标题】win11 kms 所请求的操作需要提升权限。页面不可用你的IT管理员已限制对此应用的某些区域的访问，并且你尝试访问的项目不可用。有关详细信息，请与IT支持人员联系。

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载