java爬虫实战腾讯视频网的总结|电子爱好者

admin管理员组
文章数量:1637212

技术使用：

HttpClient
HTMLCleaner
Xpath
正则表达式
mysql

想法

emmmm反正也是没工作的状态找点有趣的东西玩一玩就想到了爬虫项目。
主要采用HttpClient进行页面获取。HTMLCleaner进行数据清洗。使用Xpath进行数据定标，最后用正则表达式获得最终结果。并存储入数据库中。
其主要实现代码如下：

	HttpClientBuilder builder=HttpClients.custom();	
		CloseableHttpClient client=builder.build();
		HttpGet request=new HttpGet(url);
		CloseableHttpResponse reponse=client.execute(request);
		HttpEntity entity=reponse.getEntity();
	String	content=EntityUtils.toString(entity);

这段代码目的是获得HTML页面的代码并保存下来。

HtmlCleaner cleaner=new HtmlCleaner();
		CleanerProperties CleanerProperties	= cleaner.getProperties();
		TagNode rootNode=cleaner.clean(page.getContent());
		Object[] objects=rootNode.evaluateXPath("//*[@id=\"container_player\"]/div/div[1]/div[1]/div[2]/div[1]/div[1]/a/span");
		if(objects.length>0) {
			TagNode plnode=(TagNode)objects[0];
			System.out.println(plnode.getText());
		}

这段代码目的是将页面代码清洗并根据锚定节点获得其值。再之后使用正则表达式过滤数据。并存储入数据库中。
基本实现核心代码便是如此。
Xpath可以通过浏览器开发者模式中直接拷贝到。
另外能根据节点捕获其值也意味着可以不单独的获取单个页面而是可以分析总页面并进入子页面再进入详情页进行数据爬取。其思路大致如下：
1.获得总页面url 采集其页面的分页面url并进行保存。
2.对分页面进行采集所需页面url并进行保存。
3.采集具体页面数据并处理保存。

本项目期间遇到过的问题：
1.爬取的页面内容只有头尾
解决方案：模拟浏览器进行访问
HttpGet request 中有一个方法setHeader 将其设定User-Agent ，浏览器中对应的值。
2.爬取页面内容中文乱码
用String进行格式清理getByte后重设编码格式。
大体上就是这样

本文标签：爬虫腾讯实战视频网 Java

版权声明：本文标题：java爬虫实战腾讯视频网的总结内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1726539706a1074600.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

java爬虫实战腾讯视频网的总结

技术使用：

想法

更多相关文章

Java爬虫

Java基础12 implement和extends的区别

implement在JAVA中_java中的implement

java中的implement怎么用?

Java中implement和extend

java里面abstract和implement的简单认识

java extendsinterfaceimplement三者的联系与区别

must implement java.io.Serializable hessian

java.lang.IllegalStateException: Serialized class pojo.TbItem must implement java.io.Serializable

java关键字extend和implement

java里面interface，implement和extends的作用和用法

Implement HashMap in Java

Demo Java 2 method to implement Multi-Thread

java算法之简单的Implement strStr

java interface有多个implement的情况下，@Inject调用实现类的选择

JAVA中extend和implement的区别

java 前缀树实现 leetcode 208: Implement Trie (Prefix Tree)

【Leetcode】：28. Implement strStr()问题 in JAVA

Implement strStr() (Java)

java ip欺骗_Loadrunner IP欺骗

发表评论

推荐文章

Android搜狗输入法搜索栏

ThinkPHP 6.0 使用笔记 - 重写路由 隐藏入口文件index.php

arm linux qt 输入法,基于ARM9和Qt的中文手写输入法的设计与实现

[Android开发常见问题-4] RunTime.exec()如何以root权限执行多条指令？

PC端实用软件推荐

热门文章

【Vue.js】路由基础-动态路由、嵌套路由、编程式导航、重定向

ensp静态单臂路由配置步骤（超详细）

Win10制作ghost镜像的时候，报错：Encountered an NTFS Volume .....

360流量卫士android 9,360流量卫士

常见web应用防护软件下载2021

看不出svp补帧_SVP4免费版|SVP4(视频补帧软件)下载v4.2.0.122免费版 附教程 - 欧普软件下载...

CentOS Linux利用ntfs-3g挂载读写Windows的ntfs分区

ajax上传图片报错TypeError: 'append' called on an object that does not implement interface Fo

Demo Java 2 method to implement Multi-Thread

PSP游戏卡 列表展示

最新文章

PTE-靶场训练-1

Windows操作系统知识合集

网络攻防｜一次实战中的向日葵 RCE Bypass 360

网络空间安全赛题解析-通过IIS漏洞获取敏感信息

【网络】java密码安全

nacos系列漏洞复现总结

CVE-2022-46169漏洞系统复现与分析

最新漏洞POC_exp集合站 IT设备默认用户名密码 证语网络安全Lab

突破安全狗

【例子】locust压力测试——2种方式实现访问需要权限验证的接口（API）

Windows明文密码抓取 法国神器mimikatz_trunk附源码

python+pytest接口自动化(7)-cookie绕过登录(保持登录状态)

20194311姜晨昊Exp6-MSF应用基础

Windows Server 2008 R2忘记管理员密码后的解决方法

Hacker（22）----解除系统中的密码

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

ThinkPHP 6.0 使用笔记 - 重写路由隐藏入口文件index.php

看不出svp补帧_SVP4免费版|SVP4(视频补帧软件)下载v4.2.0.122免费版附教程 - 欧普软件下载...

PSP游戏卡列表展示

最新漏洞POC_exp集合站 IT设备默认用户名密码证语网络安全Lab

Windows明文密码抓取法国神器mimikatz_trunk附源码

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载