Java 爬取GooglePlay数据|电子爱好者

admin管理员组
文章数量:1604652

这里写目录标题

- 1. 前言
- - 获取网页HTML信息
  - 使用Xpath解析HTML
- 2. 开始实战
- - 1. 获取googlePlay的各个游戏的链接
  - 2. 获取goolePlay每个游戏的详细信息
- 3. 抓取进阶
- - 1. 如何通过抓取一大块再解析
  - 2. 如何通过regex匹配更多的数据
- 4. 爬取小技巧
- - 1. 爬取网页数据为中文

1. 前言

好久没有用Java进行数据抓取操作了，之前还是在2018年那个夏天，不过这次又遇到相同的需求了，所以就把整个过程记录下来，以后遇到了同样的情况就比较好操作。内容绝对干货，包括如何解析，如何爬取，如何解决遇到的问题。

获取网页HTML信息

我这里就是简单的http请求，所以就用Java库自带的HttpURLConnection类进行请求操作。具体操作如下

public static String getWebPageInfoByWebUrl(String webURL) throws Exception{
   
        URL url = new URL(webURL);
        System.out.println("webURL = " + webURL);
        HttpURLConnection httpURLConnection = (HttpURLConnection) url.openConnection() ;
        httpURLConnection.setRequestMethod("GET");
        BufferedReader reader = new BufferedReader(new InputStreamReader(httpURLConnection.getInputStream()));
        String line;
        StringBuilder response = new StringBuilder();
        while (true){
   
            line = reader.readLine();
            if (line == null || line.equals("null")){
   
                break;
            } else {
   
                response.append(line);
            }
        }
        reader.close();
        return String.valueOf(response);
    }

上面这个方法根据传入的url，返回获得的html页面信息。这里比较简单，没传什么header，proxy之类的，就简简单单抓个数据，如果有需要可自行添加。

使用Xpath解析HTML

回忆了很多解析方式，像什么xpath，javascript，regex，好像之前就xpath解析用的是比较多一点的。
然后接下来就是xpath解析，为了方便获取xpath表达式，直接从chrome商店下载一个 XPath Helper 插件。

XPath 咋使用呀
1-> 打开一个新选项卡并导航到任何网页。
2-> 按Ctrl-Shift-X(或在OS X上按Command-Shift-X)，或单击工具栏中的XPath Helper按钮，打开XPath Helper控制台。
3-> 当鼠标移到页面上的元素上时，按住Shift键。查询框将不断更新，以显示针对鼠标指针下方元素的XPath查询，结果框将显示当前查询的结果。
4.-> 如果需要，可以直接在控制台中编辑XPath查询。结果框将立即反映您的更改。

2. 开始实战

1. 获取googlePlay的各个游戏的链接

链接这个东西用Xpath直接选页面大概率是选不到的，我们直接先选中一个游戏，然后打开浏览器的控制台，看页面源码，一眼就可以看到我们需要的游戏链接地址，然后我们需要获得所有的游戏地址，就通过XPath Helper工具慢慢调试到我们想要的结果，最后可以看到当表达式为： //a[@class=‘Si6A0c Gy4nib’]/@href ，我们可以可以拿到我们的链接列表。

Java代码

import org.apache.commons.text.StringEscapeUtils;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;

import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;

public class HttpRequestUtil2 {
   
    
    public static void main(String[] args) throws Exception {
   
        // 获取googlePlay搜索结果游戏链接地址
        List<String> gameUrlList = getGameUrlList();
    }

    /**
     * 获取游戏网址列表
     * @return {@link List }<{@link String }>
     */
    private static List<String> getGameUrlList() throws Exception {
   
        // 获取googlePlay搜索结果网页信息
        String searchURL = "https://play.google/store/search?q=ludo&c=apps&hl=zh";
        String content = getWebPageInfoByWebUrl(searchURL);
        // 做一下网页处理 这样可以确保是 html页面
        content = content.replaceAll("<script [\\s|\\S]*? </scritp>", "");
        if (!content.startsWith("<?xml version=\"1.0\" encoding=\"UTF-8\"?>")) {
   
            content = "<?xml version=\"1.0\" encoding=\"UTF-8\"?>\n" + content;
        }
        TagNode clean = new HtmlCleaner().clean(content);
        String expression = "//a[@class='Si6A0c Gy4nib']/@href";
        Object[] objects = clean.evaluateXPath(expression);
        List<String> gameUrlList = new ArrayList<>(objects.length);
        for (Object objectTag : objects){
   
            String tagNodeHtmlString = getTagNodeHtmlString(objectTag);
            gameUrlList.add(tagNodeHtmlString);
            System.out.println(tagNodeHtmlString);
        }
        return gameUrlList;
    }

    /**
     * 通过 Web URL 获取网页信息
     * @param URL 网址
     * @return {@link String }
     */
    private static String getWebPageInfoByWebUrl(String URL) throws Exception{
   
        HttpURLConnection httpURLConnection = (HttpURLConnection) new URL(URL).openConnection();
        httpURLConnection.setRequestMethod("GET");
        BufferedReader reader = new BufferedReader(new InputStreamReader(httpURLConnection.getInputStream()));
        String line;
        StringBuilder response = new StringBuilder()

本文标签：数据 Java GooglePlay

版权声明：本文标题：Java 爬取GooglePlay数据内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1728464617a1159310.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

Java 爬取GooglePlay数据

这里写目录标题

1. 前言

获取网页HTML信息

使用Xpath解析HTML

2. 开始实战

1. 获取googlePlay的各个游戏的链接

更多相关文章

详细分析Java中的Minio类各API（附win配置安装）（全）

java xml文件中提示cannot resolve property ‘id’ Inspection info : Under Construction

java我的世界1.6.2_我的世界1.6.2纯净版下载 我的世界1.6.2下载

数据取证知识点记录（一）

Java版点餐小程序2024最新版笔记，Springboot+Mysql+Freemarker+Bootstrap+微信小程序实现扫码点餐小程序

Android MQTT连接阿里云使用Json解析数据

传输协议不安全，数据泄露谁之过？——流量劫持技术分析

较全的JAVA基础问题

用区块链技术解决数据与征信的痛点，他们想让公民自己管理信用数据

android 手机数据查看及 samsung galaxy s10 开发者模式

AutoCad-查看坐标数据-画多段线命令-画圆命令-画文字-VBA

获取Google Play 下载 来源渠道 广告参数 相关数据

探索Google Play数据的利器：google-play-scraper

浅谈GooglePlay和AppStore的区别

java 服务端接入Google play 结算

Unity 跳转GooglePlay 谷歌商店 应用商店

GooglePlay应用上架流程

GooglePlay 应用内评分测试

GooglePlay Console语言设置

Java程序员的MacBookPro(14寸M1)配置备忘录

发表评论

推荐文章

Office2013-2019安装教程

分享一个office2016的下载地址，整合了win、mac，有需要的拿去下载。

windows网络常用命令，须熟记。

桌面虚拟化 VMware Horizon_view 7 安装及管理手册

win10启动修复_win10开机无法进入系统怎么办？针对MBR修复方法

热门文章

计算机可移动磁盘无法显示图片,电脑不显示移动硬盘图标？两种解决办法

chrome android 中文版下载,Chrome浏览器安卓版

ShaderMap Pro(贴图制作转换生成工具)v1.3.1官方版

【云原生 • Kubernetes】搭建 k8s 集群(Kubeadm 方式)

GHOSTXP_SP3电脑公司快速安装机版V2013

win10笔记本连网线或连wifi给手机开热点，手机却连不上这个热点

4x root 红米_红米Note 4X root教程 红米Note4X获取root权限的方法

为什么所有APP都想获取你的定位？

Linux下使用dd命令对树梅派镜像进行烧写与备份方法（可压缩镜像）

分享Lattice Diamond四个版本的安装包

最新文章

全球第一免费开源ERP Odoo Ubuntu最佳开发环境独家首发分享...

国产Linux发行版再添一员，操作界面不输苹果！，2024Linux运维架构面试指南

怎么在线翻译图片上的文字？给你能够“解码”外语图片的工具

卸载 Notepad++ ！事实已证明，它更牛逼……

怎么翻译图片上的英文？备考路上的好帮手

win10玩cf不能全屏_盘点win10自带的好用软件

电脑使用技巧系列之桌面图标设置、桌面美化、任务栏设置及美化

卸载 Notepad++，事实已证明，它也可以……

语音翻译app实时翻译软件哪个好？七款翻译工具让你秒变语言大师

拍照翻译器app推荐什么？六个跨语言交流的解决方案帮到你

安装一个好用的Ubuntu桌面

研发工具指南

数据挖掘公开数据集【汇总】

音频转文字怎么弄？让你一键转换，轻松记录

有什么出国语音翻译软件值得推荐？五款软件助你畅享原声影视文学

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

java我的世界1.6.2_我的世界1.6.2纯净版下载我的世界1.6.2下载

获取Google Play 下载来源渠道广告参数相关数据

Unity 跳转GooglePlay 谷歌商店应用商店

4x root 红米_红米Note 4X root教程红米Note4X获取root权限的方法

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载