admin管理员组

文章数量:1660864

应客户需求,要对今日头条App内出现的广告商品进行提取,获取商品名称、价格区间、当前销量、卖家数据等信息。之前他们都是通过人工手动去提取的,效率很低,而且容易遗漏。现在需要通过程序来自动化采集以提高效率。

今日头条App内两种类型的广告:一种是外链的广告,点击后直接跳转到第三方平台(比如京东);另一种是今天头条本身的广告展示系统,域名为jinritemai,这类广告有统一的页面结构(如下图所示 https://haohuo.jinritemai/views/product/item?id=3360169876621782786),可以做到精准的内容提取。客户主要关注后者。

下面说一下实现过程:

由于今日头条系App(包括抖音)都采用了签名机制,无法自己构造有效的请求。但是应答数据没有加密,我们可以通过抓包轻易从新闻JSON列表中解析出广告数据(如下图所示)。

整体步骤如下:

1.通过adb控制手机上的今日头条App,不断刷新新闻列表,以展示出更多的广告内容。

2.给手机设置设置中间人代理(mitmproxy)。

3.在Mitmporxy脚本中截获头条APP的应答JSON数据,并提取广告跳转链接,发送到主采集进程。

4.在主采集进程中接收广告链接,提取产品属性。

由于客户不懂技术,上述操作都要做到傻瓜式操作。比如手机代理的设置,这个步骤如果要客户手动进行就比

本文标签: 头条今日广告采集器手机