今日头条新闻数据抓取|电子爱好者

admin管理员组
文章数量:1660687

今日头条新闻信息抓取注意的是头条获取的ajax动态数据（数据里还是有点小坑的），json中data数据的9和19是无用信息，另外图片和视频类型也需要排除


    
# coding=gbk
import requests
import json
import pandas as pd
from lxml import etree
import re
import csv

# false=""
# true=""
# null=""

def download(url):
    headers={
        "authority":"www.toutiao",
        "accept":"application/json",
        "cookie":"tt_webid=UM_distide0500427da2a543680c200ee161; _ga=GA1.2.846289002.1555920121; CNZZDATA1259612802=450841153-1555907327-https%253A%252F%252Fwww.baidu%252F%7C1556003494; __tasessionId=pvm4sk1561556005960158; s_v_web_id=b3da262bf518fdcf2df06210b0065a55",
        "referer":"https://www.toutiao/search/?keyword=%E6%B2%B3%E5%8D%97%20%E6%A0%BE%E5%B7%9D",
        "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36",
    }

    html=requests.get(url,headers=headers,verify=False,timeout=10).text
    print(html)
    print(type(html))
    # return eval(html)
    return json.loads(html)


def download1(url):
    headers1={
        "authority":"www.toutiao",
        "accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
        "cookie":"tt_webid=6682589457788569099;788569099; UM_distinctid=16a438f23b819c-0a360ff16c1a3d-7a1b34-e1000-16a438f23b93f9; csrftoken=ddb7de0500427da2a543680c200ee161; _ga=GA1.2.846289002.1555920121; CNZZDATA1259612802=450841153-1555907327-https%253A%252F%252Fwww.baidu%252F%7C1556003494; s_v_web_id=b3da262bf518fdcf2df06210b0065a55; __tasessionId=9xpt12cca1556008616299",
        "referer":"https://www.toutiao/search/?keyword=%E6%B2%B3%E5%8D%97%20%E6%A0%BE%E5%B7%9D",
        "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36",
    }

    html=requests.get(url,headers=headers1,verify=False,timeout=10).text
    return html
    # html = requests.get(url=url,headers=headers1,allow_redirects=False)
    # print(html.status_code)
    # # print(html.headers["location"])
    # if html.status_code == 302:
    #     new_id_url = html.headers["location"]
    #     print(new_id_url)
    #
    #     return new_id_url
    # else:
    #     print("++++++++++++++++")
    #     print(url)
    #     # print(requests.get(url=url,headers=headers1).text)
    #     return etree.HTML(requests.get(url=url).text)

list_all=[]

key_words=pd.read_csv(r"C:\Users\Lavector\Desktop\百事小红书\redbook.csv",engine='python',header=None).values.tolist()
# for l in range(1):
for l in range(1,len(key_words)):
    key_word=key_words[l][0]
    print(len(key_word))
    print(key_word)
    list_all.append(key_word)
# print(list_all)
    try:
        for i in range(20):
            print("第{}页".format(i+1))
            key_url="https://www.toutiao/api/search/content/?aid=24&app_name=web_search&offset={}&format=json&keyword={}&autoload=true&count=20&en_qc=1&cur_tab=1&from=search_tab".format(20*i,key_word)
            key_html=download(key_url)
            # print(key_html['data'])
            # print(key_html['data'][0])
            # print(key_html['data'][1])
            # print(key_html['data'][2])
            print(len(key_html['data']))
            # print(key_html['data'][0][1]['media_name'])

            for k in range(len(key_html['data'])-1):
                print(k)
                print(key_html['data'][k])
                # try:
                if not k ==9 :
                    if key_html['data'][k]['app_info']['query_type']=="SearchAggregationInternalQueryType" :
                        name=key_html['data'][k]['media_name']
                        time=key_html['data'][k]['datetime']
                        title=key_html['data'][k]['title']
                        abstract=key_html['data'][k]['abstract']
                        article_url=key_html['data'][k]['article_url']
                        article_html=download1(article_url)
                        content=''.join(re.findall('([\u4E00-\u9FA5])',article_html,re.S))

                        list_all.append([key_word,name,time,title,abstract,content,article_url])
                        print([key_word,name,time,title,abstract,content,article_url])
                        print("+++++++++++++++++++++++++++++++++++++++++======")
                    # elif key_html['data'][k]['cell_type']==20:
                    #     pass

                    else:
                        pass
                else:
                    pass
    except Exception as e:
        with open("头条3.csv", "w", encoding="utf-8", newline="") as f:
            k = csv.writer(f, dialect="excel")
            k.writerow(["关键词", "发表人", "发布时间", "标题", "简介", "内容", "链接"])

            for list in list_all:
                k.writerow(list)
        print(e)
        print('************')

        pass

with open("头条3.csv", "w", encoding="utf-8", newline="") as f:
    k = csv.writer(f, dialect="excel")
    k.writerow(["关键词", "发表人","发布时间", "标题", "简介", "内容","链接"])

    for list in list_all:
        k.writerow(list)

本文标签：头条今日数据新闻

版权声明：本文标题：今日头条新闻数据抓取内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/xitong/1729881142a1215933.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

今日头条的个性化推荐

1小时前

一、今日头条个性化推荐流程服务器1000台，代码实现爬虫功能，在其他传媒网站和门户上抓取各种信息，如果在网站上抓取到纸媒内容，则优先从纸媒门户上抓取

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

1小时前

简介在现在的安卓开发中，大部分需求会经常遇上viewpager和tablayout组合实现的功能，然后通过网络请求拿到数据然后显示在页面上，之前自己也在网上搜索过一些文章

头条php,基于PHP的免费新闻头条接口查询

1小时前

1、开通接口新闻头条接口服务使用的聚合数据提供的免费接口，每天可以100次免费调用。可以通过https:www.juhedocsapiid235注册及开通。 2、新闻头条列表查询 ** * 聚合新闻头条

今日头条怎么刷文章阅读量_今日头条能刷阅读量吗？

1小时前

今日头条目前已成为主流自媒体平台，每日流量可谓非常之大。很多做自媒体的朋友一直发愁如何提高今日头条等自媒体平台的阅读量。自头条号推出新规则后，让很多新手很高兴，因为不用苦苦转

（android高仿系列）今日头条 --新闻阅读器（二）

1小时前

高仿今日头条 --- 第一篇：（android高仿系列）今日头条 --新闻阅读器 （一） 上次，已经

爬取今日头条新闻

1小时前

转载：：https:blog.csdnweixin_39416561articledetails84672104

java新闻爬虫_java实现简单的爬虫之今日头条

1小时前

前言需要提前说下的是，由于今日头条的文章的特殊性，所以无法直接获取文章的地址，需要获取文章的id然后在拼接成url再访问。下面话不多说了，直接上代码。

今日头条 mysql_今日头条这么牛逼，用了什么技术？

1小时前

今日头条创立于2012年3月，到目前仅 6 年时间。从十几个工程师开始研发，到上百人，再到200余人。产品线由内涵段子，到今日头条&#xff0c

采集今日头条数据 python 爬虫 API接口

1小时前

今日头条是业界知名的技术牛人大团结的公司，今天我们来探讨一下如何规模化的采集获取今日头条的数据。我就一招：iDataAPI。今日头条数据接口（API&#xff09

Axure新闻资讯APP客户端原型图，今日头条内容社交，RP成品原型197页

1小时前

作品说明作品页数：共 190 页支持软件：Axure RP 910，不支持低版本应用领域：新闻资讯，信息内容作品

Markdown转换成公众号、知乎、今日头条格式，已开源

1小时前

文颜本项目的起源是我平常使用markdown写文章，再使用hugo生成静态页面发布到我的博客。但当我想把文章发布到诸如“公众号”、“知乎”、“今日头条”等平台时，发现需要针对每个平台进行格式转

仿今日头条小程序搭建

1小时前

首先我们要明确小程序需要哪几种文件。微信小程序中就四种类型的文件： js ---------- JavaScrip文件json -------- 项目配置文件，负责窗口颜色等等wxml

Appium+Android SDK自动阅读今日头条极速版新闻

1小时前

from appium import webdriverfrom time import sleepimport json#获取进入主界面的配置idesired_caps{}desired_caps[platformName]

今日头条接口

1小时前

推荐:http:ic.snssdk2articlev25stream?count20&min_behot_time1504621638&bd_latitude4.9E-324&bd_longitude4

今日头条 mysql_今日头条的核心技术细节是什么？

1小时前

今日头条创立于2012年3月，到目前仅 6 年时间。从十几个工程师开始研发，到上百人，再到200余人。产品线由内涵段子，到今日头条&#xff0c

iOS仿今日头条顶部新闻分页

1小时前

仿今日头条顶部新闻分页近日闲来无事总是刷头条,突然发现了一个有趣的现象,如下图: 当你滑动或者点击分页的名字的时候,不管当时那个分页在哪,最后都会被滚动到最中间.我又去翻了其他的资讯类的app,发现基本很多都是这样做的.抱着求知的心态,

java爬虫系列（五）——今日头条文章爬虫实战

1小时前

文章目录项目源码爬虫目标爬虫设计思路爬取方式动态解析网页方式爬取解析接口方式爬取解析思路破解入口接口对比破解加密参数参数生成方式解析js 分析接口返回值解析原文地址 java项目解析基本功能队列和线程池操作界面——swagger2 总结

playwrite今日头条自动发帖

1小时前

目的大家好，我是watchpoints ，一个只为自己打工程序员， watchpoints是我github用户名 ，也是我的wechat 用户名&am

vue仿今日头条_微信小程序仿今日头条导航栏滚动解析

1小时前

项目需要，做一个和今日头条一样的导航栏，可以横行滚动，幸好再weui里面看到了类似的例子地址：https:weui.shanliwawa.top

用requests包爬取今日头条新闻标题

1小时前

全码如下： # requests# 用来发送url（请求request），获取服务器响应import requestsimport jsonif __name__ == '__main__':# 1.目标 ur

电子爱好者 - 最新技术资讯及电子产品介绍！

今日头条新闻数据抓取

更多相关文章

今日头条的个性化推荐

Android基于viewpager和tablayout实现类似今日头条和腾讯新闻的界面

头条php,基于PHP的免费新闻头条接口查询

今日头条怎么刷文章阅读量_今日头条能刷阅读量吗？

（android高仿系列）今日头条 --新闻阅读器 （二）

爬取今日头条新闻

java新闻爬虫_java实现简单的爬虫之今日头条

今日头条 mysql_今日头条这么牛逼，用了什么技术？

采集今日头条数据 python 爬虫 API接口

Axure新闻资讯APP客户端原型图，今日头条内容社交，RP成品原型197页

Markdown转换成公众号、知乎、今日头条格式，已开源

仿今日头条小程序搭建

Appium+Android SDK自动阅读今日头条极速版新闻

今日头条接口

今日头条 mysql_今日头条的核心技术细节是什么？

iOS仿今日头条顶部新闻分页

java爬虫系列（五）——今日头条文章爬虫实战

playwrite今日头条自动发帖

vue仿今日头条_微信小程序仿今日头条导航栏滚动解析

用requests包爬取今日头条新闻标题

发表评论

推荐文章

QGIS打开无响应或每操作一下就卡很久

掘金最污的 React16.x 图文视频教程(2万5千字长文-慎入)

Vmware兼容问题导致电脑蓝屏

玩物下载被发现利用群晖NAS占用大量带宽和硬盘帮助爱奇艺做缓存加速,这年头流氓真多，防不胜防！！！

MySQL高可用解决方案――从主从复制到InnoDB Cluster架构

热门文章

U盘重新安装Mac OS系统教程

DHCP八种报文 Discover Offer Request Ack Nack decline release inform及其工作原理流程 详解

网络攻击（一）--安全渗透简介

Win10 配置tensorflow1.3 GPU版本以及tensorboard的使用

计算机上机考试可以粘贴复制吗,急！高会无纸化考试打字慢 该如何复制粘贴？...

ML之XGBoost：XGBoost参数调优的优秀外文翻译—《XGBoost中的参数调优完整指南(带python中的代码)》(二)

删除文件夹提示已在另一程序打开，如何强制删除

时间序列ARIMA模型的拟合、模型定阶、参数估计和预测

Windows10 1803版本以上找回控制面板语言设置的方法

启动计算机时出现grub,开机出现grub解决方法

最新文章

激动！一直困扰的“无法使用KMS服务”终于解决啦

kmspico_setup.exe运行提示系统资源不足，无法完成请求的服务

C++项目（1）：学生信息管理系统（简单教学版）

激活Visio 2019

统信UOS激活系统故障

使用 vlmcsd 部署 KMS 服务器

Kurento kms-core 项目教程

KMS11激活Window系列

查看kms服务器客户端信息,KMS 服务器测试

利用vlmcs客户端区分KMS服务器是KMS模拟器还是正版微软KMS服务器

Merlin部署KMS

KMSpico 无后门下载

[小技巧]通过MGADIAG工具验证计算机是否能够通过KMS方式激活

CentOS7+华为交换机+Winserver2012配置KMS服务器开机自启和自动激活

浏览器 主页 被篡改 ，怎么都修改不回来（包括 Firefox ，google Chrome） KMS激活问题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

（android高仿系列）今日头条 --新闻阅读器（二）

DHCP八种报文 Discover Offer Request Ack Nack decline release inform及其工作原理流程详解

计算机上机考试可以粘贴复制吗,急！高会无纸化考试打字慢该如何复制粘贴？...

浏览器主页被篡改，怎么都修改不回来（包括 Firefox ，google Chrome） KMS激活问题

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载