大众?它需要一套道德准则"/>
网络数据抓取:声名狼藉还是惠泽大众?它需要一套道德准则
全文共2155字,预计学习时长6分钟
图源:hackernoon
作为一家代理服务和数据抓取解决方案提供商的CEO,我非常理解为什么经常出现在头版头条上的全球数据泄露会让网络数据抓取声名狼藉,以及为什么现在许多人对大数据持怀疑态度。
但同时,我常常能看到许多优秀客户正从事着与大数据有关的重要工作,我能在许多人每天使用的普通网站上看到他们工作成果。
本文将列举一些重要的例子来说明网络数据抓取是如何对生活产生积极影响的,我还将从道德角度出发为你提供一些思路。
世间万物都可以用来行善或作恶,大数据也是如此,这一切取决于你的目的。下面是我最喜欢的几个网络数据抓取实例,它们都显著增加了互联网的价值。
价格聚合网站
平价购物对很多人来说有着极大的吸引力,即使是买自己并非真正需要的东西。如果你想买一个新的笔记本电脑、电动混音器或降噪耳机,你有很多选择;同时,如果你想租一艘价值数百万美元的游艇,大数据也能帮你搞定。
无论我们是在订机票还是酒店,买汽车还是私人飞机,似乎都有无数的网站向消费者展示竞争优势,为他们带来各种各样的商品和服务。这一切都要归功于网络数据抓取。
图源:unsplash
追踪假新闻
新闻真实性正日益成为全球关注的问题,假新闻的泛滥可能对我们生活的方方面面,从政治事件到健康信息都造成颠覆性影响。
一些初创公司正在用诸如机器学习算法在内的解决方案来应对这个问题,该算法能处理来自数千个来源的大量数据,确定其准确性水平和政治倾向等因素,这一发展标志着信息共享方面的重大进展将惠及每个人。
声誉管理
如今不仅市场竞争激烈,消费者也比以往更加敏感。品牌监管和产品声誉管理对于保护产品、服务甚至品牌名字所代表的良好信誉都至关重要。只要公司能够合法获取数据,几十亿的数据来源能帮助他们确保消费者、品牌和任何在公众视野中运营产品的人拥有毫无瑕疵的声誉。
追踪全球新闻和事件
网络数据抓取可用于追踪各种影响世界大事件的相关数据,从经济数据到金融市场指标,再到传染病的影响,应有尽有。后者包括Oxylabs与斯坦福大学、弗吉尼亚大学和弗吉尼亚理工大学的学生合作开发的TrackCorona网站,此外我们还与瑞士卢加诺大学合作制作了CoronaMapper。
搜索引擎优化(SEO)
圣经中,大卫对抗歌利亚的故事让人们倾向于支持受压迫者:想想洛奇在拳台上面对一场几乎没什么胜算的激烈比赛,或者300名斯巴达人面对来自波斯的几十万士兵。
人们不需要去史书或小说中寻找这些故事,我们每天都能在大小企业的竞争中看到这样的故事正在上演。
SEO是一个特别具有挑战性的领域,因网络数据抓取可以用来研究特定的搜索词、标题标签、目标关键字和反向链接。这些有价值的数据可以用来制定一个有效的策略,让内容在搜索结果中排名靠前。
学术研究
当今时代,学术机构的研究人员拥有令人羡慕的地位,这是因为互联网为他们提供了几乎无限大可用于学术论文和调查研究的数据库。当数据公开时,这是一个信号——鼓励交流真正的网络数据抓取,从而更好地造福社会。
图源:unsplash
网络数据抓取的道德准则
在Oxylabs,我们想传递的信息是网络数据抓取是能够带来积极效益的。以透明的方式来完成这项工作,个人和企业就可以得到他们需要的数据,推动其业务发展。
以下准则可为收集数据者和提供数据的网站营造公平竞争环境:
· 只抓取公开网页上的数据。
· 确保以公平的速度请求数据,不会损害服务器,也不会被误认为是DDoS攻击。
· 尊重所获得的数据及与数据来源网站相关的任何隐私问题。
· 以增加数据的价值和/上下文,并考虑到终端用户的兴趣(例如上面提到的“假”新闻)为目的而进行数据收集。
· 研究目标网站的法律文件,以确定你是否会合法接受他们的服务条款,你是否会违反这些条款。
此外,每个代理资源提供者使用来自不同来源、不同质量的代理。因此,与经过验证且受信任的代理服务提供商合作就达成了这个制衡局面。建立在透明与合作基础上的协同关系可以平衡各方利益,推动大数据发展,造福所有人。
虽然上述建议并不是法律规定,但它们可以逐步形成一套道德规范,这可能会有助于进一步合法化网络数据抓取,以增加互联网价值。在这一过程中,与具有类似核心价值观且值得信赖的代理提供商合作至关重要。
图源:unsplash
互联网仍是人类目前的最重要的大数据来源,这一点不会很快改变。忽视摆在我们面前的无限可能无疑是愚蠢的,有了网络数据抓取的实践,每个人都能从无穷无尽的大数据中挖掘潜在的观点而受益。
而辅之以统一的道德观念,网络数据抓取就可以打开新的信息世界,将人、组织和学科联系起来。像任何工具一样,我们可以追求最好的目的,让大数据成为一种正面的力量。
一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)
更多推荐
网络数据抓取:声名狼藉还是惠泽大众?它需要一套道德准则
发布评论