柏拉图如何工作?

编程入门 行业动态 更新时间:2024-10-25 18:30:07

<a href=https://www.elefans.com/category/jswz/34/1739417.html style=柏拉图如何工作?"/>

柏拉图如何工作?

柏拉图是一款网络数据处理工具,它能够 100% 无人干预就能将网页变成数据 -- 不需要配规则,甚至也不需要机器学习训练,它是无监督机器学习驱动的。

我们将每个网页在浏览器中渲染后,通过 js 计算出每个网页元素的一系列属性,主要包括元素的位置和大小。同时,我们构造了网页元素的更多有趣的隐含特征,譬如拓扑和语义相关的特征。目前,包括位置和大小在内,我们为每个网页元素构造了 100 多个独立特征。这样,一张网页就变成了由很多个带属性的矩形组成的几何图形(Geometric graph)。

对网页进行信息抽取,也就是将一组网页中意义相同的元素聚到一起,技术上就是对这组网页的所有元素进行聚类(无标注)或者分类(有标注)。通过将网页元素建模为带属性的矩形,这使得相关的机器学习任务变得格外轻松,对一组网页的给定区域,机器学习算法能够发现几乎全部字段,95% 已上的字段都能获得 99.9% 以上的精度(如图示),这就完全摆脱了人工配规则的苦恼,并能够适应大规模数据提取需要。

更进一步,任意给一个列表页,我们能够对链出页面进行评估,来探测哪一组页面是由同一套模板生成的,从而其中的字段值能够被抽取出来。

这样,原本需要手工编写几个甚至几十个正则表达式或者 CSS PATH 的网页抽取问题,现在只需要告诉系统列表页链接就行了,而满足这种要求的网页占据了互联网上绝大多数网页。

最后,我们为爬虫系统和数据分析系统配备了 SQL 引擎,这样,我们可以仅仅使用一条 SQL 语句就实现监控一个网站栏目,实时提取关键数据。事实上,配备 SQL 引擎后,互联网和本地数据库几乎就可以同等待了(除了互联网数据响应时间较久外)。

 

更多推荐

柏拉图如何工作?

本文发布于:2023-06-27 07:03:50,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/907740.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:柏拉图   工作

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!