数据挖掘在搜索引擎中的应用|电子爱好者

admin管理员组
文章数量:1578037

服务器端：数据挖掘----有效的网页内容获取和精炼的索引数据库建立

web数据挖掘是从互联网资源中获取数据信息和发现知识的过程，通常人们应用数据挖掘获取网页有用数据，实现数据抽取。

web结构包括页面之间的结构以及页面内部的结构。通过挖掘网络站点结构信息，对于导航用户浏览行为、改进站点整体设计、评价页面的重要性等都非常重要。web结构挖掘需要整个站点的全局数据信息，所以被应用在个性化搜索引擎和主题搜索引擎研究领域。如：搜索引擎查询结果排序、相关文档查找、web页面重复率计算、站点的主要内容和特征确定、URL爬行的优先顺序等。

网页信息库是依据网页内容搜集软件收集得到的网页，根据web数据挖掘的结果即时调整和改进要收集的内容，这对网页内容搜集软件提出了更高的功能要求----能按照数据挖掘的结果进行动态更新信息库，能按照给定的数据结构进行数据删选和抽取。在数据挖掘中，综合多种分析方法进行数据挖掘，利用关联分析规则俩挖掘隐藏在web数据间的相互关联关系；用序列规则方法分析web数据间的前后序列关系；用信息分类方法分析网页信息库中的web数据，为每个类别做出准确的描述，并建立分析模型或设计出分类规则，然后利用分类规则对其他库中的数据进行分分类；对网页信息库中的记录数据进行聚类方法分析，根据设定的分类规则，合理的划分记录集合，确定每个记录所属类别。利用一个循环的过程，精炼出一个冗余度低、集成度高、方便使用的索引数据库，便于用户检索信息。

客户端：数据挖掘----兴趣关联规则建立及用户行为预测

当用户进行数据检索请求时，搜索引擎在索引数据库中快速进行文档检索并查找用户的查询字符串，同时进行文档与查询的相关度评价，对查询结果按照某种算法进行排序，并实现用户相关性反馈机制。

浏览器一般都使用页面高速缓存技术，高速缓存中保存的历史数据反应了用户页面过程中的兴趣爱好。利用用户兴趣间的关联信息，可以预测用户的行为。高速缓冲区中的页面间的联系可以用www数据模型来描述，并映射到适合预测的数据模型中引用。当用户浏览检索到的web页时，可以通过一种智能web预取技术，加速获取页面的速度。在具体方法中，首先选择合适的互联网数据模型来表示客户端浏览器缓冲区中的数据，然后利用数据挖掘技术提取出客户端用户的兴趣关联规则，存储到兴趣关联知识库中，作为将来用户进行行为预测的依据。在客户端，智能代理负责用户兴趣的挖掘及基于兴趣关联知识库的web预取，从而在客户端实现透明的浏览器加速。

为了预测用户的行为，必须建立一种可用来描述web页面的兴趣关联规则色数据模型，数据模型来描述www页面数据，如：页面节点和有向边来表示简化的www数据模型。

兴趣关联规则可直接表明了兴趣间的关联递推关系，通过www数据模型表示缓冲区中的数据直接表明了页面之间的链接结构关系，但不能反映兴趣间的关联程度，二数据挖掘技术中的关联分析规则可以用于关联发现、序列模式发现、及相同时间序列发现。常使用关联发现分析法类建立兴趣关联规则。

由于数据挖掘是从大量的历史数据中提取信息，一般处理时间较长，不适合在线进行用户行为预测，通常采取定时利用数据挖掘算法，根据用户保留在告诉缓存中的数据挖掘出用户访问页面时的兴趣关联规则，并将其存放在兴趣关联知识库中。兴趣关联规则指出了从某一词条转向其他词条的可能性，利用兴趣关联关联规则，结合用户当前的点击行为----当前访问页面及其链接路径，就可预测用户未来的点击行为----可能会点击哪些链接，可能会访问哪些词条。

本文标签：数据挖掘搜索引擎

版权声明：本文标题：数据挖掘在搜索引擎中的应用内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1727830854a1132588.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

数据挖掘在搜索引擎中的应用

更多相关文章

什么是搜索引擎？

SEO（搜索引擎优化）浅谈普及一下搜索引擎的核心算法

网络安全工程师教你：Shadon网络空间搜索引擎使用教程

新建好的网站如何被搜索引擎（Google和百度）收录？

分享 百度网盘搜索引擎原理以及实现部分源码

知识图谱搜索引擎

HTML站内搜索引擎

这就是搜索引擎（一）—引擎架构、网络爬虫、索引建立

《信息检索》课程大作业 实现一个本地搜索引擎

搜索引擎收藏

注意：网站中出现以下违规内容-搜索引擎百度都不收录

值得收藏的网盘搜索引擎&amp;网盘搜索工具

网络爬虫结合搜索引擎

关于信息检索（IR）、搜索引擎的学与思

创建一个图片搜索引擎的完整指南

搜索引擎快捷导航：一个简单的chrome插件（教程）

搜索的艺术——搜索引擎使用心得

hexo高阶教程：想让你的博客被更多的人在搜索引擎中搜到吗？

百度云盘搜索助手 V1.2（可查询提取码，带5个搜索引擎）

一个大数据方案：基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

发表评论

推荐文章

23条硬件维护基本技巧必看

营销专家公开分享问答推广之百度知道

windows 设置定时开机

react-native项目运行报错

win10 能联网缺出现地球的原因及解决办法

热门文章

为什么学校计算机没有声音,为什么打开计算机后没有声音

计算机中￥符号按哪个键,电脑键盘符号快捷键大全 电脑键盘上每个键的作用？...

lisp中怎样调取图形_晓东CAD家园-论坛-AVLISP-[LISP函数]：在lisp中如何打开一个dwg文件&amp;操作!!!!在线等，急，谢谢！-请问在lisp中如何打开一个dwg格式文件,我虽然找...

苹果应用审核指南最新

用邮寄方式入侵 WiFi 网络

2-“App is scanning toofrequently&quot;什么鬼？

J2EE—解析Servlet处理过程

（解释）常见的无线路由器采用（ A）技术。 A. WiFiB. APC. UWBD. ZigBee

收索资源好用的网盘搜索引擎

搜索引擎免费登录入口大全（转）

最新文章

会声会影2024新版功能变化及最新安装包下载教程

不装了，整点干货——IOS逆向环境搭建

VScode配置CC++环境详细

android x86触屏驱动下载,农步祥作品 - 使用台式机和触摸屏玩Android X86 [Soomal]

校运会管理系统设计与实现(源码+lw+部署文档+讲解等)

批量下载文件的设备和方法

玩客云如何部署小雅AList并结合内网穿透工具实现远程访问浏览资源

达观助手AI写作下载安装教程及特色功能详解，速速收藏体验！

手机软件何时统一——桥接模式

亚马逊平板刷机Linux系统,亚马逊平板刷机步骤盘点【图解】

【计算机毕设文章】美食信息推荐系统

搭建个人云盘---宝塔+可道云

python的搜题软件下载_直播答题？Python助你自动搜题之新手篇！

美食信息推荐系统

【2025】springboot家装一体化服务平台背景（源码+文档+调试+答疑）

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

分享百度网盘搜索引擎原理以及实现部分源码

《信息检索》课程大作业实现一个本地搜索引擎

值得收藏的网盘搜索引擎&网盘搜索工具

计算机中￥符号按哪个键,电脑键盘符号快捷键大全电脑键盘上每个键的作用？...

lisp中怎样调取图形_晓东CAD家园-论坛-AVLISP-[LISP函数]：在lisp中如何打开一个dwg文件&操作!!!!在线等，急，谢谢！-请问在lisp中如何打开一个dwg格式文件,我虽然找...

2-“App is scanning toofrequently"什么鬼？

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载