搜索引擎资源|电子爱好者

admin管理员组
文章数量:1577818

转自：http://blog.csdn/hguisu/article/details/8024799

http://blog.csdn/hguisu/article/details/7995703

1. 开源项目

1.Lucene全文检索系统

http://lucene.apache和 http://www.lucene/

Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene的原作者是Doug Cutting，他是一位资深全文索引/检索专家，曾经是V-Twin搜索引擎的主要开发者，后在Excite担任高级系统架构设计师，目前从事于一些Internet底层架构的研究。早先发布在作者自己的，他贡献出Lucene的目标是为各种中小型应用程式加入全文检索功能。2.Nutch系统

2. Nutch系统

http://www.nutch和http://www.nutchchina

Nutch是个完整的开放源代码的搜索引擎，是个完备的应用程序。内部实现以Lucence为基础实现搜索引擎应用.
利用Nutch经过简单设置就可以建立自己的内部网的搜索引擎，也可以针对互联网建立搜索引擎，还可以与数据库结合检索索引。

3.Compass

http://wwwwpassframework/

Compass是在Lucence上实现的开源搜索引擎架构，提供更加简洁的搜索引擎API. 增加了索引事务处理的支持，能够更方便地与数据库等食物处理应用进行整合。更新时更加简单、更加高效，无需删除原文档。资源与搜索引擎之间采用映射机制，Compass还能与hibernate 、spring架构进行集成

4.Larbin系统

http://larbin.sourceforge/

　larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人Sébastien Ailleret独立开发，用c++语言实现。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。

　　latbin最初的设计也是依据设计简单但是高度可配置性的原则，因此我们可以看到，一个简单的larbin的爬虫可以每天获取500万的网页，实在是非常高效。

　　利用larbin，我们可以轻易的获取/确定单个网站的所有联结，甚至可以镜像一个网站；也可以用它建立url 列表群，例如针对所有的网页进行 url retrive后，进行xml的联结的获取。或者是 mp3，或者定制larbin，可以作为搜索引擎的信息的来源。

5. Yioop! PHP 搜索引擎

http://www.seekquarry/

Yioop! 是一个 PHP 的搜索引擎，可用于 Web 的一般用途搜索，或者可提供URL搜索以及各种文档的索引搜索，包括：HTML, PDF, DOC, PPT, RTF, RSS, XML, SVG, PNG, JPG, BMP, GIF, 以及 sitemaps.

2、研究网站

1,Google 黑板报 http://www.google.hk/ggblog/googlechinablog/

2,searchenginewatch大站。

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

搜索引起的链接分析-计算网页的重要性

1. 链接分析

搜索引擎在查找能够满足用户请求的网页时，主要考虑两方面的因素：

网页和查询的相关性：是用户发出的查询与网页内容的内容相似性得分。

网页的重要性：通过链接分析方法计算获得的得分。

搜索引擎融合两者，共同拟合出相似性评分函数，来对搜索结果进行排序。

常见的链接分析算法除了鼎鼎有名的PageRank，还有HITS、SALSA、Hilltop以及主题PageRank等等。需要重点理解的是PageRank和HITS，后面这些算法都是以它们为基础的。

绝大部分链接分析算法建立在两个概念模型，它们是：

随机游走模型：针对浏览网页用户行为建立的抽象概念模型，用户上网过程中会不断打开链接，在相互有链接指向的网页之间跳转，这是直接跳转，如果某个页面包含的所有链接用户都不感兴趣则可能会在浏览器中输入另外的网址，这是远程跳转。该模型就是对一个直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型；典型的使用该模型的算法是PageRank；
子集传播模型：基本思想是把互联网网页按照一定规则划分，分为两个甚至是多个子集合。其中某个子集合具有特殊性质，很多算法从这个具有特殊性质的子集合出发，给予子集合内网页初始权值，之后根据这个特殊子集合内网页和其他网页的链接关系，按照一定方式将权值传递到其他网页。典型的使用该模型的算法有HITS和Hilltop算法。

2. 链接分析算法之间的关系：

图1 链接分析算法关系图：

链接算法很多，但是从其概念模型来说，基本遵循上述小节介绍的随机游走模型和子集传播模型。而从图1中可看出，在众多算法中，PageRank和HITS算法可以说是最重要的两个具有代表性的链接分析算法，后续的很多链接分析算法都是在这两个算法基础上衍生出来的改进算法。

本文标签：搜索引擎资源

版权声明：本文标题：搜索引擎资源内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1727828530a1132391.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

搜索引擎资源

1. 链接分析

2. 链接分析算法之间的关系：

更多相关文章

硅纪元AI应用推荐 | 精准识别用户意图，夸克真AI搜索引擎

SEO（搜索引擎优化）浅谈普及一下搜索引擎的核心算法

收索资源好用的网盘搜索引擎

信息搜集之搜索引擎

分享几个网盘资源搜索地址，总能找到你想要的

提升搜索引擎的友好度只要五个步骤

分享 百度网盘搜索引擎原理以及实现部分源码

Web搜索引擎工作原理和体系结构

这就是搜索引擎（一）—引擎架构、网络爬虫、索引建立

搜索引擎的难点

值得收藏的网盘搜索引擎&amp;网盘搜索工具

2018年最好用的百度网盘资源搜索神器排行

网盘资源搜索网站

OpenCV实现图片搜索引擎

Web搜索引擎技术

我珍藏很久的网盘资源搜索网站和下载神器

搜索引擎快捷导航：一个简单的chrome插件（教程）

Iviews视频搜索引擎

善用Google搜索，资源唾手可得

最全的全球搜索引擎的介绍

发表评论

推荐文章

win10安装程序无法将配置为在此计算机,安装win10提示Windows无法安装到这个磁盘怎么办...

系统设计——JAVA开发规范设计

图灵奖获得者 Alan Kay：突破常规思维，创建下一代科研社区（附视频）

如何设置电脑每天定时到某个时间自动关机，强制关机那种，不管是否有程序阻止电脑关机

计算机管理无线网络 win10,如何在Windows 10中使用命令行管理WIFI无线网络

热门文章

网站不收录的朋友请认真看完此文

（赠源码）node.js+koa+MySQL社区干洗店服务微信小程序79573-计算机毕业设计项目选题推荐

SSM教育培训管理系统毕业设计源码141053

iOS 应用提交 App Store 上架被拒的原因收集

Hack The Box-WifineticTwo

wpsmac历史版本_wps for mac 官方版

给搭载旧系统的松鼠 Ai 学习机刷机

计网实验总结 BUAA计算机网络实验整理

PAT甲级1003 Emergency 测试点2一直不通过的原因

作为程序员，常用的工具软件之搜索引擎

最新文章

下载docker镜像包

raw服务器镜像文件怎么打开,利用qemu-img工具将其它格式镜像文件转换成VHD或RAW格式的方法...

windows下制作镜像教程

VM虚拟机使用的镜像文件下载

SD卡格式化怎么恢复？一键扫描，轻松找回丢失的数据

Git for Windows 国内镜像文件

Win11安装VMware中的镜像的下载

Mac电脑pd虚拟机专用windows系统镜像(m1intel)win10、11镜像文件

2024 EasyRecovery三分钟帮你恢复 电脑硬盘格式化

fat32文件系统格式化后文件还能恢复吗

Windows10下安装 Docker Oracle镜像

UUPdump最近无法下载windows镜像的问题

docker打包镜像文件，windows

虚拟机ISO镜像文件下载

莱卡相机sd内存卡格式化了怎么恢复数据

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

分享百度网盘搜索引擎原理以及实现部分源码

值得收藏的网盘搜索引擎&网盘搜索工具

2024 EasyRecovery三分钟帮你恢复电脑硬盘格式化

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载