用python写搜索引擎_用python做一个搜索引擎(Pylucene)的实例代码|电子爱好者

admin管理员组
文章数量:1577816

1.什么是搜索引擎？

搜索引擎是“对网络信息资源进行搜集整理并提供信息查询服务的系统，包括信息搜集、信息整理和用户查询三部分”。如图1是搜索引擎的一般结构，信息搜集模块从网络采集信息到网络信息库之中(一般使用爬虫)；然后信息整理模块对采集的信息进行分词、去停用词、赋权重等操作后建立索引表(一般是倒排索引)构成索引库；最后用户查询模块就可以识别用户的检索需求并提供检索服务啦。

图1 搜索引擎的一般结构

2. 使用python实现一个简单搜索引擎

2.1 问题分析

从图1看，一个完整的搜索引擎架构从互联网搜集信息开始，可以使用python编写一个爬虫，这是python的强项。

接着，信息处理模块。分词？停用词？倒排表？what？什么乱七八糟的？不用管它，我们有前辈们造好的轮子---Pylucene(lucene的python封装版本，Lucene能够帮助开发者为软件、系统增添检索功能。Lucene是一套用于全文检索和搜寻的开源程序库)。使用Pylucene可以简单的帮助我们完成对采集到的信息进行处理，包括索引的建立和搜索。

最后，为了能在网页上使用我们的搜索引擎，我们使用flask这个轻量级 Web 应用框架做一个小网页获取搜索语句并反馈搜索结果。

2.2 爬虫设计

主要搜集以下内容：目标网页的标题、目标网页的主要文字内容、目标网页指向其他页面的URL地址。网络爬虫的工作流程如图2所。爬虫的主要数据结构是队列。首先，起始的种子节点进入队列，然后从队列中取出一个节点访问，抓取该节点页面上的目标信息，再将该节点页面指向其他页面的URL链接放进队列，再从队列中取出新的节点进行访问，直至队列为空。通过队列“先进先出”的特点实现广度优先的遍历算法，逐个访问站点的每一页面。

图2

2.3 pylucene的使用

Pylucene中关于建立索引的类主要有Directory、Analyzer、IndexWriter、Document、Filed。

Directory是Pylucene中关于文件操作的类。它有SimpleFSDirectory和RAMDirectory、CompoundFileDirectory、FileSwitchDirectory等11个子类，列举的四个是与索引目录的保存相关的子类，SimpleFSDirectory是将构建的索引保存至文件系统之中；RAMDirectory是将索引保存至RAM内存之中；CompoundFileDirectory是一种复合的索引保存方式；而FileSwitchDirectory允许临时切换索引的保存方式以发挥各种索引保存方式的优点。

Analyzer，分析器。它是对爬虫获得的将要进行构建索引的文本进行处理的类。包括了文本进行分词操作、去掉停用词、转换大小写等操作。Pylucene自带了若干分析器，构建索引时也可使用第三方分析器或

本文标签：搜索引擎做一个实例代码 Python

版权声明：本文标题：用python写搜索引擎_用python做一个搜索引擎(Pylucene)的实例代码内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1727828799a1132411.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

用python写搜索引擎_用python做一个搜索引擎(Pylucene)的实例代码

更多相关文章

搜索引擎的高级搜索语法指令

手把手教你使用Python打造一款简易搜索引擎

ES(elasticsearch)搜索引擎安装和使用

百度_360_谷歌等各大搜索引擎网站收录提交入口

硅纪元AI应用推荐 | 精准识别用户意图，夸克真AI搜索引擎

robots.txt文件的作用及写法（搜索引擎）

MYSQL搜索引擎

网络安全工程师教你：Shadon网络空间搜索引擎使用教程

提升搜索引擎的友好度只要五个步骤

大搜索引擎系统架构

分享 百度网盘搜索引擎原理以及实现部分源码

HA3搜索引擎梳理与分析

如何高效使用搜索引擎 - 善用高级搜索

搜索引擎网页排序算法

《信息检索》课程大作业 实现一个本地搜索引擎

关于搜索引擎使用方法的一些小窍门

除了谷歌和百度，你还可以尝试这 8 个专用搜索引擎

中文网站搜索引擎网站收录提交地址大全

搜索引擎快捷导航：一个简单的chrome插件（教程）

最全的全球搜索引擎的介绍

发表评论

推荐文章

c#支付宝生活号 获取用户信息，不使用dome

数据库资源集合

Win7电脑右下角声音图标小喇叭出现红叉没有声音解决方案

springboot温岭市义工管理系统-计算机毕业设计源码08215

win10 搭载文件服务器,win10远程文件服务器

热门文章

常用CAD快捷键命令大全

与CAD标注相关的CAD命令及CAD快捷键特性汇总

前端 JavaScript

关于破解电信光猫实现内网穿透（端口转发，端口映射）

ffmpeg升级版本

刚来公司一周，搭建了一套持续集成交付环境，研发效率直接提升20倍，CTO再次给我涨薪！！（全程实战，建议收藏）

Python定时关闭电脑的脚本

unet文章部分段落大致翻译

一、OSPFv2原理详解

Windows下部署安装Docker（2020实操图解）

最新文章

raw服务器镜像文件怎么打开,利用qemu-img工具将其它格式镜像文件转换成VHD或RAW格式的方法...

windows下制作镜像教程

VM虚拟机使用的镜像文件下载

SD卡格式化怎么恢复？一键扫描，轻松找回丢失的数据

U盘未格式化之谜：数据丢失与恢复全攻略

Git for Windows 国内镜像文件

Win11安装VMware中的镜像的下载

Mac电脑pd虚拟机专用windows系统镜像(m1intel)win10、11镜像文件

2024 EasyRecovery三分钟帮你恢复 电脑硬盘格式化

fat32文件系统格式化后文件还能恢复吗

UUPdump最近无法下载windows镜像的问题

docker打包镜像文件，windows

虚拟机ISO镜像文件下载

莱卡相机sd内存卡格式化了怎么恢复数据

U盘打开提示要格式化：深度解析、恢复策略与预防之道

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

分享百度网盘搜索引擎原理以及实现部分源码

《信息检索》课程大作业实现一个本地搜索引擎

c#支付宝生活号获取用户信息，不使用dome

2024 EasyRecovery三分钟帮你恢复电脑硬盘格式化

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载