在Lucene中获取每个文档的搜索词命中数(出现次数)

编程入门 行业动态 更新时间:2024-10-16 18:27:58
本文介绍了在Lucene中获取每个文档的搜索词命中数(出现次数)的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧! 问题描述

有人可以建议我在Lucene中使每个文档的单词命中率最高的最佳方法吗?.

Can any one suggest me the best way to get Hits( no of occurrences ) of a word per document in Lucene?..

推荐答案

Lucene使用基于字段的索引,而不是基于文档的索引. 为了获得每个文档的字数:

Lucene uses a field-based, rather than document-based, index. In order to get term counts per document:

  • 使用 IndexReader.document()和isDeleted().
  • 在文档d中,使用 Document.getFields().
  • 对于每个字段f,使用 getTermFreqVector().
  • 遍历术语向量,并为每个术语求和.
  • 每个字段的术语频率总和将为您提供文档的术语频率矢量.
  • Iterate over documents using IndexReader.document() and isDeleted().
  • In document d, iterate over fields using Document.getFields().
  • For each field f, get terms using getTermFreqVector().
  • Go over the term vector and sum frequencies per terms.
  • The sum of term frequencies per field will give you the document's term frequency vector.
  • 更多推荐

    在Lucene中获取每个文档的搜索词命中数(出现次数)

    本文发布于:2023-11-30 17:28:53,感谢您对本站的认可!
    本文链接:https://www.elefans.com/category/jswz/34/1650896.html
    版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
    本文标签:次数   文档   搜索词   Lucene

    发布评论

    评论列表 (有 0 条评论)
    草根站长

    >www.elefans.com

    编程频道|电子爱好者 - 技术资讯及电子产品介绍!