-
题名一种新型高效全文检索引擎的设计
- 1
-
-
作者
董宗然
闻柏智
朱毅
-
机构
大连外国语大学软件学院
大连外国语大学大数据图书情报研究中心
联通(辽宁)产业互联网有限公司
-
出处
《软件工程》
2024年第2期44-48,共5页
-
基金
2022年度辽宁省高等学校基本科研项目(LJKMZ20221547)。
-
文摘
为了改善常规存储方式模糊查询性能较低的问题,提出一种针对大文本文档数据的高效模糊查询方法。通过对文档建立倒排索引,将索引以及部分文档信息提取到内存中以降低磁盘输入和输出(Input/Output,I/O)。根据内存中的倒排索引和数据库中主键形成的映射查询数据,然后通过相关度算法对这些数据进行排序,并以字典树作为搜索提示,实现高效的全文检索。实验结果表明:与ElasticSearch使用相同词集时,随着测试数据量的变化,所设计的全文检索引擎的查询效率是ElasticSearch效率的80~1200倍,其效率优势随着数据量增加呈现反比例关系变化,并且在17919条文档数据下,其内存占用不超过2.5 GB,适合用于海量文档数据检索。
-
关键词
倒排索引
全文检索
检索引擎
模糊查询
字典树
-
Keywords
inverted index
full-text search
search engine
fuzzy query
tire tree
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-