基于LDA主题模型的分布式信息检索集合选择方法
发布时间:2023-09-09 23:55:20     423人浏览
发布者 陈岭
成果状态 待解决
意向投入 暂议
联系方式 19975****68
成果详情

负责人

陈岭

所在单位

浙江大学

联系方式

19975****68

所属领域

集成电路与ICT

技术成熟度

产业化

应用行业


合作方式

技术开发

成果概况

集合选择是分布式信息检索系统中的重要环节,可有效减少网络带宽消耗,减少检索时的计算开销,提高分布式信息检索系统的效率。本文提出基于LDA主题模型的集合选择方法LBCS,引入LDA 方法对样本集建立主题模型。实验结果表明,LDA主题模型能有效挖掘查询与集合潜在的语义关系,从而选择到与查询更相关的集合,有效提高了最终检索结果的准确率及召回率。本集合选择方法主要以提高检索准确率与召回率为目标设计的,然而在实际应用中,可能需要考虑更加复杂的因素,如检索服务器的吞吐率、负载、响应时间、各检索服务器的检索策略等。若能充分考虑DIR系统的性能及检索的准确度与召回率,建立统一的集合选择模型将是一个很好的研究方向。

关键技术

LBCS集合选择方法:LBCS方法分为在线和离线两部分,离线部分包括:(1)检索代理服务器使用基于查询的采样方法。对各集合采样,对于每个查询,各个集合返回前三个检索结果,在检索代理服务器上构建样本集;(2)检索代理服务器对样本集预处理,构建倒排索引,同时对样本集建立LDA主题模型,推导出主题词分布φ,以及文档主题分布θ。在线部分包括:(1)查询检索倒排索 引,计算查询与各文档关键词相关度;(2)通过历史查询得到新查询的扩展查询,同时利用扩展查询和 LDA主题模型推断出的分布计算查询与各文档主题相关度;(3)得到查询与样本集中各文档的综合相关度,并按相关度高低对各文档排序,然后以此计算查询与各集合的相关度,并按相关度高低对各集合排序;(4)选择排序结果最靠前的M个集合,将检索请求发送到这些集合。

应用领域和市场前景

可以把基于LDA主题模型的分布式信息检索集合选择方法应用于智能快递柜中,在物件或者客户信息庞大的基础下,能够快速检索到物件或对应客户的信息,在国内庞大的市场需求下,应用市场前景广阔。


推荐需求