发布者 | 陈岭 |
成果状态 | 待解决 |
意向投入 | 暂议 |
联系方式 | 19975****68 |
负责人 | 陈岭 | 所在单位 | 浙江大学 | 联系方式 | 19975****68 |
所属领域 | 集成电路与ICT | 技术成熟度 | 产业化 | ||
应用行业 | 合作方式 | 技术开发 | |||
成果概况 | |||||
集合选择是分布式信息检索系统中的重要环节,可有效减少网络带宽消耗,减少检索时的计算开销,提高分布式信息检索系统的效率。本文提出基于LDA主题模型的集合选择方法LBCS,引入LDA 方法对样本集建立主题模型。实验结果表明,LDA主题模型能有效挖掘查询与集合潜在的语义关系,从而选择到与查询更相关的集合,有效提高了最终检索结果的准确率及召回率。本集合选择方法主要以提高检索准确率与召回率为目标设计的,然而在实际应用中,可能需要考虑更加复杂的因素,如检索服务器的吞吐率、负载、响应时间、各检索服务器的检索策略等。若能充分考虑DIR系统的性能及检索的准确度与召回率,建立统一的集合选择模型将是一个很好的研究方向。 | |||||
关键技术 | |||||
LBCS集合选择方法:LBCS方法分为在线和离线两部分,离线部分包括:(1)检索代理服务器使用基于查询的采样方法。对各集合采样,对于每个查询,各个集合返回前三个检索结果,在检索代理服务器上构建样本集;(2)检索代理服务器对样本集预处理,构建倒排索引,同时对样本集建立LDA主题模型,推导出主题—词分布φ,以及文档—主题分布θ。在线部分包括:(1)查询检索倒排索 引,计算查询与各文档关键词相关度;(2)通过历史查询得到新查询的扩展查询,同时利用扩展查询和 LDA主题模型推断出的分布计算查询与各文档主题相关度;(3)得到查询与样本集中各文档的综合相关度,并按相关度高低对各文档排序,然后以此计算查询与各集合的相关度,并按相关度高低对各集合排序;(4)选择排序结果最靠前的M个集合,将检索请求发送到这些集合。 | |||||
应用领域和市场前景 | |||||
可以把基于LDA主题模型的分布式信息检索集合选择方法应用于智能快递柜中,在物件或者客户信息庞大的基础下,能够快速检索到物件或对应客户的信息,在国内庞大的市场需求下,应用市场前景广阔。 |
标签:医药健康
意向投入:230万元
发布日期:2023-12-18
标签:高端纺织
意向投入:200万元
发布日期:2023-07-29
标签:高端纺织
意向投入:3000万元
发布日期:2023-07-29