本章对本文提出的基于医学主题词表的查询方法进行详细介绍,该方法以语言模型作为基础检索模型,伪相关反馈方法作为查询扩展方法,通过基于扩展词共现和MeSH词表两种扩展词加权策略对扩展词的重要性进行综合权衡,来完成查询扩展。
1 基础检索模型
本文采用语言模型作为基本检索模型,在初次检索和查询扩展后的二次检索中进行应用。根据用户给定的查询,进行初次检索后,可以得到文档排序列表,选择列表中前N篇文档作为伪相关文档,提取扩展词,根据伪相关反馈基本假设,伪相关文档与原始查询具有较高相关性,因而,其中蕴含的词汇也与原始查询较为相关,从中提取扩展词能够起到丰富原始查询的作用。
2 扩展词选择模型
在获取伪相关反馈文档集合后,需要采取有效的方式对候选扩展词的重要性进行综合评估,因此本文方法主要从以下两个角度对潜在的扩展词的重要性进行度量。
2.1基于词共现的扩展词加权
在一篇文档中,如果两个词共同出现的次数较多,可以认为这两个词具有较强的关联,因而可以通过考虑查询词和文档中潜在扩展词的共现关系来衡量扩展词的重要性,当查询词和扩展词共现次数越多时,该扩展词与原始查询具有更高的相关J陛,本文使用共现词频对这一指标进行定量描述,其计算方法如下所示。
(1)其中,d代表伪相关反馈文档集合D中的一篇文档,freq(t,d)和freq(q,d)分别代表在文档d中候选扩展词t和查询词q共同出现的次数,lDl代表伪相关反馈文档集合的大小。该指标可以衡量查询词q与扩展词t共现得分,该得分主要基于局部文档共现的情形,为进一步衡量扩展词和查询词在全局文档集合中的重要性,借鉴词频逆文档频率(tf-idf)加权的思想,本文引入逆文档频率,其定义如下。
(2)其中,N代表全局文档集合中文档总数,n(t)代表整个文档集合中包含词t的文档个数,该指标可以衡量扩展词t在整个文档集合中的重要性,出现该词的文档数越少则认为该词越重要。结合以上两个指标,可以采用如下方式对整个查询与候选扩展词的重要性进行评估。
(3)其中,Q代表用户提交的原始查询,q代表原始查询Q中的一个查询词。公式(3)结合查询词与候选扩展词的共现词频、查询词的逆文档频率和候选扩展词的逆文档频率,在所有查询词上进行累加操作,该公式可以对扩展词t在文档集合中的重要性进行度量。
2.2基于词共现的扩展词加权
为充分考虑扩展词在生物医学领域内的重要性,本文采用Me SH词表对扩展词的重要进行进一步的衡量,主要考虑扩展词在Me SH中的分布信息。在介绍该方法前,首先简要介绍Me SH词表,该词表全称医学主题词表,是由美国国立图书馆所管理的医学词汇资源,以树状层次化组织,涵盖大量专业术语和词条,2016年最新发布的MeSH词表涵盖有27883个描述符和超过87000个术语词,主要用于对生物医学文献数据库MEDLINE和生物医学搜索引擎PubMed中的文档索引和信息管理等。
由于MeSH词表中涵盖大量专业词汇,本文方法首先以候选扩展词在MeSH中出现的词频作为扩展词领域依赖性的度量,该指标定义如下。
(4)其中,freq(t,MeSH)代表MeSH词表中出现该扩展词的频率,|T|表示MeSH中出现的词的总数。在此基础上,进一步考虑包含该扩展词的唯一词条的个数,这里唯一词条是指包含该扩展词的不重复出现的词条,类比逆文档频率的计算方法,可以认为当包含某一扩展词的唯一词条的数目越少则说明该扩展词具有更高的重要,具体量化方式如下所示。
(5)其中,M代表MeSH中包含的词条的总数,m(}代表出现扩展词t的唯一词条的个数。将公式(4)和公式(5)进行结合,可以得到如下公式对扩展词在MeSH中的重要性进行评估。
(6)该加权策略借鉴信息检索领域词频逆文档频率tf-idf的加权策略,用以衡量候选扩展词t在整个Me SH词表中的重要性。