候选扩展词特征抽取
论文作者:草根论文网 论文来源:www.lw360.net 发布时间:2017年08月29日

监督学习算法的输入需要将输入样本转化为特征向量的形式,特征需要充分反映样本在不同维度上的特性。同样,监督式查询扩展需要将候选扩展词表示为特征向量的形式,而所选取的扩展词特征需要从不同维度上反应出扩展词与原始查询的相关性。而基于监督式查询扩展的生物医学文献检索中所提取的候选扩展词特征一方面需反映扩展词与原始查询的相关性,另一方面也需体现扩展词的领域依赖性,即所选扩展词在查询所涵盖领域内的重要性,因此本文定义两类候选扩展词特征:基于上下文的词特征和基于领域的词特征。

4.3.1基于上下文的候选扩展词特征    

基于上下文的候选扩展词特征,主要考虑扩展词在检索语料中的词分布信息,及其与查询词分布信息之间的差异。因此本文主要从两个方面抽取基于上下文的候选扩展词特征:扩展词分布信息和查询词与扩展词共现信息。    

扩展词分布信息主要考虑扩展词的词频TF、逆文档频率IDF和其组合,这类特征定义如下。

 

blob.png 

(9)其中,tj表示任意候选扩展词,d表示文档集合D中的任意一篇文档,freq(tj,d)表示文档d中词tj出现的次数,length(的表示文档d中总共包含的词数。该公式用来计算候选扩展词右在文档集合D内的词频。

 blob.png

(10)其中,Num(D)表示文档集合D中总共包含的文档个数,n(tj)表示集合D中出现候选扩展词tj的文档个数。该公式用于计算候选扩展词右的逆文档频率,逆文档频率可以反映扩展词在整个文档范围内的重要程度。blob.png                                             

 (11)其中,该公式将候选扩展词的词频和逆文档频率相结合,可以更为全面度量扩展词右在文档集合内的重要性。以上三类特征主要根据扩展词在检索集合中的分布信息进行抽取。而扩展词与查询的共现可以更大程度上反映出扩展词对于给定查询的重要J陛,如果扩展词与查询词在同一文档上下文中共现频率较高,则可以认为该扩展词更有可能与原始查询具有较高相关联。基于这点考虑,本文进一步定义并抽取基于词共现的扩展词特征,其定义可以表示如下。       

blob.png 

(12)其中,cooccurrence(q,t,d)表示扩展词t与某一查询词q在文档d范围内共同出现的次数,在所有文档和所有查询词上对该共现频次进行累加,可以得到扩展词t相比于整个查询的共现次数,并将其作为一类特征。    

在文档集合D的选取上,本文在实验中尝试从整个检索语料集合和伪相关反馈文档集合两个方面着手,并抽取不同的词特征,用于候选扩展词的向量化表示。

4.3.2基于领域的候选扩展词特征   

 在生物医学文献检索中,专业术语往往能够很大程度上辅助刻画用户的信息需求,因此术语中所包含的词很有可能对原始查询进行补充和完善,从而改善检索效果。因此本文基于生物医学语义资源提取候选扩展词特征,这些特征能够反映出扩展词的领域依赖性和重要性,更加准确地实现扩展词的向量表示。本文提取的基于领域的候选扩展词特征包括两类:基于MeSH词表的扩展词特征和基于术语概念的扩展词特征。   

 基于MeSH词表的扩展词特征主要包括包含扩展词的唯一词条的个数、扩展词的MeSH词频和二者的组合,具体定义如3.2节公式(4)公式(5)和公式(6)所示。   

  为抽取基于术语概念的扩展词特征,本文基于生物医学领域自然语言处理工具MetaMAP识别扩展查询所涵盖的生物医学概念。MetaMAP由美国国家医学图书馆开发并发布,用于识别给定生物医学文本片段中所涵盖的术语和概念。具体来说,首先将一个候选扩展词加入原始查询构成扩展查询,然后将该扩展查询输入 MetaMap,可以得到若干与该扩展查询相关的概念,若结果中包含较多概念,则可以认为该查询能够涵盖更多有用信息,而该候选扩展词更有可能被选作扩展词,用于查询扩展}z}}。基于以上这点,定义如下扩展词特征。 

         blob.png

 

(13)其中,t表示任意候选扩展词,Qexpana(t)表示在原始查询中加入候选扩展词t的扩展查询。该特征累计基于候选扩展词t的扩展查询所涵盖的概念的总数,概念基于MetaMap进行识别。此外,MetaMAP在识别文本片段所涵盖的概念的同时,还会根据文本中所出现的词,返回若干候选概念,候选概念的个数同样可以作为扩展词领域重要性的度量依据,因此本文进一步定义如下特征。

 

blob.png 

(14)其中,R (q)表示基于扩展词t的扩展查询中任意一个查询词所返回的候选概念的个数,I QeXnand(t)I表示扩展查询中所涵盖的概念总数。   

  基于以上特征定义,可以将扩展词表示为特征向量的形式,用于监督学习算法的输入,接下来具体阐述模型的训练过程。

4.4基于组排序学习的扩展词选择模型    

组排序学习方法在经典排序学习方法的基础上对其样本空间进一步划分,从而使得训练模型具有更好的泛化能力和优质的排序性能。因此本文拟采用组排序学习方法用于扩展词选择模型的训练。在样本组空间的划分上,根据候选扩展词的标注级别不同将候选扩展词划分为三种类别的组空间,分别是相关一可能相关词分组,可能相关一不相关词分组和相关一不相关词分组。一个相关一可能相关词分组包含一个标注为2的相关扩展词和若干标注为1的不相关扩展词;一个可能相关一不相关词分组包含一个标注为1的可能相关扩展词和若干标注为0的不相关扩展词;一个相关一不相关词分组包含一个标注为2的相关扩展词和若干标注为0的不相关扩展词。通过以上划分可以使得训练的模型更有针对性的选择相关扩展词,避免选择不相关扩展词,同时扩充原始的样本空间。    

在学习方法选择上,本文以ListMLE排序学习方法[[30}为基础改进组排序损失函数。ListMLE是一种基于序列似然概率计算排序损失的列表级排序学习方法,它的损失函数基于Luce模型定义如下。                                         

blob.png 

  (15)其中y是随机选择的最优扩展词排序序列,满足对于任意扩展词titj,若ti的标注值大于tj的标注值,则ti排列于tj之前。   

  由于原始的ListMLE损失在区分不同级别相关J陛的扩展词上具有局限性,而基于组样本空间的划分能够在原始查询空间划分的基础上,进一步更有针对性的将具有不同相关性级别的扩展词划分在不同的分组,从而增强模型在不同相关性扩展词上的区分能力。因此本文采用组样本空间策略对该损失函数进行改进,具体定义如下。

 

blob.png 

                                            

 (16)该函数仅代表一个分组的损失,在模型训练中需要将所有分组的排序损失累计,采用梯度下降等策略优化排序损失,以获得最优排序性能的扩展词选择模型,具体学习过程如算法2所示。  

算法2.基于组排序学习的ListMLE方法.

 输入:训练查询集合Q,每个查询所对应的候选扩展词集  合Tq以及相关性标注Yq;迭代次数C,学习率η

   1、对于集合Q中的任一查询q,构造组样本空间。  

2、初始化模型参数。  

3, for c=1 to C do  

4、计算排序损失梯度 

5、计算损失梯度值 

6、更新参数

7, end for 

 输出:模型参数ω

   通过算法2可以训练得到扩展词选择模型,用于在候选扩展词集合中进一步甄选高质量扩展词,完成监督式查询扩展过程。


相关推荐
联系我们

代写咨询
 362716231

发表咨询
 958663267


咨询电话

18030199209


查稿电话

18060958908


扫码加微信

weixin.png


支付宝交易

ali.jpg

  • 在线客服
  • 认准本站客服
  • 代写咨询
    362716231
  • 发表咨询
    958663267
  • 咨询电话
  • 18030199209
  • 查稿电话
  • 18060958908
  • 扫描加微信
  • 支付宝交易
  • 返回顶部
    在线客服