本节实验在非监督式查询扩展选出大量候选扩展词的基础上,进一步采用监督式查询扩展方法,训练扩展词选择模型,选出查询相关的高质量扩展词,更好地完成查询扩展,提升检索的效果。
实验中的对比方法包括:基于两阶段监督式查询扩展方法(Two-stage SQE ),该方法将监督式查询扩展分为查询选择阶段和模型训练阶段,作为最新的监督式查询扩展方法,可以看作是一个较强的对比方法;基于支持向量机分类器选择扩展词的方法(SVM ),该方法是一种经典的监督式查询扩展方法,通过SVM将候选扩展词分类为好的扩展词和坏的扩展词,并根据分类器输出的后验概率得分选出最为有用的扩展词;基于迭代决策树的扩展词选择方法(MART) flz},该方法和基于SVM的方法类似,用以选择候选扩展词,以上两种方法可以是点级的排序学习方法;而RankNet和RankBoost是两种对级的排序学习方法,RankNet以神经网络模型为基础,以具有偏序关系的扩展词对间的序列概率计算排序损失,RankBoost以梯度提升算法为基础,通过迭代的方式结合多个弱排序器,构成最终的扩展词选择模型;ListMLE方法是列表级的排序学习方法,该方法以最优排序和预测排序之间的概率似然为依据计算排序损失,并以此为基础给出扩展词排序列表;Group-ListMLE是本文提出的基于组排序学习的扩展词选择模型。具体实验结果如表4和表5所示。
从表4的实验结果可以看出,相比于本文提出的非监督式查询扩展方法,监督式查询扩展方法在所有评价指标上均可以获得较高的检索效果;而在不同的监督式查询扩展方法中,对级的排序学习方法相比于点级的方法能够取得更好的检索效果,而基于RankBoost的排序学习方法要优于基于RankNet的方法;列表级方法ListNet的性能介于RankBoost和RankNet之间,基于两阶段的监督式查询扩展方法相比于上述方法具有更好的检索效果,而本文提出的基于Group-ListMLE的扩展词分组选择方法获得了最优的检索效果,相比于基于ListMLE的方法提升幅度为4.41% e
从表5的实验结果也可以看出类似的趋势,监督式查询扩展方法的检索性能均优于非监督的查询扩展方法,在点级方法中基于SVM的方法由于基于MART的扩展词选择方法,在对级方法中基于RankBoost的方法由于基于RankNet的方法,而基于组排序学习的列表级方法获得了最佳的检索效果,相比于基于ListMLE的方法提升幅度为11.35%e
上述结果表明,在生物医学文献检索任务中,监督式扩展词选择过程能够选出更多质量较好的扩展词,而包含所选扩展词的扩展查询能够更为清晰准确地描述用户信息需求,从而提升检索的效果;而基于组排序学习的方法相比于其他排序学习方法更加有效,其原因在于组排序学习对原始的查询相关的扩展词样本空间进一步划分,使得排序损失优化更具有针对性,从而将具有较高相关性级别的扩展词排列在预测列表的前面,改善查询扩展的效果。