基于主题模型的南水北调东线工程学术关注点研究
论文作者:草根论文网 论文来源:www.lw360.net 发布时间:2018年03月03日

信息是决策的基础,丰富的信息能够有效的减少决策的风险。随着社会的高速发展,人们可以获得大量的结构化和非结构化数据并从中挖掘有价值的信息。非结构化数据的高速增长,特别是文本数据,为人们挖掘信息的潜在知识提供了数据来源。之前的研究通常是人工查看数据并分析,但该方法耗费时间且具有主观性,在处理大量数据时变得十分困难。主题模型是一种半自动的文本挖掘方法,可以节省大量的人力和时间,它能够揭示文本数据潜在的知识结构,从而为人们的决策提供支持。科技文献作为文本数据的形式之一,可以用于决策支持伶瑞鹏利用LDA主题模型研究了《中国安全科学学报》近10年科技文献的研究热点和演变趋势,反映了工程安全领域的发展方向,以此提升论文刊载能力及论文质量,为社会共享安全科学领域的优秀研究成果搭建了平台。杨海霞[7]利用LDA主题模型对计算机科学类的科技文献进行了分析,帮助从事该领域研究的学者了解主题的变化趋势并寻找新兴的研究主题。谭章禄利用LDA主题模型识别了某煤矿公司的安全隐患,为煤矿隐患排查、隐患治理以及安全管理决策提供重要信息。    

南水北调工程是解决我国北方地区水资源严重短缺问题的重大战略举措,也是关系到我国经济社会可持续发展的特大型基础设施。南水北调东线工程于2003年开始施工建设,于2013年底正式通水。尽管工程效益巨大,但也暴露了诸如水污染等诸多问题。这些问题对于区域的可持续发展至关重要。因此,针对这些问题的评价能够帮助政府在工程的后评价阶段制定合理、民主的决策。主题模型可以用于水电项目评价。江汉臣利用LDA主题模型对水电相关的科技文献进行主题挖掘,发现学术界对水电工程运营期的关注程度大于工程建设期,还发现在该领域内学科交叉的趋势逐渐显现。该研究揭示了水电开发过程中的常见问题以及水电未来的发展趋势。江汉臣又利用LDA主题模型对有关三峡工程的科技文献进行主题挖掘,发现近年来的研究热点问题包括生态学、水库调度、土地管理和水污染,而施工技术和工程设计逐渐失去研究价值。该研究为三峡工程的整体竣工验收提供了评价依据。    

综上,本文以南水北调东线工程作为研究对象,对其相关的科技文献进行文本挖掘,探索学术界的研究热点以及演变规律,为工程的后评价提供决策支持。

2理论基础

2. 1 LDA主题模型    

Latent Dirichlet Allocation CLDA)是Blei等人[iz]于2003年提出的基于概率模型的主题模型算法,LDA是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中的潜在隐藏的主题信息。该方法假设每个词是由背后的一个潜在隐藏的主题中抽取出来。对于语料库中的每篇文档,LDA定义了如下生成过程:1.对每一篇文档,从主题分布中抽取一个主题;2.从上述被抽到的主题所对应的单词分布中抽取一个单词;3.重复上述过程直至遍历文档中的每一个单词。LDA认为每篇文章是由多个主题混合而成的,而每个主题可以由多个词的概率表征。定义之为主题编号向量,w为单词编号向量,K为主题数。根据条件概率公式有:而LDA的目标是找出每个词后潜在的主题,所以为了达到这个目标,需要计算后验概率    

(4)中的n是语料中所有单词实例的总数,因为计算分母陷入了K”项的难题,这个离散状态空间太大了以至于无法列举出来。目前的解决方法有两种,一是吉布斯采样,二是变分法。本文采用变分法。

2. 2Mann一Kendall非参数趋势检验    

3. Mann-Kendall非参数趋势检验[i3]基于时间序列和时间顺序之间的相关性。对于一个时间序列X ={x,,x2,...,xn},其检验统计量为: 

本文选取中国知网作为科技文献的搜索平台,以“南水北调东线”为关键词,在“主题”检索条件下,一共检索到3180篇文献。通过网络爬虫技术,依次将各篇文献的题名、摘要、发表时间和来源抓取下来。其中,发表时间是从1979年12月到2016年12月;来源包括期刊、博士论文、硕士论文、中国会议、国际会议和报纸。考虑到会议和报纸上的文章主要是对工程进行概括总结性的内容,并没有涉及到具体的工程问题,所以选取期刊、博士论文和硕士论文作为分析数据。通过统计各年份文献数量,发现2003年之前的文献数量较少,且有的年份文献缺失。由于本文需要研究主题随年份的演变趋势,所以为了减少因有些年份数据缺失造成的影响,故将时间框架定为2003年到2016年的14年。

这一时间段包含了主要的建设期(2014年以前)和运营期(2014年以后),这将有助于发现不同的学术关注点。最终得到1405篇文献,并按照发表时间进行排序,将各年发表文献数量汇总统计,结果如图1所示。其中y轴代表各个年份的文献数量。由于学术成果公开发表的时间节点相对于开展研究的时间节点具有一定的滞后性,且滞后时间难以确定,而本文是以年份为单位对主题演变趋势进行研究的。综合以上考虑,可以认为学术关注的时间节点比文献发表的时间节点提前1年。

相关推荐
联系我们

代写咨询
 362716231

发表咨询
 958663267


咨询电话

18030199209


查稿电话

18060958908


扫码加微信

weixin.png


支付宝交易

ali.jpg

  • 在线客服
  • 认准本站客服
  • 代写咨询
    362716231
  • 发表咨询
    958663267
  • 咨询电话
  • 18030199209
  • 查稿电话
  • 18060958908
  • 扫描加微信
  • 支付宝交易
  • 返回顶部
    在线客服