(一)大数据在城市文化研究中的学科应用性
从现实着眼,从宏观层面反映城市在全国范围内的竞争力与综合影响力的“国内知名度”对于进行中国区域城市的比较研究具有重大意义:一方面,通过分析中国城市在经历从带有浓厚农业社会传统向快速现代化转型的进程,有利于揭示政治、经济和文化在城市知名度建构机制中的作用关系;另一方面,在中国区域现代化发展进入到攻坚期的背景下,城市国内知名度的研究可以为区域城市竞争力对比分析提供精准切入点。特别是对于处于中国经济和文化中心的苏南地区而言,对区域内城市的国内知名度的变迁轨迹和结构特征进行历史比较分析,并与其他区域的代表性城市进行空间对照观察,能够在一般意义上归纳出在社会转型过程中中国城市的发展机理以及动力构成。
尽管关于城市知名度的研究日益成为城市文化领域的“显学”,但梳理以往的相关研究,我们不难发现:绝大多数研究是以理论探讨为旨趣,并且研究视域较为狭隘,缺乏从全面整体的维度对城市文化影响力进行研究。并且在一些采取量化分析方法的研究中,其操作化指标在可信性、全面性、有效性等方面也备受质疑。究其原因,一方面是由于采用抽样调查的资料收集方法不可避免地要承受成本巨大和样本代表性难以得到可靠保证的风险,而更为关键的则是在现有的技术条件下既难以在空间维度上保证基于全国范围内的系统测量和分析,也无法在时间维度上完成大跨度的历史回溯和描述。Gary King认为,由互联网时代衍生而来的、具备超大规模和海量信息特性的“大数据”很有可能会打破定性与定量研究的方法和技术壁垒,进而为社会科学、人文科学领域开拓崭新的分析思维和研究路径。因此,在互联网时代蓬勃兴起的“大数据”为我们针对大跨度的城市国内知名度历史演化进程进行精准测量提供了新的研究路径。特别是通过大数据的比较和总结性的分析,可以看到城市知名度不仅可以作为城市形象一般性表达的符号和说明,而且也是建构城市核心竞争力和提升城市软实力能级的前提和必要条件,知名度特别是在高美誉度前提下形成的城市知名度,既是一个城市的特色和文化价值的表达,也是城市文化软实力的集中表现,还是“城市文化资本”再生产的前提和文化场域。
(二)以谷歌图书和百度指数为基础的大数据
谷歌图书(Google Books)的创立和互联网搜索引擎的发展,为在社会科学领域内有效克服“大数据”所存在的资料获取难度大、以及学界对其与社会科学研究之间适用性、样本代表性、测量方法的信度和效度等争议提供了有力支持。自2004年年底以来,谷歌公司与哈佛大学、剑桥大学等40多所国际知名大学及相关出版社合作,对馆藏图书及出版社赠书进行了数字化的建设,截止到2013年,谷歌图书最新版语料库中被扫描和识别的图书已经超过3000多万种,目前可供进行全文检索和数据分析的书籍高达8116746种,词汇量为8613亿。其中,汉语(简体)书籍和词汇数量分别为30万种和269亿。表1展示了谷歌图书语料库2012年第2版的主要构成,其数据资源规模的超大体量性和极佳的时空代表性为从事中国社会问题的历史性组群对象和现实社会问题的研究提供了技术可行性支持。
此外,由于近年互联网的迅速崛起已经深刻改变人类社会信息资源聚合方式,加之谷歌图书书籍词频检索时间存在的限制(截至到2008年),并且基于中国大陆网络用户对于搜索引擎使用习惯的考虑,我们认为有必要结合中国国情引入在中文世界中占据核心地位的百度搜索引擎来更加精确、全面地反映处于中国大陆范围内各大城市在本土的受关注度情况,以进一步提高样本的规模性和代表性。我们采用2011-2016年百度指数的“用户关注度’,大数据来分析苏南城市及其他中国主要大城市国内知名度在此期间的变动情况。
这一分析方法的意义还有,对于相关城市地名出现的频率和范围可以从一般意义上佐证知名度的程度和价值,虽然个别大事件,特别是负面意义的大事件,对城市知名度的影响度有较大的影响。但是,在一个较长的时间段内,人们主要关注的是某一城市的整体文化意义,如人们对某城市的历史领域、建筑领域、文化艺术领域等所进行的学术研究和传统文献的表述。因为城市本身的历史与现实的价值而对某城市本身的关注较多,其知名度自然以正面取向和积极意义为主。不言而喻,知名度本身选词的海量意义来说,知名高与经济社会发展的正向、城市优良的环境、城市创新性及向上的积极意义呈正相关。
(三)城市国内知名度的概念操作化及测量
应该明确,本文所研究的城市知名度是指公众对某城市综合意象的正向性认知,并且依托在全社会诸领域内的综合影响力而提升关注度,而非藉由恶意炒作而“吸引眼球”,以及因重大安全事件和集体性事件而增加关注度。因此,如何寻找更具科学性的测量工具以便从海量无结构的数据中提炼出同时具有时空结构性和研究匹配性的数据就显得尤为重要。笔者认为,语言学中的语料库词频分析的方法可以对某一关键词在特定时段内其所蕴含的文化影响力进行有效测量。在社会科学领域应用“词频比例”方法具有充分的逻辑严密性与系统科学性。一方面,从语言学角度来看,社会历史进程中的多数事件和现象都是依靠书籍语言得以记录,其在承载知识、思维和观念等抽象事物上最具有正式性和权威性。而且,书籍语言不仅蕴含了笔者的观点和意图,而且更能反映当时公众思维倾向和社会整体风尚。超过半个世纪的汉语印刷书籍在某种意义上汇聚了建国以来整个中国社会的知识、观念与经验。由于谷歌图书语料库具有充分的规模性、跨度性和代表性,我们可以逻辑性地假定某一词汇出现在其中的相对频次能够近似地反映这个词汇本身及其蕴含的“文化影响力”,即知名度、公众关注度等,甚至折射出某种社会趋势、风尚或思潮。目前,基于谷歌图书的词频统计研究已经在国际语言学和历史学界得到广泛应用。比如Jean-Baptiste Michel等人率先利用谷歌图书语料库展开的文化史定量分析,阿瑟比等人对其中的情感用词变迁和英语地区差异进行的研究,以及宾利等人在书籍词汇与经济发展周期之间进行的关联性分析等[l0],都给我们带来很好的研究经验与证明。
在本研究中,我们利用谷歌图书的所有汉语(简体)书籍(1949-2008年)和百度指数(2011-2016年)的全部搜索记录作为语料库(Corpus ),并将提及有关苏南地区和其他城市的词汇频次,作为衡量城市国内知名度的测度,从而在超越以往相关研究的时空跨度上对区域性城市乃至全国范围的城市国内知名度的历史变迁轨迹进行全景探索和深度分析。在具体算法上,由于谷歌图书内汉语书籍中的词汇在数量上不尽相同,为增强数据的时间可比性,
我们用关键词出现频数除以当年的词汇总量。具体的计算公式为:
其中,F表示在公元Y年城市i的出现次数,F为在公元y年中出版书籍的全部词汇量、为在公元y年城市i的同频比例,即国内知名度。
百度指数中用户关注度的计算公式是根据在所选定时段内百度网页或百度新闻的用户搜索量的周平均值得出,其如下:
其中Raw为城市i在2011-2016年第t周互联网搜索引擎用户关注度,FiWt=r....}表示在城市i第w周内每天的用户搜索数量。
总之,运用大数据方法既可以在海量城市信息中直接描绘其国内知名度的历史变迁轨迹及结构特征,降低理论研究方法在个案选择方面的样本偏误,而且能够创新定量分析方法,将海量数据信息以可视化方式进行视觉化,从而进一步揭示数据信息背后所蕴藏的变动规律和运作机制。因此,本文既是在中国社会科学领域较早利用互联网数据分析中国城市国内知名度的传播影响机制的初步试验,并且对于国内学界应用海量图书大数据对中国城市国内知名度进行测量研究具有开创性意义。