浅谈历史地理数据在图书馆数字人文项目中开放应用的问题、目标和需求
论文作者:草根论文网 论文来源:www.lw360.net 发布时间:2017年03月25日

问题

对于承担着社会教育和知识传播功能的图书馆来说,利用数字人文方法更好地组织和呈现馆藏的大规模数字化文献资源,为人文学者提供更精准的服务,是图书馆进行数字人文建设项目的特点和基本出发点。现代历史地理学是数字人文中最重要的方法和手段之一,然而,现有历史地理信息系统中的数据、技术、方法,对图书馆领域的用户而言存在着较高的技术门槛。原因在于:一方面,高校图书馆和研究型图书馆尤其是公共图书馆面对的用户群体不仅是研究人员,还有本科生及社会大众,需要将专业的数据转换成为大众的、通用的知识,并降低GIS工具应用的门槛;另一方面,大部分图书馆的人力资源有限,缺少专业的历史地理人才和信息技术人才,这就使得共享和开放变得尤为重要,尤其是在互联网环境中的开放应用。

图书馆在长期的资源编目实践中,积累了大量有着规范结构的元数据记录。在图书馆领域应用最为悠久和广泛的MARL和DC元数据规范中,也有简单的对于地理空间的著录,如MARL的650,651,043字段,DC核心元数据元素集中的dc; ; spatial属性。但这些字段和属性的取值是字符串组成的文本,缺乏经纬度等地理空间属性,也缺少地名在不同时间中变化和关联的信息。近年来图书馆界推出了“资源描述框架(RDA)”和旨在取代MARL的新的书目框架格式BIBFRAME,对地名的处理更进了一步,引人计算机科学中面向对象的思想,将特定的地理空间看作现实中真实存在的实体对象,并从实体对象中抽象出概念。例如:da } Place和bf . Place,目的是与书目数据中的各种概念(如作品、载体表现、单件)建立关联,对于历史地理数据的容纳仍然没有足够的重视,但在内容框架上具备了引人历史地理数据的条件。在具体应用中,可以为这些概念扩展历史地理相关的属性,如空间存续时间范围、经纬度等。可惜的是,RDA在中文编目领域还没有进人实施阶段,BIBFRAME也尚处于实验性探索和研究阶段,虽然上海图书馆采用BIBFRAME2.0作为核心数据模型,扩展了bf . Place,增加了经纬度、行政区域归属等属性,基于此模型对家谱文献中抽取的谱籍地名进行建模,并以关联数据技术在Web上公开发布了地名词表,也提供开放应用程序接口供开发人员调用,但该词表缺少地名的时间序列数据,只有今地名,没有古地名。

综上所述,现有的历史地理信息系统难以直接应用于图书馆的数字人文项目建设,图书馆虽然在数字化资源全文和元数据上为数字人文奠定了一定的基础,但在历史地理数据的储备上基本是缺失的。因而难以实现基于空间尤其是多维时空架构的资源整合和关联,特别是对大规模文献资源进行内容分析和数据结构化时,需要提取、匹配其中的地名,而在各种古籍、档案资源中,地名是以资源所在时代的实际情况出现的。例如,同一地理空间可能以不同的地名出现在不同时代著述的古籍中,如何对这些地名进行合并和消歧,实现互联网环境下地名的规范控制,是丞待解决的问题。

目标和需求

历史地理学虽然有着鲜明的跨学科特性,但也有着强烈的专业性,存在着较高的应用门槛,需要专门的知识背景。如果采用“拿来主义”直接用于图书馆的数字人文项目建设,在缺乏足够的历史地理专业人才和(GIS技术尖端人才的情况下,存在极大的困难,应分步骤、有选择地实现有限目标,以解决图书馆数字人文项目建设中最迫切的问题。因而需要呼吁大中型图书馆利用图书馆领域擅长的规范控制和知识组织方法和Web技术,在现有专业性历史地理信息系统的基础上,建设适用于图书馆领域的历史地理知识库(以下简称“知识库”),在具备通用性、易用性、便捷性的同时,满足互联网环境下历史地理数据开放应用的需求,以为更多的中小型图书馆提供历史地理数据服务。需要特别指出的是,本文提到的“中国历史地理知识库”,只包括历史地理数据,不包括历史地图影像资料,但需考虑与历史地图影像资料库的接口。

笔者在近年来上海图书馆数字人文平台的设计和开发中总结出以下两种历史地理知识库的应用场景。

(1)在数据加工清洗阶段实现大规模半自动化的地名提取和校准。例如:家谱中的迁徙数据大多以古地名出现,无法与该地名对应的空间建立关联,进而与空间在不同时代所对应的不同地名尤其是今地名建立关联;因此需要知识库提供方便快捷的古今地名对照服务和地理空间数据提供服务。

(2)在数据的可视化呈现时实现不同时代历史地图的多图层叠加展示。例如:盛宣怀的9万多封书信,其中发信地和收信地是重要的信息,但这些地名是晚清和民国早期所用,与今地名多有区别,需要从知识库中获取与地名相对应的空间的经纬度信息,实现更精确的查询,并在不同时代的历史地图上可视化地展示。

基于上述应用场景,知识库应满足以下需求。

( 1)功能需求

①地名规范控制。知识库首先应提供互联网环境下的地名规范控制服务,这要求每一个历史上曾经出现过的地名,都应该在互联网上被标识、被定位、被访问,也就是说,每一个地名都应有URI(统一资源标识符)。

②历史地理数据提供服务。当访问地名的URI时,可获取关于该地名存续的时间范围、空间范围、治所名称及其经纬度数据,以及与其他地名的行政归属和空间归属关系。

③古今地名对照服务。可根据地名存续的时间范围、空间范围、治所名称等关键信息提供与该地名在时间序列上有同一关系的其他地名及其相关时空数据。

(2)技术需求

①采用开放的数据模型。数据模型的设计,需要考虑到与现有的历史地理数据模型兼容,以支持多源数据的融合、混搭;同时要求有良好的可扩展性,便于数据的修改和增补。

②采用标准化的、通用性强的数据编码格式。数据的编码格式,与数据共享的便利性密切相关。标准化的、通用的数据编码格式有助于数据在异构系统间的传输和互操作,也有利于数据在不同应用开发环境中读取和处理。

③基于Web提供开放数据服务。Web是互联网的主要载体,提供了随时随地的数据访问环境。以Web的基础架构HTTP协议为依托提供数据应用程序接口(API),是互联网环境下数据开放应用的常规选择。


相关推荐
联系我们

代写咨询
 362716231

发表咨询
 958663267


咨询电话

18030199209


查稿电话

18060958908


扫码加微信

weixin.png


支付宝交易

ali.jpg

  • 在线客服
  • 认准本站客服
  • 代写咨询
    362716231
  • 发表咨询
    958663267
  • 咨询电话
  • 18030199209
  • 查稿电话
  • 18060958908
  • 扫描加微信
  • 支付宝交易
  • 返回顶部
    在线客服