信息组织要在以上几个方面发挥作用,面临着很多困难和挑战:
1 信息组织的作用极易被忽视
根据信息链和信息生命周期的相关理论,从数据到信息、从信息到知识、从知识到情报(解决方案)转化的过程中,都遵循着“收集一整理一组织一存储一检索一利用”的工作流程,信息组织在其中发挥了重要的作用。
但是,在大数据环境下的某些场景中,数据经过挖掘可以直接生成情报(解决方案),在不经过组织的情况下直接服务于决策。比如在流式计算中,由于无法确定数据的到来时刻和到来顺序,也无法将全部数据存储起来,因此不再进行流式数据的存储,而是当流动的数据到来后在内存中直接进行数据的买时计算,数据的收集、整理、组织、存储、检索与利用需要在极短的时间内买时并发进行。同时,某些大数据在一定程度上强调买时性,很多数据还没有被存储和组织,就已经失去了效用。在这种情况下,信息组织的作用也很难显性化,再加上大数据时代人们在思想上对数据挖掘和分析的重视与推崇,信息组织在从数据到解决方案这个过程中的作用往往被隐藏或忽略了。
2 信息组织的学科边界逐渐模糊
近现代的信息组织最早起源于图书情报领域,以应对又献信息资源的急剧增长,分类法、标题法、编目、又摘索引等又献组织的方法是早期的主要方法,<杜威十进制分类法》、<美国图书馆协会标题表》、<化学又摘》等是信息组织早期的重要成果。随着时代的发展和技术的进步,计算机技术被广泛应用于信息组织,自动分类、自动标引、联机检索、自然语言检索技术得到快速发展,随之而来的是计算机科学对传统信息组织研究的巨大冲击。
1989年,国际知识组织学会成立,很多学者将知识组织看作是信息组织发展的高级阶段,并用知识组织系统一词统称对人类知识结构进行表达和有组织地阐述的各种语义工具,这些语义工具包括分类法、叙词表、语义网络、本体等’。其中,对本体的相关研究,使信息组织研究的触尾自然地延伸到语义网、知识工程中的知识表示等领域。
此外,大数据环境下的元数据标准制定等信息组织研究内容与信息技术标准化等领域有重合,大数据组织等研究内容与数据科学、数据管理等领域产生了联系与交叉。
可见,在计算机技术、网络技术、语义技术、大数据技术的冲击下,信息组织的学科边界逐渐模糊。这带来了两个方面的重大挑战:一是传统信息组织工具适应性的问题,二是与知识工程、语义网领域的学者相比,图书情报背景的学者在技术水平上存在一定的劣势,而这种技术劣势在大数据组织的任务中表现的尤为明显。
3 信息描述标准的建立存在困难
在又献组织阶段,MARC,FRBR,D丁。是又献信息资源描述的标准;在网络信息组织阶段,DublinCore等元数据是网络信息资源描述的标准;在知识组织阶段,RDF,OWL等形式化语言使得数据可以被机器读取并理解。大数据环境下,无论是数据类型还是数据载体,其表现形式正变得更加多样化,越来越多的大数据来源于科学观察中的买验数据、生命科学中的基因组数据、物联网中的传感器数据、互联网中的社交媒体数据。
这一方面需要有上层的统一的描述标准和规范来保证数据描述和组织的一致(生,另一方面,需要建立面向领域和具体场景的信息描述标准,并保证不同描述标准之间的关联性。大数据具有明显的领域依赖特征,其数据场景、数据类型、数据载体、数据结构和模式复杂多样,建立跨领域和跨数据类型的统一描述标准、买现不同领域大数据描述标准的关联和互操作存在较大困难。
4 现有信息组织的工具与方法体系难以适应大数据组织的任务
信息组织的自动化和智能化水平不足。大数据环境下的大部分数据都是以数字方式存贮的或已经被数字化的,这与2000年数字化存储的数据量占数据总量的25%相比,有了巨大的飞跃,IDC(Internationaldatacorporation,国际数据公司)将这种场景称为数字宇宙。数字宇宙的规模正在迅速扩大,IDC发布的数字宇宙研究报告显示,其规模将每两年翻一番。这种数据膨胀的速度对信息组织的效率提出了更高的要求,对信息组织的自动化和智能化水平提出了挑战。
传统信息组织工具的动态性较弱。分类法、叙词表、本体等信息组织工具的体系严密,但更新速度较慢,一经建立,很难改动。而大数据环境下的数据、信息具有很强的动态性,传统信息组织工具在动态性方面面临严峻挑战。
信息组织作用于数据交换共享的能力不足。大数据驱动价值创造的优势在于将大量的内外部数据、不同渠道的数据连接起来,进行全景式的统一分析与利用。叙词表、领域本体等信息组织成果虽然有助于数据之间、不同信息系统之间的互联,但是面对复杂多样的数据类型,其作用于数据交换共享的能力还有待加强。