网络信息分类基本原则探讨
2011年1月情报探索第1期(总159期)
网络信息分类基本原则探讨
郭美荣
(中国科学技术信息研究所
摘
北京100038)
要:分析了现有网络信息分类方法的优点以及目前分类体系存在的问题,在此基础上总结并发展了已有分类方法所应
遵循的基本原则,以寻求一种更好的网络信息分类体系。关键词:网络信息网络信息分类分类原则分类体系中图分类号:G254.11文献标识码:Adoi:10.3969/j.issn.1005-8095.2011.01.003
由于信息技术第五次革命的出现———计算机和网络的问世,使得信息的传播和利用有了跨时代的进步。网络资源飞速增长,信息可获得量急剧增加,而且这种网络资源呈现出一种分散无序的状态,给用户使用带来了极大困难。所以,如何使用户准确、快速、方便地得到所需信息,成为网络资源提供者和编辑者的难题。因此,本文从网络资源、网络技术和网络用户的特点等方面探讨网络信息组织的方法和基本原则。
1网络信息分类现状
从1998年开始,国内许多学者对网络信息分类和组织的研究绵延不断。其中,有许多学者提倡网络信息组织的“标准化”。如2003年黄如花在《网络信息组织的发展趋势》中指出“信息描述标准化”[1];还有,郑福根认为网络信息组织的原则之一就是“标准化原则”等[2]。另外,现代技术在网络信息分类组织方面的应用受到了普遍关注,并且对现代技术的应用已经非常成熟。各种搜索引擎均采用网络信息自组织的方式。现在网络信息资源越来越丰富,不同文化水平与背景的人,根据自己的喜好对网络资源进行分类,同时也创造出了各种形式的标签。这样,对网络信息的分类组织工作增加了难度。鉴于以上情况,本文在总结前人研究的基础上,对网络信息分类进行了分析。
受关注的热点问题,通过计算机网络技术把热点问题单独列类并且放在显著位置,以方便用户获得。同时,这也是网络信息分类动态性的体现。1.1.3多维分类
网络分类采用超文本技术,根据知识门类之间的联系和使用需要,通过链接的方式,在相应的类目下重复反映,充分揭示类目之间的多维联系。同时,事物的多重属性得到充分揭示,实现了多重列类。另外,利用链接技术,可以根据需要,从多方面选择分类标准,有选择地同时建立多个引用次序的类目体系,提供更多的能独立描述信息主题因素的类目,以满足用户检索的不同需要。1.1.4兼顾用户知识水平
由于网络用户本身的差别,受教育程度和文化水平不同,知识理解掌握的差距,所以网络信息分类不仅注重知识的严谨规范而且要考虑一般用户的知识水平,做出通俗简便的类目结构和关系,提供简便的检索入口。
1.2现有网络分类体系存在的问题
1.2.1分类体系和知识体系不统一、不完整
文献分类法一般是以学科为中心建立分类体系,将有关主题的文献集中在学科下。网络分类法则是采用以主题为中心,或者主体结合学科的方式组织分类体系[3]。例如Yahoo!按照事物对象为中心设置类目,还有些搜索引擎设置专指对象集中列类。这样有些类目设置的级数较多,而且可能重复列类;有些只是简单提及,甚至把一些重要的知识大类设置为二级或三级类目等情况。这些问题出现的原因基本上可归为信息服务商主要考虑经济利益以及网络用户的需求两方面。这样就使得网络分类体系缺乏统一性、科学性和完整性。1.2.2类目关系混乱
由于网络资源的内容分布和用户需求的社会化因素的影响,类目设置较文献分类有了大的变化。不少主题对象的类目,如“计算机与互联网”、“新闻媒
1.1现有网络信息分类体系的优点
1.1.1继承了部分传统文献信息分类原则
传统文献信息分类基本上遵循一个“三性原则”,即思想性原则、科学性原则、实用性原则。另外,文献分类还遵循文献保证等原则,重视分类体系的通用性,重视学术性与通用性的结合。这些思想做法都是为用户提供服务的,所以网络分类也遵循此类原则,而且更具有普遍适用性的特点。1.1.2揭示热点
由于网络信息资源本身的特点,以及不同用户的不同需求,网络信息分类注重新的及时的和普遍
收稿日期:2010-04-04
作者简介:郭美荣(1983—),女,2009级硕士研究生,研究方向为信息资源共享等。
9
2011年1月情报探索第1期(总159期)
体”等,被设置为基本大类,而在传统分类体系中只是二级、三级类目。还有一些在传统文献中被重点设置的自然科学等类目,在某些搜索引擎中只被设为通用性的类目。另外,某些类目划分的概念逻辑混乱,隶属关系不清,类目划分缺乏规律性,类目归属不合理。例如中国雅虎首页中“体育”和“体育资讯”,“娱乐”和“娱乐资讯”同时列类;“体育”被单独列类,而且该类目下的“体育首页”和“淘宝体育”两个同位类设置的下位类内容基本一致,这不仅浪费用户阅读的时间而且给用户理解和使用带来了极大的不便。还有一个问题是,大部分搜索引擎把娱乐、体育、汽车等被普遍关注的问题放在显著靠前的位置,有时往往重复列类,一般用户很难找准检索入口和检索途径。
1.2.3类名概念不规范
由于网上分类法类型非常多,同时又存在着同义词和语言表达丰富性的问题,而且目前也没有什么标准对各分类法的类名进行规范,因此不同分类系统对相同的主题,在选用类名时会有时相同,有时不同。甚至在同一个分类系统中也会出现用词不一致的现象。无论从用户检索的实用性考虑,还是从分类体系的科学性出发,类名概念的规范性都应是网络分类法必须遵守的原则。
2现有网络信息分类方法的制定原则
目前网络信息分类方法主要是根据网络信息资源的特点,结合用户需要,利用先进的来制定的。这些分类系统以网上的信息资源为对象,按照用户需要的方便性,形成逐级展开的形式。利用链接技术,从不同角度揭示各个主题关系。但是,也正是由于网络资源的特殊性,用户需求的多样性,以及技术和专业上的非统一性,导致了网络信息分类的不理想性。
2.1网络信息资源特点
由于网络环境本身的特点,使得信息资源的分布呈现出无序性、不均衡性、不对称性和动态性的特点。网络信息的发布和传播具有很大的随意性和自由度。因此,信息的分布是发散的无序的。信息的取舍随用户的现实需要时刻在变化。这种无规则的杂乱编排会造成用户检索界面和检索方式的变更,给用户使用带来不便。同时,网络信息涵盖了人类知识的各个学科领域,且发布随意、欠缺必要的质量审核程序,导致网络信息在不同学科、不同行业、不同地理位置等分布表现出不均衡性。另外,网络信息的发布具有很大的自由度,缺乏必要的监督、过滤和质量控制,使得网络信息良莠不齐,既有高质量的信息,也有大量的信息“污垢”。所以,网络信息处于一种不断变化的状态,时时刻刻都在更新。它所连接的网站、网页也处于变化之中,使得网络信息从形式、内容到地址都具有极高的动态性[4]。
10
2.2网络技术
目前网络上的检索工具大都是研究机构和计算机工作者设计的,他们的优势是精通计算机技术,熟悉网上信息,重视用户需求,所以设计出的分类体系具有很大的直观性,实用而且易用。但是,他们的缺陷是不懂分类学和信息管理学知识,缺少情报检索语言理论的指导,不重视知识体系的完整性和逻辑性,对网上信息的处理较为随意,缺乏逻辑性和科学性。另外,传统文献分类法的等级的严密性、体系的庞大以及内容的陈旧,也使某些试图利用传统文献分类法的电脑设计者望而生畏。从事文献组织分类工作和情报检索语言研究的图书情报专业人员,其特点是重视知识体系的构建和揭示,强调语汇控制,熟悉分类法、主题法等情报检索语言,熟悉图书馆、情报所等正式出版的纸质印刷型文献环境及其特定用户,但实际参加网络研究和建设的较少,可以说我国现有的网上信息检索工具还没有一个是图书情报专业人员设计的。如果电脑工作者同图书情报工作者联合起来,双剑合璧,相信编制一部适用于网络信息组织的分类法并不是可望而不可及的[5]。也就是说,我们应该利用网络技术,把传统文献分类与网络信息分类结合起来,实现分类主题一体化。在这方面我们已经取得了部分成就。
2.3网络用户
现有的网络分类体系主要是以主题或事物为中心,而这些主题和事物又是以用户的需求为导向来设置和分类的。也就是说,网络分类的一个原则是实用。网络搜索引擎提供商首先考虑的是商业利润,哪些东西被关注的多,被点击的多,他们就有可能把这些东西列为基本大类,而忽略了类目设置的逻辑性和科学性。所以,所谓用户参与网络分类,并不是说让用户取得决断权,只根据数量来决定类目的划分和排列。用户标签是取得分类标准的一个途径。除此之外,需要具有图书情报专业知识的人员和熟练计算机技术的人员,充分利用用户需求合理设置分类体系,力求做到科学性与实用性的完美结合。3网络信息分类法构建的基本原则
对网络信息分类处理的目的是为了把分散无序的信息变成有组织的,可以方便获取的形式。所以,在编制分类法时除了遵循一般原则,继续发扬、完善其原有优势,坚持从横向和纵向两方面揭示类目间关系的多维性和多重性;坚持类目设置的动态性、灵活性等之外,还应加强兼容性、实用性和用户原则等方面的建设。
3.1一般原则
文献信息分类的文献保证原则、科学性等原则是网络分类首先要遵循的原则。因为,分类体系反映的是整个知识的体系结构,不管知识的载体如何变
2011年1月郭美荣:网络信息分类基本原则探讨第1期(总159期)
化,分类体系仍必须以科学的知识分类为基础,反映知识间内在的逻辑联系。因此,网络信息分类体系在不影响其实用性的前提下,应尽量保持较为严谨的等级关系,注意类目概念的划分与排列。另外,由于网络资源本身的类型和特点以及用户的需求,网络信息分类要积极构建更合理的多维分类体系。
3.2多维交叉性原则
网络分类体系的类目设置是与资源情况和用户需求相结合的,所以网上搜索引擎基本上都会依据信息资源的主体和学科从多个角度设置类目。知识之间的联系是多方面的,一个主题或事物对象,可以同时从属于一个或多个知识门类,也可以在从属关系外具有其他的联系,即相关关系。网络分类可以利用超文本技术,根据知识门类间的联系和使用需要,对此类关系加以揭示。另一方面,即是指从多个角度组织信息资源。利用链接技术,有意识地从不同的属性、角度设置类目,提供从多个维度揭示信息资源的方法。这样也提供了多种检索入口。
3.3动态性原则
网络分类体系的动态性包括动态设置类目和动态揭示类间关系。动态设置类目是指有特殊情况或者新的关注热点时,及时增加或者提前设置某个类目,同时也可以对新热点类类间关系进行揭示。这是网络分类较文献分类的一大优势。虽然文献分类也注重动态性,但是文献分类需要的更新时间较长,维护比较困难。网络分类则不受人力、物力等条件的限制,能够根据信息量和用户的需求变化,及时补充、调整分类结构。
3.4兼容性原则
多种信息组织方法兼容与融合,在信息描述方面表现为信息资源描述标准和规范之间的语义映射、互换等以及标准和规范的集成问题;在信息标引方面表现为检索语言的标准化与兼容化问题。在检索语言上,可采用词汇转换、中介词典兼容方式、宏观词表和微观词表兼容方式、集成词表兼容方式和叙词词库。我们可以看到,主题法中存在分类法因素。主题法引进了一系列分类法的技术和措施,诸如在标题表中设置副标题和倒置标题,设置“隐蔽的分
类体系”——
—参照系统;编制轮排索引,使主题词表中概念成族和字面成族;编制范畴索引,对叙词进行粗略分类,以便于按照学科、专业集中和查找主题概念;编制词族索引,显示主题概念间的属种关系;在款目词下设立属分参照,显示主题概念间的等级关系等。同时,分类法中也有主题因素。分类法采用了一系列主题法的技术和手段,如编制分类表字顺索
引或为分类目录设置字顺主题索引;在分类表中在一个学科或专业范围内,按主题事物集中列类,如在《中国图书馆图书分类法》中有关类目下注明的“总论入此,专论入有关各类”等;对类名的词形或词义的控制,明晰类目之间的各种关系;适度增加分类法中的组配因素,向着类目叙词化的方向发展。
另一方面,在实际使用中,从检索语言性能改进的需要看,信息组织的发展趋势,不是一种检索语言取代另一种检索语言,而是两者的有机结合。目前常见的自然语言与受控语言结合的形式主要包括:两者并存,建立平行系统;建立混合系统;自然语言标引,后控制词表检索;自动标引赋词等。目前,已经有研究人员利用元数据映射把不同知识体系连起来,形成互操作。1969年,英国女情报学家蒙琼·艾奇逊(Jean.Aitchison)等人编制的《分面叙词表》被认为是分类法与主题法的首次成功结合,也是世界上第一部分类主题一体化词表。我国最早提出分类主题一体化设想的是著名图书馆学家刘国钧和杜定友先生。之后,国内外涌现出一大批分类主题一体化词表。
从上面的描述可以看出,不仅可以把文献分类法和主题法结合起来,而且可以把文献分类和网络分类中的分类法和主题法结合起来,以便更好地实现知识共享。
3.5用户保证原则
网络是面向大众的,网络资源是用户提供的也是供其使用的。所以,网络信息分类体系不能太复杂,专业性也不能过强。在建立分类体系选用主题词时,应该简单、易用。例如,类名应该尽量使用自然语言;类目级次不应太多;类目应因需而设,突出重点,以便浏览;类目排列可按使用频率和词间关系相结合的原则等。同时,由于网络信息组织的目的是为用户提供服务,所以应该让用户参与信息资源的组织与分类。例如,网络用户提供的分类标签,可作为类名使用,也可借鉴用来组织类目关系和等级。
参考文献
[1]黄如花.网络信息组织的发展趋势[J].中国图书馆学报,2003(4):15-19[2]郑福根.网络信息组织的理论与方法探讨[J].现代情报,2004(6):10-12[3]马张华.信息组织[M].2版.北京:清华大学出版社,2003:109-110[4]罗庭芝.网络信息分类法研究[J].河南图书馆学刊,2007,27(6):24[5]
许磊.试论网络信息分类法的构建[J].图书馆学研
究,2002(3):37
11