_网络信息检索与利用
(一)因特网上的信息资源(次重点)
网上有什么样的信息:政府信息、科研信息、教育信息、文化信息、休闲娱乐信息。
网上不太可能有的信息:如有并企业公司的战略、发展规划,商业、贸易秘密;商业性库和大多数有版权的印刷资料等。
因特网上信息资源的特点及信息利用价值
因特网信息的特点:无限性和广泛性,多样性,共享性,新颖性,无序性。
因特网信息的优越性:价廉,新颖、深入,广泛直接交流,非正式和自由发表园地。(二)因特网上信息资源的种类(重点)
因特网上信息资源的主要类型有以下五种:
(1)Web 信息资源
指建立在超文本、超媒体技术的基础上,集文本、图形、图象、声音为一体,并以直观的图形用户界面展现和提供信息的网络资源形式。
(2)Telnet 信息资源
指借助远程登录(remote login),在网络通信协议Telnet(telecommunication network protocol)的支持下,在远程计算机上登录,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问、使用远程计算机中对外开放的资源。
(3)FTP 信息资源
FTP(file transfer protocol) 是因特网使用的文件传输协议。该协议的主要功能是完成一个系统到另一个完整的文件拷贝。即在因特网的联网计算机之间传输文件。
(4)用户服务组信息资源
由一组对某一特定兴趣的网络用户组成的电子论坛。如新闻组(usenet newsgroup)、邮件列表(mailing list)、专题讨论组(discussion group)、兴趣组(interest group)、辩论会(conference)等等。
(5)RSS信息资源
RSS是一种用于共享新闻和其他Web内容的数据交换规范,是将用户订阅的内容传送给他们的通令协同格式。
2、因特网信息资源的评价标准
(1)目的
(2)范围
(3)内容:准确性、权威性、新颖性、独特性、可靠性、图形和多媒体设计、信息的展示与设计、可操件性。
3、评价方法
(1)定性评价
按照一定的评价标准对被评站点的各方面特征、质量作出主观评判。一般有问卷调查、专家评议等方式。
(2)定量评价
是利用数量分析方法,对调查统计数据进行分析,进而做出较系统、客观的评判。 定量评价主要从以下途径进行:从网页的URL中得到信息;查看网站首页描述;从超级链接中获取信息;参考他人评价。
1、识记:因特网信息资源的评价标准和评价方法,定性评价和定量评价的定义。
2、理解:对因特网信息资源进行评价的意义。
3、应用:任选一网站,对其信息资源进行评价。
与传统信息检索方式相比,因特网信息检索的主要特点是:
(1) 检索范围大
(2) 检索效率高
(3) 检索工具强大
(4) 信息冗余大
因特网信息检索的方法主要有两种:基于浏览的检索方式和基于关键词的方式。
1、基于浏览的检索方式
包括不依靠任何检索工具的浏览和借助检索工具的浏览。
(1)不依靠任何检索工具的浏览
顺链而行:此为在因特网上发现和检索信息最原始的方法,即在日常的网上漫游过程中,随机地发现一些有用的信息。
收藏网址:个人用户在上网浏览的过程中将一些常用的站点地址记录下来,组织成目录以备今后之需。
不依靠任何检索工具的浏览方式,适合以下几类信息检索的目的:延伸已有信息范围;跟踪新信息;网上信息调研;好奇心驱使;消遣性浏览;享受浏览经验。
(2)借助检索工具的浏览
借助以Yahoo为代表的网络资源目录。
(3)基于浏览的检索方式的特点
优点:能够针对具体任务或问题找到相关信息;方便对检索到的结果信息进行筛选;在检索过程中,能够使用不太明确的信息需求得以清晰化;有时能获取一些意外信息;容易使用突破本学科领域的界限,获取跨学科、跨得业信息;利于多媒体信息的检索。
缺点:用户获取信息的偶然性大;检全率较差;易出现信息迷航。
2、基于关键词的检索方式
(1)基于关键词的检索的工具:最具代表性的是搜索引擎,如google。
(2)基于关键词检索的特点
优点:检索简单易得,利于上手;检索到的信息较新,时效性好;可以达到较高的检全率;符合检索语言的文献保障原则和用户保障原则。
缺点:关键词语言难以反映词间的相关关系;分散主题,影响查准率;自动标引无法完全解决标引不一致的问题。
(3)常用的关键词高级检索功能
主要的功能有:布尔逻辑检索、截词检索、位置检索、加权检索、词组检索、范畴检索(限制检索)、概念检索、模糊检索、深入检索
①布尔逻辑检索(boolean logic)
所谓布尔逻辑(又称布尔代数),是指使用AND、OR或NOT 等运算符查找含有某种词语特定组配形式的那些网页(记录)。
逻辑“与”
用AND(或+)表示。A AND B (A+B) ,网页记录中必须同时包含A、B两个词。 逻辑“或”
用OR表示。A OR B ,表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。
逻辑“非”
用NOT (或-)表示。A NOT B (A-B),表示被检索文献在含有检索词A而不含有检索词B时才能被命中。
②截词检索
检索时输入检索词的局部(词干)进行非准确性检索匹配。主要用于西文检索工具。 ③位置检索(靠词检索)
运算符NEAR 可以容许两个词相距一定的距离,有时还可以由用户来规定它们之间的距离。 ④词组检索
词组检索是一个词组(通常用双引号“”括起)当作一个独立运算单元,进行严格匹配,以提高检索的精度和准确度,它也是一般数据库检索中常用的方法。
⑤范畴检索
是指将检索限制在记录的一个特定部分或几个部分的能力。
一些有用、经常遇到的范畴下:
Title(网页标题)
Links(链接)
Date
URL
图像和其他媒体
特殊检索功能
网络信息检索工具的原理
(1)网页抓取
(2)文档分析
(3)建立索引
(4)文档表示
(5)归类和聚类
(四) 因特网检索工具的性能评价(次重点)
网上信息检索工具的评价主要从5个方面进行。
1、收录范围
从网络信息检索系统的数据量、收录项目、索引深度、新颖性及更新频率、索引建立方式、处理语言等方面进行评价。
2、检索功能
从检索方式单一还是多样;所使用的检索技术是否先进、多样;对所查信息是否有选择与限定的自由这三方面来评价。
3、 检索效率
目前较广采用的信息检索指标是检索全率与检准率。
4、检索结果的处理和展示
5、用户界面设计
用户接口的设计是评价检索系统一个重要的因素。
(一)搜索引擎发展简述(一般)
所有搜索引擎的祖先是1990年由蒙特利尔大学的学生Alan Emtage、Peter Deutsch等人发明
的Archie,用于检索FTP文件。
1994年4月出现第一个搜索引擎--Webcrawler,同年,Lycos是搜索引擎史上又一个重要进步,是最早具有现在意义的搜索引擎,发布于1994年7月。
1995年AltaVista和Excite问世
1996年HotBot出现
1997年Northen Light 出现
1998年Google 问世。
(二)通用搜索引擎(重点)
通用搜索引擎是相对于专业搜索引擎而言。通用搜索引擎是一种“大众资源”,试图为每个人提供所有的信息信息。通用搜索引擎使用方便,对信息查询反应迅速。
介绍国外著名搜索引擎:
Google www.google.com
Alltheweb www.alltheweb.com
Ask Jeeves www.ask.com
MSN www.search.msn.com
Lycos www.lycos.com
AOL http://search.aol.com
Excite www.excite.com
Altavista www.altavista.com
Go www.go.com
介绍国内著名搜索引擎:
百度 www.baidu.com
中国搜索 www.zhongsou.com
3721 www.3721.com
天网 http://e.pku.edu.cn
对各个搜索引擎从以下3个方面来进行详细介绍:
(1)数据库规模与范围。例如:Google到2004年2月宣布它拥有世界上最大的搜索引擎数据库,标引了大约43亿左右的文本文档。Google的信息门类也非常介全。除普通的网页数库以外,它还拥有一个图像数据库和一个新闻数据库等。
(2)检索界面
包括搜索引擎首页的特点和结构,高级搜索的入口。
(3)检索功能
检索功能首先要了解搜索引擎是否支持布尔逻辑检索功能。以Google为例,Google支持不完全的布尔逻辑。在检索框中输入的所有检索词,Google会自动以AND逻辑连接;Google也支持OR逻辑操作,但注意在进行“或”操作时OR逻辑操作符必须大写。除布尔逻辑功能,还考察搜索引擎是否具有词组检索、截词检索和范畴检索的功能,其中范畴检索对哪些范畴进行了限制。
1、目录型网络检索工具原理
因特网上的目录型检索工具一般称为网络目录(Web Directory),它是由网络开发者将网络资源收集后,以某种分类法进行组织整理,并和检索法集成一种可供分类浏览和检索的等级
结构式目录。网络目录一般是通过引导网络用户的查询概念来帮助用户找到所需的网络信息。
2、目录资源的收集和分类
(1)收集
网络目录一般采用人工或半自动方式采集和存储网络信息。
(2)分类
网络目录通常是按网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干领域的主题范畴,然后再细分为各学科专题目录,最后列出具体的相关网站(资源),形成一个由信息链组成的树状结构,即总目—— 专题目录—— 链接—— 文本。
目录资源的收集和分类优点是人工方式建立的查询工具其检索信息的准确性较高;缺点是收集信息的效率及全面性低于自动方式。目前,部分网络资源目录利用自动功能或者由用户递交的方式来丰富和补充资源。
3、网络目录结构
一个网络目录包括许多层,最高层(一级)目录页总是将因特网资源分成最大范围、最普通的主题范畴。主题链接到第二层目录(另一个页面),然后在第二层目录再分出子目录,一般到第四级。
4、网络资源目录分类方法
(1)主题分类法
一个主题充当一个类目,类目象主题词表一样按字顺排列,一个类目又可分为若干细目,同位类的细目也是按字顺排列。
主题分类法的优点是以事物分类, 与些事物相关的内容全部集中在一起;对交叉学科的主题提示非常有利。缺点是此分类法容量小, 对网络资源的覆盖率极为有限。
(2)学科分类法
以知识分类为基础、按照学科性质及从属、层次关系来组织网络资源,类目排序以字顺为标准。
学科分类法按照学科性质来组织网络资源。比主题分类法有更大的容量,内容更有针对性,学术性,符合研究人员的要求。
(3)图书分类法
网上的虚拟图书馆多用图书分类法,目前采用的主要有杜威十进分类法(DDC)、国际十进分类法(UDC)、国会图书馆分类法(LCC)和中国图书馆分类法。
图书分类法的特点是:以科学体系为基础,体系宠大,容量上占优势; 网络用户对其了解较多;版本更新及时,能满足动态的网络信息分类;有机读版本,网络资源目录可以直接套用。
(4)分面组配法
这种分类法的原理首先确定几个分类标准,即分面,再确定每个分类标准中的若干特征值,即类目,每一分面的类目与其他分面的类目分别再组配,形成许多组配类目,达到细分的目的。多用于地图检索专业工具。
(二) 网络资源目录介绍(次重点)
国外著名的网络资源目录
Yahoo! , Galaxy, VL, BUBL LINK, Dmoz, LII
国内著名的网络资源目录
雅虎中国,搜狐分类目录,新浪分类目录
重点了解Yahoo! , Galaxy, VL和BUBL LINK的特点和使用方法。
1、Yahoo! www.yahoo.com
1994年创建,是最早最著名的目录型网络检索工具,也是最流行的网络资源目录。
收录范围包括网站、Web页、新闻组、FTP等资源。在专题安排上,即包括了学术资源,也包括了大量的非学术资源和许多娱乐资源。
分类特点以主题为基础。
具有关键词检索功能
评价:目录分类比较合理,层次深,类目设置好,克服单纯由搜索软件动完成分类的缺陷,增强分类的条理性。它的分类体系和搜索模式对网络检索的发展产生了巨大的影响。
2、Galaxy www.galaxy.com
编制:1994年创建。最初动因是开发用于电子商务的大型目录指南服务。
目录特点:其目录链接了因特网上的数千个站点,它不但提供分类目录查询,也具备一定的检索功能
主题递交:通过表格操作向该服务器提交增补主题内容的建议。
评价:由专家使用人工智能等最佳技术组织信息,目录分类更加细致合理。
3、The www Virtual Library (VL) www.vlib.org
编制:VL是老资格的Web目录,由松散的志愿者联盟来管理和维护。
收录范围:主要收集各学科专业领域网络信息。
目录特点:参照美国国会图书馆主题词表对网页加以组织。
检索方法:主要通过目录的导引和浏览,检索者最终调出不再含任何链接的文献类文本。 评价:该系统称得上是专业性网络信息资源目录的集大成之作。在世界范围内影响广泛,内容不得经常更新,具有很高的学术性。
4、BUBL LINK,http://bubl.ac.uk/link
编制:源于1990年,目前发展成为英国一项重要的国家网络信息服务,主要为高等教育团体服务。
收录范围:覆盖了所有学术领域的经过选择的网络资源目录。目录按照杜威十进分类法(DDC)的体系组织编排。
检索功能:按DDC 分类浏览;按主题字顺浏览;输入检索词检索。
评价:目录体系庞大,用户检索容易、快捷,查找的结果更相关。
网络资源目录与搜索引擎适用不同的检索需求。
网络资源目录主要适用于:用户进行较宽泛的主题浏览和检索;用户尚未形成很精确的检索概念时。
与搜索引擎比较,网络目录具有下列的特点:网络目录中的网页是由专家人工精选得来的,故网页内容丰富,学术性强;分类浏览方式直观易用,适合多数网络用户和新手;当用户检索目的不明确,检索词不确定时,分类浏览方式更为有效;有较高的查准率。
网络资源目录的局限是:受人工标引的限制,搜索范围较搜索引擎要小许多;收录的网页数量和标引浓度相对不足;难以控制主题等级类目的质量。
理解:网络资源目录与搜索引擎相比具有的优缺点。
(一)元搜索引擎概述(重点)
元搜索引擎的概念
元搜索引擎(metasearch engine ,megasearch engine 或 unified search engine) 又称为集合式搜索引擎。它是将多个搜索引擎集成在一起,并提供一个统一的检索界面。
2、元搜索引擎的分类
元搜索引擎按运行方式的差异可以为桌面元搜索引擎和在线搜索引擎,其中前者的代表是各类搜索软件,而后者按照功能又可以划分为All-in-One式元搜索引擎和并行检索式元搜索引擎。
桌面元搜索引擎
不是通过网上调用方式在线使用,而是直接在用户的计算机上运行,相当于用户自己拥有一个元搜索引擎。
(2)All-in-One式元搜索引擎
又称搜索引擎元目录,它将主要的搜索引擎集中起来, 并按类型或按检索问题等编排组织成目录,帮助、导引用户根据检索需求来选择适用的搜索引擎。
(3)并行检索式元搜索引擎
将多个搜索引擎集成在一起,提供一个统一的检索界面;且将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。因而又被称为simultaneous unified search index (SUSI)。
3、元搜索引擎的特色和评价
目前运营的元搜索引擎各具特色,功能各有侧重,完全理想的尚不多见。评价一个元搜索引擎主要从4个方面进行。
(1)所集成搜索引擎的数量和名称
(2)检索提问的输入及处理
(3)其他检索选项,如等侯时间、检索作业方式和其他检索参数等。
(4)检索结果的处理
4、元搜索引擎的主要缺欠
(1)常常严格限制从别的个别搜索引擎检索到的记录的数量(有时只有10项)
(2)检索式过于复杂时难以进行转移
(3)在多数情况下,对五大搜索引擎,它们只能检索其中的两三个.
5、元搜索引擎的适用性
通常在下列几种情况下比较适合使用元搜索引擎
(1)在查询极不明确时
(2)想检索的感兴趣的网站少于10个时
(3)检索只使用一个单词或词组时
(4)搜索的记录多数出现在较小的搜索引擎上时
1、常用的桌面元搜索引擎
目录国内比较流行的桌面元搜索引擎有飓风搜索通和网际狂搜,可由网上下载。
2、常用的All-in-One式元搜索引擎
比较有代表性的All-in-One式元搜索引擎有
iTools,www.itools.com
Hotbot,www.hotbot.com
CUSI,www.usask.ca/cusi/cusi.html
3、常用的并发式元搜索引擎
Dogpile,www.dopile.com
Vivisimo,www.Vivisimo.com
MetaCrawler,www.metacrawler.com
Profudfsion,www.profusion.com
搜星, www.soseen.com
1、图像检索的原理
(1)基于文本的图像检索技术
该技术是利用文本方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。这种技术目前在因特网图像信息检索系统中占主导地位。
用来帮助图像分析、标引的Web文档内容包括:
图像的文件名及其网址;
图像的替代文字;
图像周围的文字;
图像所在页面的标题;
图像的超链接;
图像所在网页彼此间的链接。
(2)基于内容的图像检索技术
对图像的内容语义,如图像的颜色、纹理、布局等进行分析和检索的图像检索技术。此技术出现于20世纪90年代初期。该技术用于因特网图像信息的检索克服了基于文本的图像检索技术存在的缺陷。
2、基于文本的图像搜索引擎
(1)Images.google.com
容量大、速度快、无用信息和死链接较多。
检索方法:一般搜索和高级搜索。
结果显示:缩略图。
(2)AllTheWeb 多媒体搜索
一流的多媒体搜索功能,收录了图像、音频、视频等多种。
检索方法:提供一般检索和高级检索。在高级检索界中可以选择文档大小和颜色来进行限制检索。
结果显示:一次检索结果提供缩略图
还有其他比较有代表性的图像搜索引擎,如
http:// Gallery.yahoo.com
www.picsearch.com
www.ditto.com
Image.baidu.com
3、基于内容的图像搜索引擎
基于内容的图像搜索引擎还处于研制阶段,目前属于真正意义上的基于内容的图像搜索引擎还不是很多,比较有代表性有:
QBIC,www.qbic.almaken.ibm.com
VisualSEEK 的 WebSEEK, http://persia.ee.columbia.edu: 8008/
1、 音频文件检索原理
音频检索比较简单的办法是把音频作为一种不透明的数据集合来处理,仅涉及它的文件名、文件格式和采样等外部特征。这种方法和基于文本的图像检索是相似的。
用基于外部特征方法来实现歌曲的检索,在实际应用中取得了很好的效果,但它的局限性在于,它只适合歌曲检索,而对其他类型的检索要求就无能为了,比如用户要根据一体贴曲子的旋律片断来找整曲以及其他旋律相似的曲子,这种检索方式就无法解决了。基于内容的音频检索系统可以解决这一问题。
基于内容的音频检索主要包括的检索方式有:基本属性检索、相似性、声音/感知特性检索、主观特性检索、示例检索。
2、 基于文本的音频搜索引擎
Mp3.com,www.mp3.com
CNET Download.com,download.com
Kazaa Media Desktop (MP3 only),www.kazaa.com
音乐极限,www.chinamp3.com
3、基于内容的音频搜索引擎
上海交通在学音乐数据库检索系统
ThemeFinder,www.themefinder.com
(一)综合性学术信息检索系统(重点)
1、国外检索系统
(1)ISI Web of Knowledge,isiwebofknowledge.com
该系统由美国 Thomson Scientific 创建,收录文献类型有学术期刊、技术专利、会议录、化学反应、研究基金及网站资源等。收录学科范围有自然科学、工程技术、社会科学、艺术与人文科学信息资源。
该系统的检索功能提供跨库联全检索和资源无缝整合两大功能。在检索技巧上,ISI Web of Knowledge 在大小写、运算符、通配符、括号的检索途径规则与通用规则方面基本相同。
(2)OCLC的FirstSearch检索系统
FirstSearch是由美国OCLC创建的。OCLC( Online Computer Library Center,INC) 是一个非赢利,成员制的在线计算机图书馆服务和研究机构,也是世界上最大的文献信息服务机构之
一。包括期刊论文、图书、专利、政府报告、报纸、学位论文、会议论文、视频音频等文类型。学科范围包括艺术和人文学科,工程和技术等综合性学科。目前通过该系统可检索70多个数据库,其中30多个可检索到全文。
(3)Proquest,www.il.proquest.com/umi/
该系统由美国ProQuest Information and Learning Company创建和开发。收录文类型包括期刊论文和报纸,收录学科范围广,涵盖艺术与人文、工商业、计算机与因特网、经济与贸易、教育、科学与数学等。
(4)EBSCOhost
该系统收录学科范围为综合性。文献类型包括期刊、报纸、参考工具、网络资源等。
(5)Springer Link,www.springerlink.com
收录学科主要是理工科类。收录文献类型有电子期刊、电子书、电子丛书、多媒体。
2、中文检索系统
(1)CNKI平台,www.cnki.net
收录范围包括自然科学、工程技术、人文与社会科学等。收录文献类型有期刊、博士硕士论文、报纸、图书、会议论文。
(2)NSTL网络服务系统,www.nstl.gov.cn
(3)CSDL,www.csdl.cn
(4)CALIS,www.calis.edu.cn
(二)各学科信息资源的获取(一般)
1、社会科学信息资源检索工具
(1)Social Science Information Gateway (SOSIG), http://sosig.esrc.bris.as.uk
(2)社会科学研究网 Social Science Research Network (SSRN), http://www.ssrn.com
2、教育信息检索工具
(1)ERIC Web Site —— ERIC 数字图书馆 www.eric.ed.gov
(2)The Educator’s Reference Desk,www.eduref.org
(3)College Net,www.collegenet.com
(4)Peterson,www.petersons.com
3、经济学信息检索工具
(1)EconWPA,http://econwpa.wustl.edu
4、工程技术信息检索工具
(1)Ei Village2,www.ei.org
(2)中国工程技术信息网(CETIN), www.cetin.net.cn
(一)网上参考信息定义和类型(次重点)
批人名、地名、机构、事件、统计数据等一类数据、事实信息,是人们在工作研究和目常生活中经常要查考、引用的信息。
网上参考信息源的主要类型:百科知识检索网站、人物信息检索网站、地理信息检索网站、时事、新闻信息检索服务、机构信息检索网站、语词信息检索网站、统计信息检索网站。
(二)各类型网上参考信息源的代表网站 (一般)
1、不列颠百科全书网站(Encycolpedia Britannica Online),www.britannica.com
2、Marquis Who’s Who, www.marquiswhoswho.com
3、Mapblast,www.mapblast.com
4、Google news, http://news.google.com
5、World of learning online, www.worldoflearning.com
6、Dictionary.com,http://dictionary.reference.com
7、UNESCO Institute for Statistics,www.uis.unesco.org