文本挖掘综述
科技信息
0IT论坛oSCIENCE&TECHNOLOGYINFORMATION2009年第33期
文本挖掘综述
杨霞黄陈英
乐山(乐山师范学院四川
614004)
【摘要】文本挖掘是对一个非结构化文本信息进行分析从而获取用户关心或感兴趣,有潜在实用价值知识的过程。本文首先介绍了文本挖掘的定义和研究现状,之后文本挖掘一般处理过程,着力于文本分类和文本聚类的一般过程,最后展望了今后的研究目标。
【关键词】数据挖掘;文本挖掘;文本分类;文本聚类
TheOverviewof
Text
Mining
Technique
YANGXiaHUANGChen-ying
(LeshanNormalUniversity,SichuanLeshan614004)
collections.First,itintroducethe
importantin
【Abstract]Text
anddeveloping
thefeatureofChinese
Miningisprocessofextracting
out
interestingknowledge
form
large
linguisticsemantic
text
concept
ofData
Mining.Then
textmining
point
TextMining
and
itsstatus,Textclassificationandclustering
text
are
this.Intheend,itshows
andhighlightingthe
upcoming
Challengesof
mining
【Keywords]Data
mining;Textmining;Text
classification;Textclustering
O.引言
数据挖掘(DataMining)。就是从大量数据中获取有效的、新颖的、
潜在有用的、最终可理解的模式的非平凡过程。数据挖掘,又称为数据库中知识发现KDDfKnowledgeDiscoveryinDatabase),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘可以与用户或知识库交互。
面对因为网络的飞速发展而带来的“信息膨胀”,尤其是以半结构化或非结构化的文本信息为主的信息,人们迫切需要研究出方便有效的工具去从中提取符合需要的、简洁的、精炼的、可理解的知识,文本挖掘TM(TextMining)因此产生。
常见的文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。在这里主要介绍文本分类与文本聚类:
2.1文本分类的处理过程
文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程。它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射。因为通常一篇文本可以同多个类别相关联。
文本分类是一种典型的有教师的机器学习问题,一般分为训练和分类两个阶段,具体过程如下:
训练阶段:
1.文本挖掘概述
1.1文本挖掘的定义
文本挖掘是近几年来数据挖掘领域的一个新兴分支,文本挖掘也称为文本数据库中的知识发现,是从大量文本的集合或语料库中抽取事先未知的、可理解的、有潜在实用价值的模式和知识【l】。对文本信息的挖掘主要是发现某些文字出现的规律以及文字与语义、语法间的联系,用于自然语言的处理,如机器翻译、信息检索、信息过滤等,通常采用信息提取、文本分类、文本聚类、自动文摘和文本可视化等技术从非结构化文本数据中发现知识。
1.2文本挖掘的国内外研究现状
国外对于文本挖掘的研究开展较早,50年代末.H.P.Luhn在这一领域进行了开创性的研究,提出了词频统计思想用于自动分类。1960年,MaronE≈发表了关于自动分类的第一篇论文,随后,以K.Spark,G.Sahon以及K.S.Jones等人为代表的众多学者也在这一领域进行了卓有成效的研究工作。目前,国外的文本挖掘研究已经从实验性阶段进入到实用化阶段.著名的文本挖掘工具有:IBM的文本智能挖掘机[31、Autonomy公司的ConceptAgents、TelTech公司的TelTech等。
但是.国内正式引入文本挖掘的概念并开展针对中文的文本挖掘研究是从近几年才开始的。目前看来。我国文本挖掘研究还处在消化吸收国外相关的理论和技术与小规模实验阶段.瓶颈在于国内文本挖掘处理的是汉语文本,在进行文本挖掘方法时必须适应汉语重“意合”的特点,结合文本上下文来获取文本的完整“语义”。
(1)获取训练文本集S=(8lI.一,S∥一,S。}:iJil练文本集由一组经过
预处理的文本特征向量组成,每个训练文本(或称训练样本)有一个类别标号e.,类别集合C=(olI.一,Ci,.一,C。)事先定义好;
(2)选择分类方法并训练分类模型:文本分类方法有统计方法、机器学习方法、神经网络方法等等。统计训练集S中所有文档的特征向量V(s.),确定代表c中每个类别的特征向量V(c;);
分类阶段:
(3)用训练好的分类模型对其他待分类文本进行分类:计算测试文档集T=(dl'.一,d。,…,d,】的特征向量V(d。)与每个V(c;)之间的相似度sim(d。,C.);
(4)根据分类结果评估分类模型:选取相似度最大的一个类别argmaxsim(dk,ci)作为dk的类别。
2.2文本聚类的处理过程
文本聚类是一种典型的无教师的机器学习问题。目前主要的文本聚类方法包括以BIRCH等算法为代表的层次化聚类算法[51和以k—means等算法为代表的划分式聚类算法【日。
这里以层次化聚类算法为例,说明文本聚类的处理过程。
对于给定的文档集合D={dl,.一,d,,…,d。)层次化聚类算法的具体过程如下:
(1)将D中的每个文档d;看作是一个具有单个成员的簇C;=(di),这些簇构成了D的一个聚类C=(ol,.一,Ci,’‘,C。);计算C中每对簇(C。,C;)之间的相似度sim(d。,e,);
(2)选取具有最大相似度的簇对argmax(c,,Cj),其中c,,c;∈C,并将C;和c.合并为一个新的簇C。=c.uC.,从而构成了D的一个新的聚类
2.文本挖掘一般处理过程
文本挖掘过程由文本预处理、特征提取、文本分类、文本聚类等步骤组成。图1给出了文本挖掘的一般处理过程。
文本预处理分词特征提取
o《
图1
C’={。1,。一,c.1);
挖掘分析
文本结构分析
(3)重复上述步骤,直至剩下一个簇为止。
而划分式聚类算法运行速度较快,但是必须事先确定的取值,且种子选取的好坏对聚类结果有较大影响。两种算法各有所长,其中划分式具有较高的执行效率,而层次化在算法上比较符合数据的特性。能否结合两种聚类思想更有效的对文本聚类,还有待于进一步研究。
3.结语
(下转第99页)
文本摘要
文本分类文本聚类
文本挖掘过程图
科技信息
OIT论坛o
SCIENCE&TECHNOLOGYINFORMATION
2009年第33期
WRlCLRMOVDJNZRRCMOVMOVDJNZSETBNOPDJNZSETBRET
P3.4R3.#6R3.¥AP3.4,CR3搿23R3,¥P3.4
DIVAB
MOVMOVMOVMOVMOVCMOVCLRSETB
30H.A3lH.BA-30HDPTR.冉SGTBA.@A+DPrRP0.AP3.1P3.OP3.2P3.3YS4722U
A.31H
;显示温度十位值
R2.WRlP3.4
SE7rBSETBLCALLMOVMOVMOVCMOVCLRSETBSETBSETB
:~一从DSl8820中读温度数据程序
REl8820:MOV
MOV
RE00:RE01:
MOVCLRSETBNOPNOPCLRNOPNOPNOPSETBMOV
REl0:
DJNZMOVMOV
RE20:
DJNZRRCDJNZMOVDECDJNZ
RET
R4.拌2
DPm.霜lSGTB
A.@A+DPIRP0.AP3.2P3.OP3.1P2.3YS4722UA.#01000l10BP0.AP3.3P3.O
P3.1
R1岸2FHR2.样8CP3.4
:显示温度个位值
P3.4LCAIJIJMOVMOVCLR
;显示温度符号
P3.4R3.#09R3.REl0C.P3.4R3搿23R3。RE20
A
SETBSETBSETBLCALLRET
P3.2Y¥4722U
;}¥}}#}}48位共阳数码管显示器字型码表¨¥¨{十}十}}¥}
SGTB:DBOCOH,OF9H,OA4H,OBOH,99H,92H,82H,OF8H,80H,90H
DB88H,83H,0C6H,OAlH,86H,8EH,89H,OA3H,8CH,OC8H
YS4722U:MOVY3:
MOVDJNZDJNZRET
R2,RE01@R1.A
R1
R4'彝10;延时子程序
R5,#216R5,¥R4.Y3
R4,RE00
显示子程序
DISP:
MOVMOVRRCMOVRRCMOVRRCMOV
RRC
A.2FHC.70HAC.7lH
A
ENDe
【参考文献】
[1]陈文芗.单片机原理与应用【M】.北京:机械工业出版社,2001.
[2]卢艳军.单片机基本原理及应用系统【M】.北京:机械工业出版社,2005.[3]王庆利,袁建敏.单片机设计案例实践教程(MJ.北京:北京邮电学院出版社,
2008.
C.72H
A
C.73H
A2FH.A
作者简介:晏文靖(1981一),女,汉族,湖南新化人,讲师,2005年在南京邮电学院计算机与科学技术系获硕士学位。主要研究方向为嵌入式系统软件开发与网格计算。任职于无锡商业职业技术学院。
MOVMOVMOV
A.2FHB.#10
【责任编辑:张艳芳]
(上接第82页)文本挖掘是一个崭新的人工智能研究方向。近年来研究人员提出了许多的理论和具体的挖掘算法,但还没形成统一的理论体系,大部分的算法还不成熟,存在一定的缺陷,需要进一步的研究和完善。随着文本挖掘技术的不断完善,其应用领域也会不断
[3]蒋良孝,蔡之华.文本挖掘及其应用叨.现代计算机,2003(2),31.4]Wmet
P.Recent
trends
in
hierarchical
document
clustering:Acritical
review
[J1.InformationProcessingandManagement,1988,24:577—597.
[5]朱红灿,孟志青.一种基于SOM和层次凝聚的中文文本聚类方法叨.电子学报,2005,27(3):36-38.
[6]任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值
增长。口
【参考文献】
[1]Feldman
R,Dagan
the
算法叨.计算机应用,2006,26(1):73—75.
Textual.Databases[C】//
Discovery
and‘Data
I.KDT--Knowledge
Annual
Discoveryin
on
作者简介:杨霞(1977~),女,硕士,主要研究方向为数据挖掘、中文信息处理。
黄陈英(1975一),女,硕士,主要研究方向为数据处理、教育技术。
Proceedingsof
1stConference
Knowledge
Mining,1995:112—117.
[2]Maron,M,E.et【J].J0umal
ofthe
a1..On
relevanceprobabilistieindexingandinformationRetrieval
ACM,1960(7):216—244.
[责任编辑:张慧]
文本挖掘综述
作者:作者单位:刊名:英文刊名:年,卷(期):引用次数:
杨霞, 黄陈英, YANG Xia, HUANG Chen-ying乐山师范学院,四川,乐山,614004科技信息
SCIENCE & TECHNOLOGY INFORMATION2009,(33)0次
参考文献(6条)
1. Feldman R. Dagan I KDT-Knowledge Discovery in Textual.Databases[期刊论文]- 1995
2. Maron,M,E On relevance probabilistic indexing and information Retrieval[期刊论文]-Journal of theACM 1960(7)
3. 蒋良孝. 蔡之华 文本挖掘及其应用[期刊论文]-现代计算机 2003(2)
4. Willet P Reeent trends in hierarchieal document elustering:A critical review[期刊论文]-Information Processing & Management 1988
5. 朱红灿. 孟志青 一种基于SOM和层次凝聚的中文文本聚类方法[期刊论文]-电子学报 2005(3)
6. 任江涛. 孙婧昊. 施潇潇. 黄焕宇. 印鉴 一种用于文本聚类的改进的K均值算法[期刊论文]-计算机应用 2006(z1)
相似文献(10条)
1.学位论文 杨斌 中文文本数据挖掘研究 2002
随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在.这样,文本挖掘(Text Mining)作为数据挖掘的一个新主题而出现,引起了人们极大的兴趣,同时,它也是一个富于争议的研究方向.国内中文文本挖掘(CTM,Chinese Text Mining)的研究刚刚开始,面向中文语料的文本挖掘目前还没有像样的系统,还存在许多问题亟待解决.文中,我们对此进行了研究.首先,我们从理论上对文本挖掘进行了探讨.我们在数据挖掘概念的基础上进行扩展,给出了文本挖掘的定义,通过分析其特点,描述了中文文本挖掘的处理过程,继而从功能上对文本挖掘进行分类,这样便能从整体上理解文本挖掘.其次,通过分析现有的文本分类技术,从文本挖掘的角度研究了中文文本的分类问题,包括中文的分词、特征提取、特征匹配等问题,设计了文本分类系统(STCS).然后,我们将传统的关联规则引入文本领域,给出了文本关联规则的定义,文本关联查询语言及其范式表示,在Aprior算法和IMAARC算法基础上提出了文本关联规则开采算法MATA.最后,我们论述了文本挖掘的2个应用.
2.期刊论文 薛为民. 陆玉昌. XUE Wei-min. LU Yu-chang 文本挖掘技术研究 -北京联合大学学报(自然科学版)2005,19(4)
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望.
3.学位论文 陈琦 基于XML的文本挖掘技术研究与在电子政务中的应用 2006
随着互联网应用的飞速发展,文本数据库得以迅速增长,人们迫切需要有效的数据挖掘工具从海量文本数据中提取有价值的知识。基于XML的文本数据挖掘为从海量文本数据提取知识提供了有效的方式。XML文档是一类半结构化的有别于一般文本文档的文档,因此针对XML文本的挖掘技术成为一个独特且有迫切需求的课题。
另一方面,随着电子政务的进一步发展,政府部门内部及政府部门之间产生了大量政务信息。经过前两年电子政务基础资源的大规模建设,海量政务信息资源挖掘和电子政务知识管理等深层次应用正逐步进入电子政务舞台,对电子政务实施数据挖掘将成为政府信息化的一个新的研究方向。 本文以某地区工业园区的电子政务系统开发工作为背景,主要工作研究内容如下所示:
(1)研究XML技术,分析XML文档的特点及优势。同时探讨了数据挖掘和电子政务的基本技术和概念。 (2)在分析文本挖掘技术和XML文档数据处理的基础上,研究基于XML的文本挖掘技术。
(3)结合某地区工业园区电子政务系统项目的开发工作,给出基于XML的文本挖掘系统,建立了在电子政务中XTMS模型结构和功能结构。并且针对XTMS需要解决的主要问题,给出电子政务中XTMS关键模块的设计,包括数据采集和数据集成、半结构化数据处理以及对电子政务中的XML数据集进行文本挖掘。
(4)给出XTMS的系统实现。
4.会议论文 王继成. 孙颖. 张福炎 文本挖掘-数据挖掘研究的新课题 1999
在文档充斥的情况下,文本挖掘作为一个新的研究方向,引起了各个瓴域的巨大兴趣。目前,文本挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者开展更多的讨论以进行准确地定义。该文对文本挖掘技术的定义,过程,功能和方法作了初步系统性的探讨,介绍了文本挖掘的应用,并提出了未来的研究方向。
5.学位论文 张兆中 WEB文本挖掘的聚类分析 2005
数据采集和存储技术的进步导致庞大的数据库日益增多,从这些数据中提取出有价值的信息,成为人们日益关心的问题,而且已经形成了一门学科,成为“数据挖掘”。如果仅涉及到很小的数据集,那么就可以仅仅讨论统计学家们所使用的标准数据探测和分析方法了。数据挖掘所分析的经常是庞大的数据集。聚类和分类同是数据挖掘的重要内容。
文本是存储和交换信息的最自然的方式,文本挖掘具有非常重要的现实意义。文本挖掘所要处理的数据规模更大,因而使得许多对数据库中数据挖掘很有效的聚类算法,对于文本挖掘变得不可行。规模的增大,要求算法必须能够增量的执行,因为没有可能将数据一次调入内存处理。另外这对算法的效率也提出了苛刻的要求。同时,Web的文本数据是不断增长的,新的信息类型不断出现。算法必须有能力在不完全重新分析已有数据的情况下,增量处理新的数据,更新聚类结果。
通过对以Web文本数据为代表的高维数据特点的分析,认识到传统的聚类技术在这里面临许多新的困难。本文尝试以概率理论特别是贝叶斯方法为主
数据测试和不同算法的对比分析,算法显示出了较好的性能。
6.学位论文 唐明珠 形式概念分析和本体在文本挖掘中的应用 2008
面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识,目前已成为信息技术领域研究的热点问题之一。数据挖掘就是为解决这一问题而产生的研究领域。由于现实生活中绝大部分信息资源是以非结构数据的形式存在,而数据挖掘则普遍以结构化数据为对象,因此对非结构化信息进行挖掘成为数据挖掘之后出现的又一重要课题。
在常见的非结构化数据中,文本数据是应用最为广泛的一种形式。常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广泛的应用,因此具有更高的商业价值。
形式概念分析是德国学者Wille于1982年首先提出的一种数学理论,概念格结构模型是它的核心数据结构。概念格本质上描述了对象和属性之间的联系,表明了概念之间的泛化和例化关系。目前形式概念分析已被广泛地研究,并应用于机器学习、信息检索和软件工程等领域。
本体是共享概念模型的形式化规范说明。本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。
本文以文本数据为研究对象,以形式概念分析和本体为工具,研究了文本挖掘中的文本特征提取、文本聚类、文本分类等问题。 本文的研究工作和创新包括以下两个方面:
(1)文本聚类是文本挖掘中的一种重要方法。基于形式概念分析和概念相似度,给出了一种新的多背景文本模糊聚类方法和模型。该方法不仅考虑了多背景关键词之间的语义关系,而且通过非距离计算得到模糊相似矩阵。可根据不同要求得到相应的聚类结果,具有较好的灵活性。最后通过示例说明了所给算法的可行性。
(2)文本分类在文本挖掘和文本管理中扮演着重要角色,在文本预处理阶段引入核本体Wordnet丰富文本的表示形式,提高了文本表示的泛化能力。然后采用KNN算法对文本进行分类。最后在标准文集Reuters-21578上的实验表明,在文本分类中与没有使用本体相比,使用本体的某些策略能取得更好的效果。
7.期刊论文 谌志群. 张国煊. CHEN Zhi-qun. ZHANG Guo-xuan 文本挖掘与中文文本挖掘模型研究 -情报科学2007,25(7)
文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程.本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状.然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向.最后提出了一个统一的中文文本挖掘模型--UCT-MF.该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架.
8.学位论文 王丽坤 文本摘要方法研究及文本挖掘系统的实现 2002
文本挖掘是数据挖掘和数据仓库技术的一个重要分支,且是一项新的研究课题.从文本挖掘的定义到相关的方法和技术都值得加以归纳总结,该文结合相对成熟的数据挖掘技术给出了文本挖掘的定义、基于KDD的多阶段文本挖掘处理模型,全面的介绍了文本挖掘的相关技术:自动分词、文本特征表示、特征提取、文本分类、文本聚类、文本摘要、信息提取、模型质量评价等.这些技术涵盖了从信息预处理到知识获取的全部过程.该文就文本摘要进行了较系统的研究,作了如下研究工作: (1)全面系统地对文本自动摘要的相关问题和技术进行了综述. (2)在对文本摘要的表面级方法进行了详细分析的基础上,提出了基于Edmundsonian模型的文本特征向量摘要算法. (3)评价是文本挖掘系统中的一个重要环节,通过评价,模式的有效性、可用性和可理解性等都可以得到验证.该文通过对摘要系统评价方法的介绍,强调了评价在文本摘要中的重要性,并提出了结合任务评价和相似度度量评价的混合评价方法.并且对摘要系统的实验数据进行了详细分析和讨论. (4)基于理论研究和实际应用的需要,该文提出了超方法文本数据挖掘系统体系结构的设计思想. (5)设计并实现了文本挖掘系统TMS1.0.该系统构建在超方法体系结构上,包含有多种文本挖掘技术,特别是采用了基于文本特征向量的摘要算法,并用任务评价和混合评价方法来评价摘要系统的性能.
9.期刊论文 韩客松. 王永成 文本挖掘、数据挖掘和知识管理 -情报学报2001,20(1)
本文首先介绍了数据挖掘、文本挖掘和知识管理等概念,然后从技术角度出发,将知识管理划分为知识库、知识共享和知识发现三个阶段,分析了作为最高阶段的知识发现的关键技术和意义,最后指出在文本中进行知识发现是新世纪智能信息处理的重要方向。
10.学位论文 张亦辉 基于Web的文本挖掘研究 2008
WWW是一个开放的全球性资源,它是世界上最丰富和最密集的信息来源。随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。充分利用关键有用的数据,废弃虚伪无用的数据,是数据挖掘技术最重要的应用。因此,采用数据挖掘技术从WWW上提取隐含的、未知的、非平凡的及有潜在应用价值的信息,具有十分重要的现实意义和广泛的应用前景。
数据挖掘和知识发现为解决信息量过大而人们无法有效利用的问题提供了新的解决途径。目前,数据挖掘和知识发现的数据源主要是已有数据库中的文本和数值类数据,如何对分布于网络环境下的文本数据进行挖掘还正在研究。本文首先简单阐述了数据挖掘和知识发现的基本理论内涵;分析了网络信息检索与数据挖掘的特征与特性,特别是Web数据挖掘和基于HTML的文本数据挖掘;进而探讨了基于Web的文本数据挖掘研究与应用的一系列问题,包括定义、挖掘对象的特征与分类、挖掘和发现所需的理论和技术以及实验系统的框架结构和功能模块的分析与设计等,力图为该方向的深入研究提供一些有益的思路。
本文针对Web环境下中文文本信息挖掘的具体问题,侧重研究中文文本信息挖掘的方法与实现技术。讨论了文本分类中的中文词切分、特征提取、特征表示、特征匹配方法,建立了基于决策树的中文文本分类、聚类算法,在Web中文文本信息挖掘模型的设计中,对网页信息的表示、结构特点、网页控制符、HTML控制符号处理进行了详细分析与研究,构建了网页信息提取流程,并给出了Web环境下中文文本信息挖掘模型的一种设计思路并实现了部分功能。
本文链接:http://d.g.wanfangdata.com.cn/Periodical_kjxx200933054.aspx
下载时间:2010年5月13日