文本挖掘综述

07-01

科技信息

０ＩＴ论坛ｏＳＣＩＥＮＣＥ＆ＴＥＣＨＮＯＬＯＧＹＩＮＦＯＲＭＡＴＩＯＮ２００９年第３３期

文本挖掘综述

杨霞黄陈英

乐山（乐山师范学院四川

６１４００４）

【摘要】文本挖掘是对一个非结构化文本信息进行分析从而获取用户关心或感兴趣，有潜在实用价值知识的过程。本文首先介绍了文本挖掘的定义和研究现状，之后文本挖掘一般处理过程，着力于文本分类和文本聚类的一般过程，最后展望了今后的研究目标。

【关键词】数据挖掘；文本挖掘；文本分类；文本聚类

ＴｈｅＯｖｅｒｖｉｅｗｏｆ

Ｔｅｘｔ

Ｍｉｎｉｎｇ

Ｔｅｃｈｎｉｑｕｅ

ＹＡＮＧＸｉａＨＵＡＮＧＣｈｅｎ－ｙｉｎｇ

（ＬｅｓｈａｎＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，ＳｉｃｈｕａｎＬｅｓｈａｎ６１４００４）

ｃｏｌｌｅｃｔｉｏｎｓ．Ｆｉｒｓｔ，ｉｔｉｎｔｒｏｄｕｃｅｔｈｅ

ｉｍｐｏｒｔａｎｔｉｎ

【Ａｂｓｔｒａｃｔ］Ｔｅｘｔ

ａｎｄｄｅｖｅｌｏｐｉｎｇ

ｔｈｅｆｅａｔｕｒｅｏｆＣｈｉｎｅｓｅ

Ｍｉｎｉｎｇｉｓｐｒｏｃｅｓｓｏｆｅｘｔｒａｃｔｉｎｇ

ｏｕｔ

ｉｎｔｅｒｅｓｔｉｎｇｋｎｏｗｌｅｄｇｅ

ｆｏｒｍ

ｌａｒｇｅ

ｌｉｎｇｕｉｓｔｉｃｓｅｍａｎｔｉｃ

ｔｅｘｔ

ｃｏｎｃｅｐｔ

ｏｆＤａｔａ

Ｍｉｎｉｎｇ．Ｔｈｅｎ

ｔｅｘｔｍｉｎｉｎｇ

ｐｏｉｎｔ

ＴｅｘｔＭｉｎｉｎｇ

ａｎｄ

ｉｔｓｓｔａｔｕｓ，Ｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｃｌｕｓｔｅｒｉｎｇ

ｔｅｘｔ

ａｒｅ

ｔｈｉｓ．Ｉｎｔｈｅｅｎｄ，ｉｔｓｈｏｗｓ

ａｎｄｈｉｇｈｌｉｇｈｔｉｎｇｔｈｅ

ｕｐｃｏｍｉｎｇ

Ｃｈａｌｌｅｎｇｅｓｏｆ

ｍｉｎｉｎｇ

【Ｋｅｙｗｏｒｄｓ］Ｄａｔａ

ｍｉｎｉｎｇ；Ｔｅｘｔｍｉｎｉｎｇ；Ｔｅｘｔ

ｃｌａｓｓｉｆｉｃａｔｉｏｎ；Ｔｅｘｔｃｌｕｓｔｅｒｉｎｇ

Ｏ．引言

数据挖掘（ＤａｔａＭｉｎｉｎｇ）。就是从大量数据中获取有效的、新颖的、

潜在有用的、最终可理解的模式的非平凡过程。数据挖掘，又称为数据库中知识发现ＫＤＤｆＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎＤａｔａｂａｓｅ），也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘可以与用户或知识库交互。

面对因为网络的飞速发展而带来的“信息膨胀”，尤其是以半结构化或非结构化的文本信息为主的信息，人们迫切需要研究出方便有效的工具去从中提取符合需要的、简洁的、精炼的、可理解的知识，文本挖掘ＴＭ（ＴｅｘｔＭｉｎｉｎｇ）因此产生。

常见的文本挖掘分析技术有：文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。在这里主要介绍文本分类与文本聚类：

２．１文本分类的处理过程

文本分类系统的任务是：在给定的分类体系下，根据文本的内容自动地确定文本关联的类别。从数学角度来看，文本分类是一个映射的过程。它将未标明类别的文本映射到已有的类别中，该映射可以是一一映射，也可以是一对多的映射。因为通常一篇文本可以同多个类别相关联。

文本分类是一种典型的有教师的机器学习问题，一般分为训练和分类两个阶段，具体过程如下：

训练阶段：

１．文本挖掘概述

１．１文本挖掘的定义

文本挖掘是近几年来数据挖掘领域的一个新兴分支，文本挖掘也称为文本数据库中的知识发现，是从大量文本的集合或语料库中抽取事先未知的、可理解的、有潜在实用价值的模式和知识【ｌ】。对文本信息的挖掘主要是发现某些文字出现的规律以及文字与语义、语法间的联系，用于自然语言的处理，如机器翻译、信息检索、信息过滤等，通常采用信息提取、文本分类、文本聚类、自动文摘和文本可视化等技术从非结构化文本数据中发现知识。

１．２文本挖掘的国内外研究现状

国外对于文本挖掘的研究开展较早，５０年代末．Ｈ．Ｐ．Ｌｕｈｎ在这一领域进行了开创性的研究，提出了词频统计思想用于自动分类。１９６０年，ＭａｒｏｎＥ≈发表了关于自动分类的第一篇论文，随后，以Ｋ．Ｓｐａｒｋ，Ｇ．Ｓａｈｏｎ以及Ｋ．Ｓ．Ｊｏｎｅｓ等人为代表的众多学者也在这一领域进行了卓有成效的研究工作。目前，国外的文本挖掘研究已经从实验性阶段进入到实用化阶段．著名的文本挖掘工具有：ＩＢＭ的文本智能挖掘机［３１、Ａｕｔｏｎｏｍｙ公司的ＣｏｎｃｅｐｔＡｇｅｎｔｓ、ＴｅｌＴｅｃｈ公司的ＴｅｌＴｅｃｈ等。

但是．国内正式引入文本挖掘的概念并开展针对中文的文本挖掘研究是从近几年才开始的。目前看来。我国文本挖掘研究还处在消化吸收国外相关的理论和技术与小规模实验阶段．瓶颈在于国内文本挖掘处理的是汉语文本，在进行文本挖掘方法时必须适应汉语重“意合”的特点，结合文本上下文来获取文本的完整“语义”。

（１）获取训练文本集Ｓ＝（８ｌＩ．一，Ｓ∥一，Ｓ。｝：ｉＪｉｌ练文本集由一组经过

预处理的文本特征向量组成，每个训练文本（或称训练样本）有一个类别标号ｅ．，类别集合Ｃ＝（ｏｌＩ．一，Ｃｉ，．一，Ｃ。）事先定义好；

（２）选择分类方法并训练分类模型：文本分类方法有统计方法、机器学习方法、神经网络方法等等。统计训练集Ｓ中所有文档的特征向量Ｖ（ｓ．），确定代表ｃ中每个类别的特征向量Ｖ（ｃ；）；

分类阶段：

（３）用训练好的分类模型对其他待分类文本进行分类：计算测试文档集Ｔ＝（ｄｌ＇．一，ｄ。，…，ｄ，】的特征向量Ｖ（ｄ。）与每个Ｖ（ｃ；）之间的相似度ｓｉｍ（ｄ。，Ｃ．）；

（４）根据分类结果评估分类模型：选取相似度最大的一个类别ａｒｇｍａｘｓｉｍ（ｄｋ，ｃｉ）作为ｄｋ的类别。

２．２文本聚类的处理过程

文本聚类是一种典型的无教师的机器学习问题。目前主要的文本聚类方法包括以ＢＩＲＣＨ等算法为代表的层次化聚类算法［５１和以ｋ—ｍｅａｎｓ等算法为代表的划分式聚类算法【日。

这里以层次化聚类算法为例，说明文本聚类的处理过程。

对于给定的文档集合Ｄ＝｛ｄｌ，．一，ｄ，，…，ｄ。）层次化聚类算法的具体过程如下：

（１）将Ｄ中的每个文档ｄ；看作是一个具有单个成员的簇Ｃ；＝（ｄｉ），这些簇构成了Ｄ的一个聚类Ｃ＝（ｏｌ，．一，Ｃｉ，’‘，Ｃ。）；计算Ｃ中每对簇（Ｃ。，Ｃ；）之间的相似度ｓｉｍ（ｄ。，ｅ，）；

（２）选取具有最大相似度的簇对ａｒｇｍａｘ（ｃ，，Ｃｊ），其中ｃ，，ｃ；∈Ｃ，并将Ｃ；和ｃ．合并为一个新的簇Ｃ。＝ｃ．ｕＣ．，从而构成了Ｄ的一个新的聚类

２．文本挖掘一般处理过程

文本挖掘过程由文本预处理、特征提取、文本分类、文本聚类等步骤组成。图１给出了文本挖掘的一般处理过程。

文本预处理分词特征提取

ｏ《

图１

Ｃ’＝｛。１，。一，ｃ．１）；

挖掘分析

文本结构分析

（３）重复上述步骤，直至剩下一个簇为止。

而划分式聚类算法运行速度较快，但是必须事先确定的取值，且种子选取的好坏对聚类结果有较大影响。两种算法各有所长，其中划分式具有较高的执行效率，而层次化在算法上比较符合数据的特性。能否结合两种聚类思想更有效的对文本聚类，还有待于进一步研究。

３．结语

（下转第９９页）

文本摘要

文本分类文本聚类

文本挖掘过程图

科技信息

ＯＩＴ论坛ｏ

ＳＣＩＥＮＣＥ＆ＴＥＣＨＮＯＬＯＧＹＩＮＦＯＲＭＡＴＩＯＮ

２００９年第３３期

ＷＲｌＣＬＲＭＯＶＤＪＮＺＲＲＣＭＯＶＭＯＶＤＪＮＺＳＥＴＢＮＯＰＤＪＮＺＳＥＴＢＲＥＴ

Ｐ３．４Ｒ３．＃６Ｒ３．￥ＡＰ３．４，ＣＲ３搿２３Ｒ３，￥Ｐ３．４

ＤＩＶＡＢ

ＭＯＶＭＯＶＭＯＶＭＯＶＭＯＶＣＭＯＶＣＬＲＳＥＴＢ

３０Ｈ．Ａ３ｌＨ．ＢＡ－３０ＨＤＰＴＲ．冉ＳＧＴＢＡ．＠Ａ＋ＤＰｒＲＰ０．ＡＰ３．１Ｐ３．ＯＰ３．２Ｐ３．３ＹＳ４７２２Ｕ

Ａ．３１Ｈ

；显示温度十位值

Ｒ２．ＷＲｌＰ３．４

ＳＥ７ｒＢＳＥＴＢＬＣＡＬＬＭＯＶＭＯＶＭＯＶＣＭＯＶＣＬＲＳＥＴＢＳＥＴＢＳＥＴＢ

：～一从ＤＳｌ８８２０中读温度数据程序

ＲＥｌ８８２０：ＭＯＶ

ＭＯＶ

ＲＥ００：ＲＥ０１：

ＭＯＶＣＬＲＳＥＴＢＮＯＰＮＯＰＣＬＲＮＯＰＮＯＰＮＯＰＳＥＴＢＭＯＶ

ＲＥｌ０：

ＤＪＮＺＭＯＶＭＯＶ

ＲＥ２０：

ＤＪＮＺＲＲＣＤＪＮＺＭＯＶＤＥＣＤＪＮＺ

ＲＥＴ

Ｒ４．拌２

ＤＰｍ．霜ｌＳＧＴＢ

Ａ．＠Ａ＋ＤＰＩＲＰ０．ＡＰ３．２Ｐ３．ＯＰ３．１Ｐ２．３ＹＳ４７２２ＵＡ．＃０１０００ｌ１０ＢＰ０．ＡＰ３．３Ｐ３．Ｏ

Ｐ３．１

Ｒ１岸２ＦＨＲ２．样８ＣＰ３．４

：显示温度个位值

Ｐ３．４ＬＣＡＩＪＩＪＭＯＶＭＯＶＣＬＲ

；显示温度符号

Ｐ３．４Ｒ３．＃０９Ｒ３．ＲＥｌ０Ｃ．Ｐ３．４Ｒ３搿２３Ｒ３。ＲＥ２０

Ａ

ＳＥＴＢＳＥＴＢＳＥＴＢＬＣＡＬＬＲＥＴ

Ｐ３．２Ｙ￥４７２２Ｕ

；｝￥｝｝＃｝｝４８位共阳数码管显示器字型码表¨￥¨｛十｝十｝｝￥｝

ＳＧＴＢ：ＤＢＯＣＯＨ，ＯＦ９Ｈ，ＯＡ４Ｈ，ＯＢＯＨ，９９Ｈ，９２Ｈ，８２Ｈ，ＯＦ８Ｈ，８０Ｈ，９０Ｈ

ＤＢ８８Ｈ，８３Ｈ，０Ｃ６Ｈ，ＯＡｌＨ，８６Ｈ，８ＥＨ，８９Ｈ，ＯＡ３Ｈ，８ＣＨ，ＯＣ８Ｈ

ＹＳ４７２２Ｕ：ＭＯＶＹ３：

ＭＯＶＤＪＮＺＤＪＮＺＲＥＴ

Ｒ２，ＲＥ０１＠Ｒ１．Ａ

Ｒ１

Ｒ４＇彝１０；延时子程序

Ｒ５，＃２１６Ｒ５，￥Ｒ４．Ｙ３

Ｒ４，ＲＥ００

显示子程序

ＤＩＳＰ：

ＭＯＶＭＯＶＲＲＣＭＯＶＲＲＣＭＯＶＲＲＣＭＯＶ

ＲＲＣ

Ａ．２ＦＨＣ．７０ＨＡＣ．７ｌＨ

Ａ

ＥＮＤｅ

【参考文献】

［１］陈文芗．单片机原理与应用【Ｍ】．北京：机械工业出版社，２００１．

［２］卢艳军．单片机基本原理及应用系统【Ｍ】．北京：机械工业出版社，２００５．［３］王庆利，袁建敏．单片机设计案例实践教程（ＭＪ．北京：北京邮电学院出版社，

２００８．

Ｃ．７２Ｈ

Ａ

Ｃ．７３Ｈ

Ａ２ＦＨ．Ａ

作者简介：晏文靖（１９８１一），女，汉族，湖南新化人，讲师，２００５年在南京邮电学院计算机与科学技术系获硕士学位。主要研究方向为嵌入式系统软件开发与网格计算。任职于无锡商业职业技术学院。

ＭＯＶＭＯＶＭＯＶ

Ａ．２ＦＨＢ．＃１０

【责任编辑：张艳芳］

（上接第８２页）文本挖掘是一个崭新的人工智能研究方向。近年来研究人员提出了许多的理论和具体的挖掘算法，但还没形成统一的理论体系，大部分的算法还不成熟，存在一定的缺陷，需要进一步的研究和完善。随着文本挖掘技术的不断完善，其应用领域也会不断

［３］蒋良孝，蔡之华．文本挖掘及其应用叨．现代计算机，２００３（２），３１．４］Ｗｍｅｔ

Ｐ．Ｒｅｃｅｎｔ

ｔｒｅｎｄｓ

ｉｎ

ｈｉｅｒａｒｃｈｉｃａｌ

ｄｏｃｕｍｅｎｔ

ｃｌｕｓｔｅｒｉｎｇ：Ａｃｒｉｔｉｃａｌ

ｒｅｖｉｅｗ

［Ｊ１．ＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇａｎｄＭａｎａｇｅｍｅｎｔ，１９８８，２４：５７７—５９７．

［５］朱红灿，孟志青．一种基于ＳＯＭ和层次凝聚的中文文本聚类方法叨．电子学报，２００５，２７（３）：３６－３８．

［６］任江涛，孙婧昊，施潇潇，黄焕宇，印鉴．一种用于文本聚类的改进的Ｋ均值

增长。口

【参考文献】

［１］Ｆｅｌｄｍａｎ

Ｒ，Ｄａｇａｎ

ｔｈｅ

算法叨．计算机应用，２００６，２６（１）：７３—７５．

Ｔｅｘｔｕａｌ．Ｄａｔａｂａｓｅｓ［Ｃ】／／

Ｄｉｓｃｏｖｅｒｙ

ａｎｄ‘Ｄａｔａ

Ｉ．ＫＤＴ－－Ｋｎｏｗｌｅｄｇｅ

Ａｎｎｕａｌ

Ｄｉｓｃｏｖｅｒｙｉｎ

ｏｎ

作者简介：杨霞（１９７７～），女，硕士，主要研究方向为数据挖掘、中文信息处理。

黄陈英（１９７５一），女，硕士，主要研究方向为数据处理、教育技术。

Ｐｒｏｃｅｅｄｉｎｇｓｏｆ

１ｓｔＣｏｎｆｅｒｅｎｃｅ

Ｋｎｏｗｌｅｄｇｅ

Ｍｉｎｉｎｇ，１９９５：１１２—１１７．

［２］Ｍａｒｏｎ，Ｍ，Ｅ．ｅｔ【Ｊ］．Ｊ０ｕｍａｌ

ｏｆｔｈｅ

ａ１．．Ｏｎ

ｒｅｌｅｖａｎｃｅｐｒｏｂａｂｉｌｉｓｔｉｅｉｎｄｅｘｉｎｇａｎｄｉｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ

ＡＣＭ，１９６０（７）：２１６—２４４．

［责任编辑：张慧］

文本挖掘综述

作者：作者单位：刊名：英文刊名：年，卷(期)：引用次数：

杨霞，黄陈英， YANG Xia， HUANG Chen-ying乐山师范学院,四川,乐山,614004科技信息

SCIENCE & TECHNOLOGY INFORMATION2009，(33)0次

参考文献(6条)

1. Feldman R. Dagan I KDT-Knowledge Discovery in Textual.Databases[期刊论文]- 1995

2. Maron,M,E On relevance probabilistic indexing and information Retrieval[期刊论文]-Journal of theACM 1960(7)

3. 蒋良孝. 蔡之华文本挖掘及其应用[期刊论文]-现代计算机 2003(2)

4. Willet P Reeent trends in hierarchieal document elustering:A critical review[期刊论文]-Information Processing & Management 1988

5. 朱红灿. 孟志青一种基于SOM和层次凝聚的中文文本聚类方法[期刊论文]-电子学报 2005(3)

6. 任江涛. 孙婧昊. 施潇潇. 黄焕宇. 印鉴一种用于文本聚类的改进的K均值算法[期刊论文]-计算机应用 2006(z1)

相似文献(10条)

1.学位论文杨斌中文文本数据挖掘研究 2002

随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,其中绝大部分均以文本形式存在.这样,文本挖掘(Text Mining)作为数据挖掘的一个新主题而出现,引起了人们极大的兴趣,同时,它也是一个富于争议的研究方向.国内中文文本挖掘(CTM,Chinese Text Mining)的研究刚刚开始,面向中文语料的文本挖掘目前还没有像样的系统,还存在许多问题亟待解决.文中,我们对此进行了研究.首先,我们从理论上对文本挖掘进行了探讨.我们在数据挖掘概念的基础上进行扩展,给出了文本挖掘的定义,通过分析其特点,描述了中文文本挖掘的处理过程,继而从功能上对文本挖掘进行分类,这样便能从整体上理解文本挖掘.其次,通过分析现有的文本分类技术,从文本挖掘的角度研究了中文文本的分类问题,包括中文的分词、特征提取、特征匹配等问题,设计了文本分类系统(STCS).然后,我们将传统的关联规则引入文本领域,给出了文本关联规则的定义,文本关联查询语言及其范式表示,在Aprior算法和IMAARC算法基础上提出了文本关联规则开采算法MATA.最后,我们论述了文本挖掘的2个应用.

2.期刊论文薛为民. 陆玉昌. XUE Wei-min. LU Yu-chang 文本挖掘技术研究 -北京联合大学学报（自然科学版）2005,19(4)

文本挖掘是数据挖掘的重要内容之一,其应用十分广泛.对文本挖掘技术的基本概念和理论进行系统地归纳总结,首先给出了数据挖掘、文本挖掘和Web文本挖掘的基本概念及主要研究方向,然后分析了文本挖掘的过程和关键技术,最后对文本挖掘技术进行总结和展望.

3.学位论文陈琦基于XML的文本挖掘技术研究与在电子政务中的应用 2006

随着互联网应用的飞速发展，文本数据库得以迅速增长，人们迫切需要有效的数据挖掘工具从海量文本数据中提取有价值的知识。基于XML的文本数据挖掘为从海量文本数据提取知识提供了有效的方式。XML文档是一类半结构化的有别于一般文本文档的文档，因此针对XML文本的挖掘技术成为一个独特且有迫切需求的课题。

另一方面，随着电子政务的进一步发展，政府部门内部及政府部门之间产生了大量政务信息。经过前两年电子政务基础资源的大规模建设，海量政务信息资源挖掘和电子政务知识管理等深层次应用正逐步进入电子政务舞台，对电子政务实施数据挖掘将成为政府信息化的一个新的研究方向。本文以某地区工业园区的电子政务系统开发工作为背景，主要工作研究内容如下所示：

(1)研究XML技术，分析XML文档的特点及优势。同时探讨了数据挖掘和电子政务的基本技术和概念。 (2)在分析文本挖掘技术和XML文档数据处理的基础上，研究基于XML的文本挖掘技术。

(3)结合某地区工业园区电子政务系统项目的开发工作，给出基于XML的文本挖掘系统，建立了在电子政务中XTMS模型结构和功能结构。并且针对XTMS需要解决的主要问题，给出电子政务中XTMS关键模块的设计，包括数据采集和数据集成、半结构化数据处理以及对电子政务中的XML数据集进行文本挖掘。

(4)给出XTMS的系统实现。

4.会议论文王继成. 孙颖. 张福炎文本挖掘-数据挖掘研究的新课题 1999

在文档充斥的情况下，文本挖掘作为一个新的研究方向，引起了各个瓴域的巨大兴趣。目前，文本挖掘的研究正处于发展阶段，尚无统一的结论，需要国内外学者开展更多的讨论以进行准确地定义。该文对文本挖掘技术的定义，过程，功能和方法作了初步系统性的探讨，介绍了文本挖掘的应用，并提出了未来的研究方向。

5.学位论文张兆中 WEB文本挖掘的聚类分析 2005

数据采集和存储技术的进步导致庞大的数据库日益增多，从这些数据中提取出有价值的信息，成为人们日益关心的问题，而且已经形成了一门学科，成为“数据挖掘”。如果仅涉及到很小的数据集，那么就可以仅仅讨论统计学家们所使用的标准数据探测和分析方法了。数据挖掘所分析的经常是庞大的数据集。聚类和分类同是数据挖掘的重要内容。

文本是存储和交换信息的最自然的方式，文本挖掘具有非常重要的现实意义。文本挖掘所要处理的数据规模更大，因而使得许多对数据库中数据挖掘很有效的聚类算法，对于文本挖掘变得不可行。规模的增大，要求算法必须能够增量的执行，因为没有可能将数据一次调入内存处理。另外这对算法的效率也提出了苛刻的要求。同时，Web的文本数据是不断增长的，新的信息类型不断出现。算法必须有能力在不完全重新分析已有数据的情况下，增量处理新的数据，更新聚类结果。

通过对以Web文本数据为代表的高维数据特点的分析，认识到传统的聚类技术在这里面临许多新的困难。本文尝试以概率理论特别是贝叶斯方法为主

数据测试和不同算法的对比分析，算法显示出了较好的性能。

6.学位论文唐明珠形式概念分析和本体在文本挖掘中的应用 2008

面对浩如烟海的电子信息，如何帮助人们有效地收集和选择感兴趣的信息，如何帮助用户在日益增多的信息中发现潜在有用的知识，目前已成为信息技术领域研究的热点问题之一。数据挖掘就是为解决这一问题而产生的研究领域。由于现实生活中绝大部分信息资源是以非结构数据的形式存在，而数据挖掘则普遍以结构化数据为对象，因此对非结构化信息进行挖掘成为数据挖掘之后出现的又一重要课题。

在常见的非结构化数据中，文本数据是应用最为广泛的一种形式。常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域，文本挖掘技术都有着广泛的应用，因此具有更高的商业价值。

形式概念分析是德国学者Wille于1982年首先提出的一种数学理论，概念格结构模型是它的核心数据结构。概念格本质上描述了对象和属性之间的联系，表明了概念之间的泛化和例化关系。目前形式概念分析已被广泛地研究，并应用于机器学习、信息检索和软件工程等领域。

本体是共享概念模型的形式化规范说明。本体作为一种能在语义和知识层次上描述信息系统的概念模型建模工具，在计算机的许多领域得到了广泛的应用，如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。

本文以文本数据为研究对象，以形式概念分析和本体为工具，研究了文本挖掘中的文本特征提取、文本聚类、文本分类等问题。本文的研究工作和创新包括以下两个方面：

(1)文本聚类是文本挖掘中的一种重要方法。基于形式概念分析和概念相似度，给出了一种新的多背景文本模糊聚类方法和模型。该方法不仅考虑了多背景关键词之间的语义关系，而且通过非距离计算得到模糊相似矩阵。可根据不同要求得到相应的聚类结果，具有较好的灵活性。最后通过示例说明了所给算法的可行性。

(2)文本分类在文本挖掘和文本管理中扮演着重要角色，在文本预处理阶段引入核本体Wordnet丰富文本的表示形式，提高了文本表示的泛化能力。然后采用KNN算法对文本进行分类。最后在标准文集Reuters-21578上的实验表明，在文本分类中与没有使用本体相比，使用本体的某些策略能取得更好的效果。

7.期刊论文谌志群. 张国煊. CHEN Zhi-qun. ZHANG Guo-xuan 文本挖掘与中文文本挖掘模型研究 -情报科学2007,25(7)

文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程.本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状.然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向.最后提出了一个统一的中文文本挖掘模型--UCT-MF.该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架.

8.学位论文王丽坤文本摘要方法研究及文本挖掘系统的实现 2002

文本挖掘是数据挖掘和数据仓库技术的一个重要分支,且是一项新的研究课题.从文本挖掘的定义到相关的方法和技术都值得加以归纳总结,该文结合相对成熟的数据挖掘技术给出了文本挖掘的定义、基于KDD的多阶段文本挖掘处理模型,全面的介绍了文本挖掘的相关技术:自动分词、文本特征表示、特征提取、文本分类、文本聚类、文本摘要、信息提取、模型质量评价等.这些技术涵盖了从信息预处理到知识获取的全部过程.该文就文本摘要进行了较系统的研究,作了如下研究工作: (1)全面系统地对文本自动摘要的相关问题和技术进行了综述. (2)在对文本摘要的表面级方法进行了详细分析的基础上,提出了基于Edmundsonian模型的文本特征向量摘要算法. (3)评价是文本挖掘系统中的一个重要环节,通过评价,模式的有效性、可用性和可理解性等都可以得到验证.该文通过对摘要系统评价方法的介绍,强调了评价在文本摘要中的重要性,并提出了结合任务评价和相似度度量评价的混合评价方法.并且对摘要系统的实验数据进行了详细分析和讨论. (4)基于理论研究和实际应用的需要,该文提出了超方法文本数据挖掘系统体系结构的设计思想. (5)设计并实现了文本挖掘系统TMS1.0.该系统构建在超方法体系结构上,包含有多种文本挖掘技术,特别是采用了基于文本特征向量的摘要算法,并用任务评价和混合评价方法来评价摘要系统的性能.

9.期刊论文韩客松. 王永成文本挖掘、数据挖掘和知识管理 -情报学报2001,20(1)

本文首先介绍了数据挖掘、文本挖掘和知识管理等概念，然后从技术角度出发，将知识管理划分为知识库、知识共享和知识发现三个阶段，分析了作为最高阶段的知识发现的关键技术和意义，最后指出在文本中进行知识发现是新世纪智能信息处理的重要方向。

10.学位论文张亦辉基于Web的文本挖掘研究 2008

WWW是一个开放的全球性资源，它是世界上最丰富和最密集的信息来源。随着WWW上信息的爆炸性增长，在如此海量的数据中发现有用的信息变得越来越困难。数据挖掘就是从大量的数据中发现隐含的规律性的内容，解决数据的应用质量问题。充分利用关键有用的数据，废弃虚伪无用的数据，是数据挖掘技术最重要的应用。因此，采用数据挖掘技术从WWW上提取隐含的、未知的、非平凡的及有潜在应用价值的信息，具有十分重要的现实意义和广泛的应用前景。

数据挖掘和知识发现为解决信息量过大而人们无法有效利用的问题提供了新的解决途径。目前，数据挖掘和知识发现的数据源主要是已有数据库中的文本和数值类数据，如何对分布于网络环境下的文本数据进行挖掘还正在研究。本文首先简单阐述了数据挖掘和知识发现的基本理论内涵；分析了网络信息检索与数据挖掘的特征与特性，特别是Web数据挖掘和基于HTML的文本数据挖掘；进而探讨了基于Web的文本数据挖掘研究与应用的一系列问题，包括定义、挖掘对象的特征与分类、挖掘和发现所需的理论和技术以及实验系统的框架结构和功能模块的分析与设计等，力图为该方向的深入研究提供一些有益的思路。

本文针对Web环境下中文文本信息挖掘的具体问题，侧重研究中文文本信息挖掘的方法与实现技术。讨论了文本分类中的中文词切分、特征提取、特征表示、特征匹配方法，建立了基于决策树的中文文本分类、聚类算法，在Web中文文本信息挖掘模型的设计中，对网页信息的表示、结构特点、网页控制符、HTML控制符号处理进行了详细分析与研究，构建了网页信息提取流程，并给出了Web环境下中文文本信息挖掘模型的一种设计思路并实现了部分功能。

本文链接：http://d.g.wanfangdata.com.cn/Periodical_kjxx200933054.aspx

下载时间：2010年5月13日

与《文本挖掘综述》相关的范文

01-12 明确市场定位突出重点工作加快有效发展-全市农行2014年工作会议综述

明确市场定位突出重点工作加快有效发展 -全市农行20XX年工作会议综述　　2月7日，为期两天的全市农行20XX年工作会议圆满结束。会议期间，党委书记、行长郭振峰同志代表市分行党委作了题为《转变经营机制调整经营结构强化风险管理大力推进全行各项业务科学有效发展》的工作报告，讨论通过了陇南分行《20XX年年度综合绩效考核办法》、《20XX年季度绩效考核办法》和《陇南分行不良资产分账经营实施办法》，表 ...

10-30 教育局教研室初中生物.小学科学教研工作计划

教育局教研室初中生物、小学科学教研工作计划一、指导思想根据《广州市进一步深化素质教育的实施意见》，及局《着力打造优质教育品牌全面提升教育发展水平》报告，围绕有效教学、打造品牌教研，开展有特色教研活动，提升教研的活力及有效性，为全区教师构建开放的、动态的展示平台，能够给教师持续发展的动力。二、主要工作加强教师队伍建设，打造优秀的中心组队伍，为创建品牌教师、品牌课程搭建平台，继续开展视频案例 ...

11-08 文学院专业硕士研究生培养方案

《中国现当代文学》专业硕士研究生培养方案一、培养目标、基本学制、培养方式与应修学分培养目标：坚持课程学习和科学研究并重的原则，通过培养，使硕士研究生德、智、体等方面全面发展，并达到以下要求： 1、在本学科领域内掌握坚实的基础理论和系统的专门知识，掌握本学科的现代实验方法和技能，了解本学科发展的现状和趋势，具有从事本专业实际工作与科学研究工作的表达能力、管理能力、创新能力以及分析问题和解决问 ...

11-29 文明单位电子台账建设策划书

　　乐清市精神文明建设指导委员会办公室5月26日下发《关于文明单位电子台账建设情况的通报》，要求我公司于6月25日前完成文明单位电子台账建设。　　为按时按要求完成文明单位电子台账建设，并以此为契机，将集团公司以精神文明为主要内容的全面发展进行一次全面地集中地展示，以提升集团公司的品牌影响力，并为进军省级文明单位创造良好的舆论基础，现就集团公司精神文明电子台账建设提出如下策划建议。　　一、电子台 ...

07-20 浅谈硕士论文开题报告写作

　　硕士论文开题报告主要是给指导委员会阐明你的硕士论文将要写什么以及为什么要写和如何写的问题。这里有几个方面：　　第一，你要写什么　　这个重点要进行已有文献综述，把有关的题目方面的已经有的国内外研究认真介绍一下（先客观介绍情况，要如实陈述别人的观点），然后进行评述（后主观议论，加以评估，说已有研究有什么不足），说现在有了这些研究，但还有很多问题值得研究。其中要包括你选题将要探讨的问题。由于目前 ...

04-29 关于参加"小学语文国际精品课堂教学展示交流"活动的汇报材料

东寺头小学教师李伟撰稿序言：我非常感谢校方领导对我的信任和栽培，使我有幸参加了“小学语文国际精品课堂教学展示交流活动”。这次活动让我亲身体会到国际华文教学的魅力所在。活动以示范课为主要方式，利用“中心”的文化教育的资源优势，发挥名校名师的作用，推广先进的教育理念，进行中外文化教育交流，与各省的教育部门进行教学、教法交流，探讨基础教育的改革，提高教育质量。可以明确的说这些精品课堂都具有明显的导向 ...

10-01 研修材料学习:省培总结与反思

研修材料学习：省培总结与反思有幸全程参加“山东省中小学万名骨干教师培训工程-20XX年小学语文骨干教师高级研修项目”培训，无论是聆听专家讲座还是参与课例打磨，都让我获益匪浅。现就感受最深的几点总结如下：一、领导讲话提供精神动力培训第一天，省师训干训中心于维涛主任讲话中的“在‘能力极限边缘工作’，方能自我超越”这句话让我至今记忆犹新，也必将会成为我今后工作上的精神动力。参加小学语文省级高研班的 ...

05-14 2014年七年级下学期语文教学工作总结

一学期很快又结束了，回顾这一学期的工作，我有收获，也有感悟，更多的是对语文教学的一份探索与思考。一、利用研究课的机遇，打磨自身能力这一学期，我有机会做了一节语文研究课。在备课的过程中，我感觉自己有了很大的收获。最初接到做课通知的时候，我就开始选择课文，如果为了做课当时的出彩儿和成功，我应该选择自己最擅长的文言文阅读。可是我觉得，如果总是展示自己的长处，回避自己的短处，那么自己很难进步和提升。 ...

07-17 2014年秋季开学工作综述:规划引领凝聚精细

20XX年秋季开学工作综述：规划引领凝聚精细今年秋季，市教育局党组对xx中学班子进行了交流调整。8月23日，学校教师开始启动暑期政治集训，8月30日，七年级新生报名入学，并启动“入学教育周”活动，8月31日，八九年级学生报名入学。8月31日晚，全校学生集中观看了《开学第一课：道路交通安全教育》。9月1日晨，举行了第一次升旗仪式。9月2日晨，举行新学期开学典礼。当前，校安工程已进入试用阶段并即将进 ...

07-02 2014年教委工作综述

20XX年教委工作综述 20XX年是十一五收官，也是xx教育结果之年，对照年初部门绩效目标：共同目标统一定“一刀切”，没差别；本职目标自己报“切一刀”，没比较。因此，述职究竟述什么，实质上述职就是述印象。首先，回应十一五教育总目标：打造区域教育均衡发展特色县、素质教育先进县。其标志性成果之一：近两年，县外2万余人来綦考察、观摩、学习、研究，创造农村教育xx模式，而xx模式的内涵就是没有统一的模式 ...

随机推荐

猜你喜欢

文本挖掘综述

·在清华大学2014级本科生新生开学典礼上的讲话

·县开展三满意活动情况总结

·学生会学习部工作计划

·水泥净浆流动度

·汉字笔顺规则表和笔画名称表

·清淤.土方工程

·瑜珈试题

·初三寒假日记200字

·湖南省普通高等学校教学改革中期检查项目报告书

·大学生信用卡的风险管理研究

·八一建军节演讲稿:八一永远飞扬的军旗

·公司党支部2014年工作总结

·2013年销售顾问个人年终总结

·[知识产权法]案例分析

·如何职业规划?-别做井底之蛙

·9度工作总结和09年工作计划大会发言稿

·[大自然的语言]教案

·粮食烘干机操作规程

·工程监理人员应具备的条件

·2015年无固定期限劳动合同

文本挖掘综述

与《文本挖掘综述》相关的范文

·在清华大学2014级本科生新生开学典礼上的讲话

·县开展三满意活动情况总结

·学生会学习部工作计划

·水泥净浆流动度

·汉字笔顺规则表和笔画名称表

·清淤.土方工程

·瑜珈 试题

·初三寒假日记200字

·湖南省普通高等学校教学改革中期检查项目报告书

·大学生信用卡的风险管理研究

·八一建军节演讲稿:八一永远飞扬的军旗

·公司党支部2014年工作总结

·2013年销售顾问个人年终总结

·[知识产权法]案例分析

·如何职业规划?-别做井底之蛙

·9度工作总结和09年工作计划大会发言稿

·[大自然的语言]教案

·粮食烘干机操作规程

·工程监理人员应具备的条件

·2015年无固定期限劳动合同

·瑜珈试题