图片分类特征增强的统计方法
ComputerEngineeringandApplications计算机工程与应用
图片分类特征增强的统计方法
张子明1。刘金刚-,2
ZHANGZi-mingt,LIUJin-gan91'2
1.首都师范大学信息工程学院,北京1000432.中国科学院计算技术研究所,北京100080
1.Schoolof2.Institute
InformationandEngineering,CapitalNormalUniversity,Beijing100043,China
ofSciences,Beijing100080,China
ofComputingTechnology,ChineseAcademy
ZHANG
Zi-ming.LIUJin-gang.Statisticalapproachforsignatureenhancementfor
Applications。2009。45(5):177-179.
imageclassification.ComputerEngi-
neeringand
Abstract:Bag-of-wordsimagerepresentation
nature
hasshowntobe
a
powerful
techniquefor
foreach
tO
imageusing
visual
words(imagefeatures)in
visual
thepre-defined
imageclassification,which
codebook.Thispaperproposesanew
a
createsa
sig-
statisticalap—
proachis
discoverthediscriminabilityofeach
to
wordforeachimagecategoryfirst,andthen
new
general
linear
model(GLM)
employedtocombinethesevisualwords
enhancethediscriminability
ofeach
construct
signaturesoftheimages.Experimental
resultsshow
thattheapproach
can
signatureand
thusimprovetheperformance
of
imageclassification.
Keywords:statistical
approach;signatureenhancement;imageclassification
摘要:Bag—of-Words模型对于图片分类来说是一种非常有用的技术,它利用事先定义好的“可见字”为每张图片建立一个特征向量。提出了一种新的统计方法来发掘可见字对于每一类图片的区分能力,再利用线性模型合并“可见字”,从而为每张图片构造新的特征向量。实验结果显示这一算法能够增强特征向量的区分度,进而提高图片分类的性能。关键词:统计方法;特征增强;图片分类DOI:10.3778/j.issn.1002—8331.2009.05.052
文章编号:1002—8331(2009)05—0177--03
文献标识码:A
中图分类I吾':TP391
1引言
Ba州二Words模型口在文本分类中非常流行,其基本思想是
建立—个由“字”和“文档”组成的共生矩阵,每个文档被表示成由一系列“字”组成的向量。近些年,这—模型被引入计算仉觇觉中,将每张图片描述成由一系列的相互独立的“可见字”组成的向量。文中先用统计方法得出每个“可见字”的类区分度,然后利用线性模型将这些“可见字”合并,构成一系列的新的“可见字”,再重建
每张图片的特征向量来增强其区分度并最终提高分类性能。2算法基本框架
图1给出了算法的基本框架。总体来说,此基本框架分为
图1算法基本框架
下一步便是利用合并模块找出每个“可见字”的类区分度并重构每个特征向量,然后利用分类模块为每个图片类建立了类模型。类似地,这些类区分度和类模型在算法中保持不变。
在识别阶段,每张测试图片经过检测模块、描述模块、特征模块和合并模块(没有聚类模块)的处理后将其新的特征向量输入分类模块。分类模块用每个已生成的图片类模型检测此特征向量并最终确定其所属类别。
六大模块:检测模块,描述模块,聚类模块,特征模块,合并模块
(虚线区域)和分类模块。
在学习阶段,检测模块从训练图片中提取有用的局部氏域,然后经描述模块将这些区域映射成高维向量,再由聚类模块将它们聚类,每个类中心(向量)便是—个“可见字”,并且这些“可见字”在算法中保持不变。接下来,特征模块计算每个向量和每个“可见字”在高维空间中的距离,用距离最短的“可见字”描述每个向量,再以直方图的形式统计每个“可见字”出现的次数。这个直方图便是图片的特征向量,其维度是“可见字”的个数。
3合并算法的实现
合并算法的基本思想是利用线性模型合并“可见字”构造
作者简介:张子明,男,硕士研究生;刘金刚,男,教授,博士生导师,主要研究方向:智能接口技术。
收稿日:2008-01—11
修回口期:2008—04—23
万方数据
ComputerEngineeringandApplications计算机工程与应用
新的特征向量从而尽可能地最大化类问距离_s。同时最小化类内距离S,。
3.1线性模璎
—个线性模型的基本表达形式如T:yi=al鼍.1帕2菇∞+..‘+丐鼍J坩;,其中,x是输出变量,毛。是输入变量,呼是气。的权重。
占;是误差项。如用矩阵形式表示,线性模型可以描述为:Y=aX+£,其中,l,是输出矩阵,x是输入矩阵,口是权重矩阵,£是误差矩阵。
在合并算法中,l,等价于合并后的“可见字”一文档共生矩
阵,x等价于未合并的“可见字”一文档共生矩阵,口是变换矩阵,而对于£,假设e---O。合并算法的目的就是找到—个合适的变换矩阵口。3.2
目标函数
这里没有直接同时最大化类间距离5。和最小化类内距离
sr,而是选择最大化&和S甲的比值。&和Sw的定义如下:
&2;∞c‘广∞c-;)
其中卜c2亩委t
s,--.Y。…Y(‘甲。)T(‘牛。)I;=号;‘
这里渺,表示类c的平均特征向量,工表示所有训练图片的平均
特征向量,工.表示图片r的特征向量,r∈c表示图片r属于类c,M表示类c中的训练图片数量,Ⅳ表示所有训练图片的数量。
另外,在算法中,变换矩阵口还要满足下面两个条件:(1)口中的每个元素都是非负的。(2k中每行元素的和都应相等。综合上述内容,最终的目标函数定义如下:
q
h≥o
Vi√
以神一‘考’s't"1∑畔vi
L
J
这里,a。表示d中第i行第』列的元素,1,0是一个预先定义的常量。3.3
L(a)的上限
考虑到目标函数的复杂性,采取寻找L(口)的一个定值上
限的方法来代替最大化L(a)。定义—个运算符“V”,表示选取两个向量中相同位置上的较大值来构造一个新的相同维度的
向量。以此为基础,蜀93(p6=V{o,心一髫l和g:=V{o,q巩l,则输出矩阵的类间距离s:和类内距离Swl可分别定义为:
s:=;(p‘)Tarap。2;磊p麓%%
s:=∑∑(g:)7口7《=∑∑Zq:qf,。t,。%
其中,p;表示特征向量p。的第i个元素,g:表示特征向量g:的
婿痧qo)一懒。=畿,
万
方数据s审YⅡJ重写为s甲Y=;A。∑i虿=歹1。∑,id,lt荔虿,其中口是正定常量。
如,=争豢≤。戛警≤乞毛c≯
品}。蓼i“”^吼乃
“”o‘
当且仅当%=鲁时等式成立。综上所述,对于L(口)存在
一个定值上限。Olki=彗被定义为“可见字”i对于类k的类区
3.4变换矩阵口
求和问题,就是给定一系列的正整数c,,…,c。和正常数s,希
望找到一系列的Wi∈{o,1)使得∑ciWi≈。而现在的问题是:给
定一系列的正数al’-“,a。和正常数s,希望找到一系列的毗
E{o,1l使得∑%峨一s.KtZOciW;_sI最小。
(3)对于图片类矗,根据17计算每行和的粗略值s=∑%纫。
i
(4)对于每个图片类,将所有类区分度非零的“可见字”从大到小排列,从头选取。
(5)当选取的“可见字”的类区分度之和大于s时,停止选取,并将这些“可见字”按照其原来顺序排列,其余位置用0填充,构成口中的一行元素。
(6)重复步骤(3)、(4)和(5)直到所有的类区分度非零的“可见字”都已加入口中。
4实验结果
采用Caltech的图片库睐评估算法。这个图片库包含5个
图片类,分别是:摩托车(826张),人脸(450张),飞机(1
074
张),车尾(1155张)以及背景图片(900张)。
实验中,所有图片均是灰度图且宽度固定为300像素点。同时,在每次运行程序时,每个类中的图片都被等分成两份,一
份作为训练数据,—份作为测试数据。然后用Ba州二Words模
型来描述每张图片。首先,用saliencyregion探测器p提取图片中的局部区域,然后将这些区域的大小调整到长宽各为16像
素点,再将其长宽各等分成4份,形成16个小区域。接下来,将
每个小区域用—个8维梯度向量表示,然后将这16个小区域
的8维梯度向量连接起来并正规化,得到—个128维的类似于
SIFT描述器目的梯度向量。用这种128维的梯度向量来描述每
个局部区域。下一步用k-means将训练数据的梯度向量聚类形成1000个“可见字”,再经过特征模块得到每张图片的特征向
张子明,刘金刚:图片分类特征增强的统计方法
量。在合成模块中,变量田的值固定为15。在分类模块中,采用pLSAl6蜥/为分类器。最终的实验结果是50次运行程序获得结果的平均值。
下面从两个方面评估算法:(1)特征向量的区分度;(2)图片分类性能。
同数量的隐藏变量来检测算法。表3给出了比较结果,其中“r
表示隐藏变量的数量,“M”、…F’、“A”、“CR”和“BG”分别表示摩
托车、人脸、飞机、车尾和背景类。从这张表中,可以看出虽然在非背景类的4类图片的分类中实验结果不如[71,但是在5类图片的分类中我们的结果要远好于【7】,且很稳定。这又可以说明我们的算法对图片分类性能的提高是很有帮助的。
表3
多类分类问题的比较
(%)
4.1特征向量的区分度
表l列出了最初的特征向量0s和合并后的特征向量DS的区分度、类间距离与类内距离的比值L(a)、以及百分比提高量Pl。从中可以明显地看出算法有效地增强了特征向量的区分度。
表1区分度比较
图片类等絮锷著
摩托车+背景人脸+背景飞机+背景
车尾+背景
O.81.41.21.0
5.68.16.56.1
600.0478.6441.75lO.O
5结束语
提出了一种以Bag—of-Words模型为基础的增强图片特征向量的统计方法。其基本思想是通过分析“可见字”的类区分度,利用线性模型将不同的“可见字”合并,从而为每张图片构
4.2图片分类性能
将得到的实验结果与[7】和[3】中的实验结果进行了比较。比较结果基于Receiver面积(AUC)。
对于物体一背景的两类分类问题,表2给出了比较结果。通过分析表中的数据,不难发现算法(DS)大大提高了图片的分类性能,并且除飞机类图片外,算法在其余类上的实验结果是这4种方法中最好的。其原因可能是因为从飞机类图片中提取的局部区域一般要少于其他类,而局部区域的数量将直接影响到最终分类的结果。对从这5类图片中提取的局部区域数量进行统计发现,飞机类图片的平均局部区域数量为37,而对于摩托车、人脸、车尾和背景类图片来说,其平均局部区域数量分别为59、46、66和46。这种平均数量上的差别可能导致飞机类的
Operating
造出新的特征向量,再基于这些新的特征向量将图片分类。实
验结果显示这一算法能够大大增强特征向量的区分度,进而提高图片分类的性能。
Characteristic(ROC)曲线下的
参考文献:
【l】DanceC,WillamewskiJ,FanL,cta1.Visual
bags
of
categorization
On
with
keypoints[C]//ECCVInternationalWorkshop
in
Statistical
I.Ⅲming
ComputerVision,2004.
to
121GareyMR.JohnsonDS.Computersandintractability:Aguide
thetheoryof
np-eompleteness[M].NewYork。NY。USA:W.H.Free-
rn∞&Co.1990.
【3】3FergusR,PeronaP,ZissermanA.Objectclassrecognitionby
pervisodference
acale-invariant
on
unsu-
最终实验结果不如其他类。在下面的多类分类问题中,也观察
到类似问题。
表2两类分类问题的比较(%)
learning[C]//ProceedingsoftheIEEECon—
ComputerVisionandPatternRecognition,Madison,
Wisconsin,2003.2:264—271.
【4】KadirT,BradyM.Saliency,scale
andimagedescription【cFAlcv,
200l。45:83—105.
【5】I.giweD.Distinctiveimagefeaturesfromscaleinvariantkeypoints叨.
InternationalJournalofComputerVision。2003。20:91—1lO.
【6】HofmannZUmupervised
learningby
probabilisticlatent
semantic
analysiffMl.Hingham,MA,USA:KluwerAcademicPublishers,2001,42:
177-196.
【71SivicJ,RussellBC,EfrosAA,eta1.Discoveringobject
categories
对于多类分类问题,按照【7】中的实验配置对pLSA采用不
in
image
coileetions[Cl//ICCV,2005.
(上接137页)
【7】BryllR,GutierrezOR,QuekF.AttributeBagging:ImprovingacCql--
racy
ference
on
Artifieial
mn
【9】9
Yang
Intelligence.SanFrancisco,USA:Morgan
Kauf-
Publishers.1993:889—894.Yiming,Liu
Xin.A他-examination
ofACMSIGIR
of
text
ofclassifier
ensemblesbyusingrandomfeaturessubsets[f1.
categorization
on
PatternRecognitionLetters,2003,36(6):1291—1302.
methods[C]//ProceedingsandDevelopment
in
ConferenceResearch
f8】LangleyP,IbaW.Average-caseAnalysisofNearestNeig}l】cxn"al-
gurithm[C]//ProceedingsoftheThirteenth
InternationalJointCon—
Information
Retrieval(SIGIR’99),Berkeley,
Califomia。USA:1999:42—49.
万方数据
图片分类特征增强的统计方法
作者:作者单位:
张子明, 刘金刚, ZHANG Zi-ming, LIU Jin-gang
张子明,ZHANG Zi-ming(首都师范大学,信息工程学院,北京,100043), 刘金刚,LIU Jin-gang(首都师范大学,信息工程学院,北京,100043;中国科学院,计算技术研究所,北京,100080)
计算机工程与应用
COMPUTER ENGINEERING AND APPLICATIONS2009,45(5)
刊名:英文刊名:年,卷(期):
参考文献(7条)
1. Lowe D Distinetive image features from scale invariant keypoints 2003
2. Sivic J;Russell B C;Efros A A Diseovefing object categories in image collections 20053. Hofmann T Unanpervised learning by probabilistie latent semantic analysis 20014. Kadir T;Brady M Saliency,scale and image description[外文期刊] 2001(2)
5. Fergus R;Perona P;Zisserman A Object class recognition by unsupervised scale-invariant leaming2003
6. Garey M R;Johnson D S computers and intractability:A guide to the theory of np-completeness 19907. Dance C;Willamowski J;Fan L Visual categorization with bags of keypoints 2004
本文链接:http://d.g.wanfangdata.com.cn/Periodical_jsjgcyyy200905052.aspx