基于文字特征的碎纸片拼接复原_陈泽(1)
基于文字特征的碎纸片拼接复原
陈 泽 国防科技大学三院
【摘 要】本文主要从碎纸片中文字和背景的灰度值差异出发,通过对比任意两张图片灰度值矩阵边界找到相互匹配的纸片。匹配算法具体分为图像预处理、图像匹配和人工验证三部分。在图像预处理部分利用MATLAB对图像进行数字化处理,获取图像的像素矩阵,进而提取出图像边界特征向量。在图像匹配阶段,根据拼接图片的不同类型需要采取不同的模型进行计算。
【关键词】MATLAB 灰度值矩阵 特征向量 二值化 半自动拼接技术
【中图分类号】TP391 【文献标识码】A 【文章编号】1674-4810(2013)26-0060-02 一 背景介绍
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术用以替代现有的人工拼接,以提高拼接复原效率。
二 模型的建立 1.纵切拼接模型
碎纸机在切割纸张过程中如果仅采用纵切的方法,那在拼接过程中我们只需确定左右相邻图片并按顺序拼接即可。
用MATLAB将图片数字化后得到的矩阵一般过于庞大,我们需要对其进行简化、精炼,从而选取可用于排序的特征向量。
首先对矩阵的横行方向进行简化。由于图片拼接最重要的影响因素集中在图片边界,所以我们分别提取每个数字化矩阵的第一列和最后一列作为碎纸片的左右边界特征向量,并可根据此特征向量判断出页面边界的图片,作为排序的开始端,然后再对矩阵的纵列方向进行简化。由于矩阵在列方向上存在明显分行规律(文字行和行间距),占用大量不必要的存储和计算空间,可适当简化为以文字行(同一文字行内特征数据为一组)为单元进行后续处理。此时将边界上的文字特征区分为两类,一类文字完整(即未被切割开,单个文字完全属于一张图片),另一类是文字被切割到两张图片的边界上。很明显,仅有完整的文字只能与另一完整的文字拼接,不完整的文字只能与另一不完整文字拼接,从而可根据此原理选择任一图片的相邻图片。利用简化算法在MATLAB中将图片边界的文字特征点(即非白像素点)在特征向量和中简化为“1”,反之简化为“0”,使得特征向量的行数简化(文字行),减小运算难度。
简化方法如下:(1)确定每一文字行所占边界像素数量;(2)确定文字行在页眉页脚的预留像素数量,一般情况下,上下预留空间大小相同,暂且认为以上数据正确并按照此数据计算;(3)如一个像素为2016×72的图片,不考虑页眉和页脚的冗余像素,按照每70个像素数据为一组的规则进行简化,将每个特征向量简化为28个元素,用非黑即白原则:一旦在一组的70个像素数据中出现非零数字,即定义特征数列在该位置的简化结果为“1”;反之,70个数字都为零时定义为“0”。这样,我们可以得到第i个图像简化后
的特征矩阵。
定义匹配指数矩阵,其任意元素称为图像配合差异度,元素的值越小,表示第i个图像的左和第j个图像的右边配合差异越小,即匹配度越大,为了挑选出两个最适匹配的图像,我们将其二值化为0,1矩阵,1表示两个图像可以匹配,0表示两个图像不能匹配。因此,只要挑选出矩阵中含元素1的行与列就可以找出可能相互匹配的两张图像。
在实际匹配过程中,由于已经通过图像的特征向量找到最左边和最右边的图片,采取左右同时匹配的方法:(1)从左边第一张图片开始向右排列;(2)从右边第一张图片开始向左排列。这样可以避免排列过程中出现“死循环”,并且根据左右排列的顺序同时定义还没有排列的图像的优先级,提高匹配的准确率。
值得注意的是:在图像原始矩阵中存在一定概率遇到某些完整的文字,其边界正好与图片边界重合,即存在“1”与“0”配对的可能性,这种情况下就会出现“漏判”,为此,我们用阈值筛选的方法减小这种可能性,但还需要一定的人工校验。
2.分步拼接模型
第一,按纸片顶部行特征分组。如果每个图片都与其他图片只进行左右配合拼接必然导致效率低下,为此,考虑到裁纸机只能进行横切和纵切,可先按每张图片文字的首行高度特征进行分组,将每一组内的图片分别按行拼接得到“图片行”,具体操作步骤如下:(1)在分组前首先要进行预处理工作,根据像素确定行高;(2)对图片进行自上而下的逐行扫描,获取顶部行特征,此时我们定义顶部文字行的底端所处位置为其图片特征,用其距离上边界的像素数目m表示;(3)根据以上方法得出每张图片的顶部行特征值m,用来表征每张图片复原后所处位置特点,并根据m的不同取值范围,将所有图片分组。
第二,按行拼接(纵切拼接模型)。由于与第一问不同,
数字化后的图像含有的像素点也会每个纸片尺寸相对较小,
较少(180×72的矩阵),我们可以不用简化数据,直接提取矩阵左右两边的特征向量,按照第一问中的纵切拼接模型进行处理。
按照纵切拼接模型中的方法计算匹配指数矩阵,将其二值化后作为图片拼接的依据得到每一行的碎纸片的初步拼接
-60-
提高高专学生英语听力能力的策略和技巧
罗宁曦 常州工程职业技术学院
【摘 要】英语是世界上使用最广泛的语言,也是世界性的工具语言。随着中国的发展,我国对英语人才的需求越来越大,而英语听力是英语实际使用中重要的环节。在教学改革过程中,不难发现听力的学习仍是学生学习英语的一大问题。如何提高学生英语听力学习兴趣,提高学生理解能力是教师和专家需要重点研究的。高专英语教育需要有针对性的思考,更需要付出实际行动来解决问题。
【关键词】高职高专 英语听力理解力 对策 英语教学改革
【中图分类号】G642 【文献标识码】A 【文章编号】1674-4810(2013)26-0061-02 学习英语是中国国际发展的要求,也是中国在经济文化等方面与世界接轨的要求。但多数学校对学生在英语学习上仍停留在应试教育的模式下,要想学生真正掌握英语听力技能,必须实现学生理解能力的提高,掌握相应的策略和技巧。高专英语需要在提高学生英语学习兴趣的同时,提高他们的英语听力理解能力,使学生能够实际应用英语技能。
一 问题的提出
英语的学习将给学生带来更多的机会,包括继续攻读高一级学位、用人单位的工作要求、出国等,其重要性不言而喻。经济发展给我们的高专学生带来前所未有的机遇和挑战,高专英语学习必须得到重视。不同的环境对人才的需求不同,但英语技能是整个社会所需求的。专科学校重视培养学生的专业技能和实践能力,包括电子、电器、汽车等的技能技巧。高专在普通学科的教学基础上加大实践教学力度,既有大学文化程度,又有高级技能实践能力,是新时期较受欢迎的一种应用人才培养形式。高专的英语课程为毕业生提供了更广阔的发展空间。
高专对学生英语学习的要求并不高,学生只要达到一定的英语等级,考取英语等级证书即可。英语学习讲求听、说、读、写四项基本能力,但社会对人才的要求越来越高,高专学生已不满足高专英语的学习,不局限于为获得英语等级证书而学习。随着教学改革的深入,很多学生对英语学习仍存在问题,如学习英语各项技能有所偏重,缺乏学习兴趣等。高专英语要达到素质教育的要求,要想做到英语技能的全面发展,英语的理解能力十分重要,听力教学等必须真正落到实处,这是高专学校英语教学面临的难点。
结果,然后进行人工校验最终确定拼接完成的图片。
第三,“图片行”的纵向排列。由于行与行之间的拼接会受到行间距、段间距的影响,因此,不适宜用像素点阵匹配的方法进行拼接。由于本题中纵向图片数量较少,因此可以采用人工干预的方法对图片进行人工拼接。这样不仅可以简化拼接流程,而且人工拼接过程相比计算机拼接还有一个很大的优势,即人可以根据文字内容的语意进行拼接,相比之下可以进一步提高拼接效率和准确率。
二 高专英语听力教学现状
英语教学是素质教育普及的重点环节,每个学校对此都十分重视,但目前的英语教学仍存在很多问题亟待思考和解决,如学校对英语听力教学的不重视、教学方法的不完善等等弊端的存在十分值得我们注意。高专作为传授知识组织学习的一方,需要对学生英语学习负起责任。同时,学生对英语学习兴趣不浓厚也导致英语能力和成绩难以提高,学生甚至对英语听力产生焦虑心理,越紧张越听不懂,问题十分严峻。
高专英语学习主要是课堂的教学,有些学校有一些英语社团、英语角等课外活动供学生交流学习,但这些远远不能满足英语学习的需求。同时,受中国传统教育的影响,教师对培养学生学习英语的不重视造成英语实际使用能力缺少。很多教师仍以学生英语课程的考试成绩来评判学生学习英语的程度,这使一些学生更看重分数。另外,在一些英语资格考试试题上听力所占比例较少,这也更使学生在听力方面缺乏有效训练,甚至对英语的听、说、读、写各个方面学习有所偏重。
现有高专英语教师队伍的素质问题也是学生学习英语面临的问题。教师的综合业务水平不高,致使学校课堂教学质量提升受到阻挠,教师教学方法陈旧,思想保守,极不利于适应时代发展的英语的学习。目前,我国听力课堂的模式多为放听力、做题、对答案的形式,死板而枯燥,忽视了课堂的灵活性,忽视了学生的学习主动性、积极性,致使课堂效率低下。高专旨在培养专业技术人才,英语学习可以是符合学生专业技能的专业英语,与专业相关,才会引起学生更多的关注。
参考文献
[1]欧阳鑫玉、赵楠楠、宋蕾等.图像分割技术的发展[J].
鞍山钢铁学院学报,2002(5) [2]王爱民、沈兰荪.图像分割研究综述[J].测控技术,2000
(5)
[3]章毓晋.图像分割[M].北京:科学出版社,2001
〔责任编辑:范可〕
-61-