定制论文·联系客服·网站地图·收藏本页·设为首页
计算机应用当前位置:中国论文库 > 计算机论文 > 计算机应用> 正文

一种新的字符图像倾斜矫正与分割算法

时间:2011-04-08作者:黄新,郝矿荣,窦易文来源:中国论文库
字号:T|T

摘 要:针对传统的倾斜矫正与分割算法对不同类型的字符图像处理效果各异的问题,本文提出了一种改进的算法,加入了新的倾斜角度确定准则、阈值动态调整以及区域后处理,不

标签:

     摘 要:针对传统的倾斜矫正与分割算法对不同类型的字符图像处理效果各异的问题,本文提出了一种改进的算法,加入了新的倾斜角度确定准则、阈值动态调整以及区域后处理,不仅解决了传统方法易受噪声和复杂背景干扰、可操作性差的问题,而且也有效地实现了字符图像的倾斜矫正与分割。实验结果表明,尽管新算法在像素点判断次数上多于最大类间方差算法,但分割效果明显优于最大类间方差和文献[7]的阈值分割算法。同时,本算法较传统算法更加具有鲁棒性,运行时间可以满足实时性的要求。 

     关键词:字符图像;倾斜矫正;阈值分割;区域后处理

    1 引言

    字符识别系统主要由字符区域定位、字符切分以及单个字符识别所组成。字符区域定位的作用是在整幅图像中找到并分割出含有字符的图像,也是整个系统实现的前提。而字符切分则是利用字符的局部与整体信息,将字符图像切分成单个的字符,从而使字符识别可以顺利进行,因此准确地将字符切分出来是字符识别系统成功的关键。文献[1]采用了将图像垂直投影分布和形态学处理相结合的方法对字符进行切分,该方法易受上下边框和二值化处理效果的影响。文献[2]使用了一种基于汉字字符轮廓凹凸特征的印刷体汉字切分方法,但该方法需要依赖大量的先验知识。

    同时,在实际的图像采集过程中,由于摄像头与字符图像之间总会存在一定的角度,这也不可避免地造成了字符图像某种程度的倾斜,因此必须找到有效的方法对字符图像进行矫正。目前,较为常用的方法为基于投影分析的倾斜检测算法[3],该方法对于那些有着复杂背景的字符图像检测精度较差。文献[4]通过Hough变换的方法得到倾斜角度,进而矫正字符图像,但该方法计算量较大,很难适应字符自动识别的实时要求。

    传统的倾斜度矫正方法很容易受到图像中噪声以及复杂背景的干扰,所以目前大多数的矫正算法都是基于二值图像的。文献[5]采用了先进行连通区域划分,再确定区域上下边界,最后通过直线拟合特征点的方式实现矫正。该算法所采用的步骤较多,很容易造成误差的积累,而造成图像矫正的偏差。另外,此方法运行时间较长,也很难适应实时性的要求。

    本文采用了首先对字符图像进行阈值分割,而后利用分割后的二值图像中字符像素点的信息直接求取倾斜角度的方式实现图像的矫正。文章第2节针对倾斜的字符图像中单个字符的切分问题进行了讨论,并分别在倾斜度识别、阈值分割和分割后处理上对传统算法进行了改进。最终的仿真实验结果证明了将该算法用于字符图像的倾斜矫正与分割中是有效的。

    2 矫正倾斜图像

    2.1 倾斜角度的获取对于获得的字符图像,首先对其进行阈值分割,即二值化。图1b就是对含字符的文本图像进行阈值分割的结果。字符图像经过了上面的阈值分割后,黑色和白色像素点分别为背景点和字符像素点,本文在此基础上采用的倾斜角度计算方法为:(1)确定倾斜角度范围为-θ,θ,θ为设定的倾斜角度最大值。取最小递增单位Δθ=1。

    (2)在图像中选定目标点x,y ,x和y分别为该点在字符图像中的行值与列值。建立一维数组qingxie[z],-θ≤z≤θ。该数组的元素qingxie[a]用于记录检测点与目标点之间倾斜角度为a的点的个数。

    (3)检测图像中的每个字符像素点,计算其与目标点的倾斜角度,并存入数组中。

    (4)图像处理完毕后,检查数组qingxie,找到数组中元素的最大值qingxie[θ0]。

    (5)取邻域半径δ,将数组qingxie[θ0-δ]到qingxie[θ0+δ]的元素值与qingxie[θ0]作比较,如果差值大于T,则将其去除;否则,记录其下标。

    (6)将每一个记录的下标作为候选的倾斜角度,利用图形的平移与旋转对图像进行矫正。选择其中效果最好的作为最后的倾斜矫正结果。

    本文选择的目标点为字符图像的中心位置x,y。邻域半径δ一般取较小的值,这里取δ=2。没有直接取使数组元素取得最大值的θ0作为倾斜角度,而是通过将其与周围的倾斜角度作比较,找到最好处理结果的方式得到倾斜角度。这是因为噪声和复杂背景的存在,会造成阈值分割时阈值选取的偏差,也就是会在二值图像中有少量像素点被误划分。所以,我们将θ0周围的角度也考虑进去,以消除上述问题对矫正过程产生的影响。阈值T用以衡量与数组元素最大值的差距,超过该限度,则将其从候选角度集中删除,本文选择T=10。以图1中的字符图像为例,得到的qingxie数组值见表1。由上述的选择规则可知,倾斜度9、10和11为候选角度,根据矫正效果决定最终的倾斜角度(见图1c~图1e)。由图1c、图1d和图1e可见,选择的倾斜角度为9和11时,字符图像分别出现了旋转不足和过度的问题,因此可以确定该图像的倾斜角度为10。

    图1 字符阈值分割和旋转矫正结果2.2 倾斜度矫正利用上一节的计算过程求得候选的倾斜角度后,利用图形的平移和旋转对图像进行矫正,并从中选择效果最好的作为最终的矫正图像。矫正过程如下[6]:首先,选择旋转中心点,即目标点。一般图像的旋转都是以图像的中心作为原点,旋转一定角度后得到了倾斜图像。矫正倾斜图像实际上就是上述过程的逆过程。

    设旋转中心点为P,绕该点旋转。P点在未旋转坐标系X-O-Y中的坐标为(a,b),在旋转后的坐标系X′-O′-Y′中的坐标为(c,d)。在未旋转图像中任取一点(x,y),旋转之后该点的坐标为(x′,y′),这里通过旋转变换矩阵,对文献[6]的公式进行了修正:x = x′cosθ-y′sinθ-ccosθ+dsinθ+ay = x′sinθ+y′cosθ-csinθ-dcosθ+b(1)3 动态调整阈值的二值化新算法阈值就是对图像进行二值化时区分目标与背景的门限值,它的正确选取是二值化技术的关键,通常其方法可分为全局阈值和局部阈值两大类。

    全局阈值法的优点是算法简单,运行速度快,但对背景复杂,目标和背景灰度级十分接近的图像,处理效果欠佳。局部阈值法更为灵活,而且其二值化效果也较好,但是该方法也有着运行速度慢,可调参数过多而缺少可操作性等缺点。

    我们提出了一种将初始分割阈值与动态调整的差值阈值相结合的二值化新算法。新算法将全局阈值法的方法简单、运行速度快和局部阈值法处理效果好的优点相结合,以使字符图像具有更好的阈值分割效果,有利于下一步的字符切分。该阈值分割新算法的实现过程为:(1)初始化分割阈值T:设当前处理点为(i,j),判断该点与其8邻域中各点的灰度值差值,如果该值大于给定的某个阈值ε,则记录该点。如果在扫描的邻近的8像素点中有ω个以上被记录,则认为该点是字符点;否则,认为其是背景点。利用上述方法扫描整幅图像,统计字符点的个数n,并在灰度直方图中根据该值选择分割阈值X。注:由于字符像素点在整幅图像中所占比例大致在0.35到0.5之间,因此本文选用了该准则来确定ω,ω的取值范围为4到6。

    (2)对图像中每个像素点(i,j)进行判断:取一个以(i,j)为中心,p×q为大小的窗口。统计该窗口中所有像素点与(i,j)点的灰度差值,并将其存放在一维数组chazhi[256]中,用以记录灰度差值的分布(0~255)。

    (3)如果当前窗口检测完毕,则计算数组chazhi[256]中灰度差值的均值E。

    (4)用下面的公式对差值阈值T进行更新:Tnew= (1-η)·Told+η·E (2)  本文将初始差值阈值T设置为一个小阈值。转贴于中国论文库 http://www.lwkoo.com

相关阅读

推荐论文

热门

最新

推荐