基于Bounding Box和统计方法矫正OCR文本的方向
前言
现在很多 OCR 模型实际上已经支持了一定程度内的旋转文本的识别,即图片中的非水平方向的文本可以正确识别其方向并按照正常的水平顺序返回该文本;但这仅限于每一个 Bounding Box 内的文本,因为 OCR 模型一般原始输出都是从图片中获取一个个单独的文本区域——即 Bounding Box,然后识别该区域的文本,并不会对这些 Bounding Box 进行拼接得到按正确顺序返回的完整文本,如:

从图中右侧不难发现哪怕图片中的文本有一些旋转,OCR 模型也可以识别出这些文本块的方向,并返回正确的文本顺序;但是如果要以正确的顺序(从左至右,从上至下)返回所有的文本行,就需要自己去处理了。
一般来说,我们可以假设图片中的文本旋转方向都是一样的(适用于常见的单页文本拍照或者扫描件),因此只需要得到一个整体的旋转方向,然后基于这个方向进行一个逆运算即可得到正常水平方向的 Bounding Box 位置,也就能拼接得到视觉层面上正常顺序的完整文本了。



