文档布局分析 (Document Layout Analysis) 是识别和分类文本文档的扫描图像中的感兴趣区域(RoI, Regions of Interest) 的过程。阅读系统需要从非文本区域分割文本区域,并按正确的阅读顺序排列。将文本正文,插图,数学符号和嵌入文档中的表格等不同区域(或块)的检测和标记称为几何布局分析。但文本区域在文档中扮演不同的逻辑角色(标题,标题,脚注等),这种语义标记是逻辑布局分析的范围。
项目相关代码 和预训练模型 、数据集 获取:
关注微信公众号 datayx 然后回复 版面分析 即可获取。
AI项目体验地址 https://loveai.tech
样本解释:
坐标文件(BBox):首行格式为:图片名称、图片宽度、图片高度;下面为每个区域的坐标信息,格式为:编号、类型、左上 X 坐标、左上 Y 坐标、右下 X 坐标、右下 Y 坐标,其中类型有 3 种,text 表示文本,image 表示图片,table 表示表格。
掩膜图片(Mask):红色表示文本区域,绿色表示图片区域,蓝色表示表格区域
图像分割(Segmentation)是指将图像分成若干具有相似性质的区域的过程,从数学角度来看,图像分割是将图像划分成互不相交的区域的过程。
基于图论的方法、基于像素聚类的方法和基于深度语义的方法这三大类
边界框回归:相比传统的图像分类,目标检测不仅要实现目标的分类,而且还要解决目标的定位问题,即获取目标在原始图像中的位置信息。
AlexNet是在LeNet的基础上加深了网络的结构,学习更丰富更高维的图像特征。AlexNet的特点:
更深的网络结构
使用层叠的卷积层,即卷积层 卷积层 池化层来提取图像的特征
使用Dropout抑制过拟合
使用数据增强Data Augmentation抑制过拟合
使用Relu替换之前的sigmoid的作为激活函数
多GPU训练
文档布局分析 & 扭曲文档图像恢复