最新 最热

文档理解的新时代:LayOutLM模型的全方位解读

在现代文档处理和信息提取领域,机器学习模型的作用日益凸显。特别是在自然语言处理(NLP)技术快速发展的背景下,如何让机器更加精准地理解和处理复杂文档成为了一个挑战。文档不仅包含文本信息,还包括布局、图像等非文本元...

2023-11-29
2

手机端侧文字识别:挑战与解决方案

其中,快速灰度化是首步,它使用像素加权法(如YUV转换)将彩色图像转化为黑白,目的是减少数据维度,加速后续处理。

2023-10-20
2

FOTS:端到端的文本检测与识别方法的理论与应用

目前的主流算法也可以分成单阶段和两阶段两大类两阶段的方法都是基于目标检测和实例分割中常用的算法Faster R-CNN 和Mask R-CNN。Li 等人(2017a)提出了第1个基于深度学习的端到端自然场景文本检测和识别算法,该方法基...

2022-11-04
2

【文本检测与识别-白皮书-3.1】第三节:算法模型

2014年论文《Rich feature hierarchies for accurate object detection and semantic segmentation Tech report》提出R-CNN模型,即Regions with CNN features。这篇论文可以算是将CNN方法应用到目标检测问......

2022-10-26
3

【文本检测与识别-白皮书】第二章:文本检测与识别技术发展历程

俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印刷体或手写体文本进行读取识别,转化成计算机和人都能够识读的格式。此间OCR技术是关键一环。OCR技术中,印刷体的文...

2022-09-27
2

​合合信息对于文本纠错:提升OCR任务准确率的方法理解

近年来深度学习在OCR领域取得了巨大的成功,但OCR应用中识别错误时有出现。错误的识别结果不仅难以阅读和理解,同时也降低文本的信息价值。在某些领域,如医疗行业,识别错误可能带来巨大的损失。因此如何降低OCR任务的错字...

2022-08-26
2

【技术白皮书】第三章文本信息抽取模型介绍——实体抽取方法:NER模型(下)

新加坡科技设计大学的研究者2018年在论文《Chinese NER Using Lattice LSTM》中提出了新型中文命名实体地识别方法Lattice LSTM。

2022-08-18
2

【技术白皮书】第三章:文字表格信息抽取模型介绍——实体抽取方法:NER模型(上)

深度学习是一个由多个处理层组成的机器学习领域,用于学习具有多个抽象层次的数据表示。典型的层次是人工神经网络,由前向传递和后向传递组成。正向传递计算来自前一层的输入的加权和,并通过非线性函数传递结果。向后传递...

2022-08-17
2