一、什么是OCR模型?
光学字符识别(OCR)模型是一种文本识别模型,它能够从数字图像和PDF中识别并提取印刷体和手写体文本。您可以使用机器学习训练模型扫描数字图像或PDF,并提取所需的信息。
当您希望从大量非结构化数据中处理和检索结构化数据时,这一点尤其有用。然后,企业可以根据需要存储和处理这些结构化数据,从而帮助他们简化和自动化数据录入流程。例如,结构化数据是电子邮件的日期和时间,而非结构化数据是电子邮件的全部内容本身。
二、Zoho Creator支持两种OCR模型
Zoho Creator支持两种OCR模型,您可以构建适合您业务需求的自定义模型,或者选择一个即用型(预构建)模型,该模型已经准备好部署在您的应用程序中,用于许多常见的业务场景。
自定义OCR模型:该模型可以被训练以识别和提取仅需要的值。自定义OCR模型利用了一系列行业领先的文本识别技术来识别和突出显示自定义OCR模型中的文本。模型识别出的所有可提取文本后将被突出显示,以表明它们是未标记的值。然后,您可以添加并标记您希望从图像中提取的字段的值,之后,模型可以被训练以提取和处理在您的图像中找到所需的文本。
注意:
· OCR 模型可以从图像中提取文本,而不管字体类型如何。
· 该模型可以检测印刷文本和手写文本。建议使用印刷文本。如果手写文本有太多变化,则模型可能会发现难以处理所需的文本。
OCR模型的建立与训练是为了满足特定的业务需求,使您能够定制开发OCR模型,同时也提供了现成的OCR模型,以便您能够快速部署到应用程序中。
如果您的目标是从特定图像集中提取文本,自定义OCR模型将是一个更佳的选择。例如,当您需要识别和提取图像中的特定信息时。相反,如果您需要从图像中提取所有可检测的文本,无论是从文档扫描还是PDF文件,现成的OCR模型都能够满足这一需求。
通过Zoho Creator,OCR技术的运用变得更加简单和灵活,无论是选择定制开发还是使用现成的模型,都能够快速响应业务需求,提升工作效率。
三、OCR模型需要哪些数据?
基于图像的OCR模型:您必须至少上传五张布局相似的图像作为训练数据。 只要正确标记了提取值,图像也可以是不同布局的。
基于PDF的OCR模型:对于自定义OCR模型,您必须至少有五个包含最多2页相似布局的PDF文件来提取所需文本。
Zoho Creator所有付费计划的用户都将可以使用AI模型。您必须使用Zoho Creator 6才能创建自定义AI模型,而现成的AI模型在C6和C5中都可用。
例如
您需要从发票中提取某些数据,例如发票日期、发票编号、到期日期和账单地址。这可以通过依赖纸质发票来手动处理,单当涉及多个发票信息时,自动化提取过程可以节省大量的时间和手工劳动。
在上述情况下使用OCR模型的方法:
1、创建模型:确定要提取的值,并选择相应的字段类型来存储这些值。例如,将提取的值包括发票号码、发票日期、到期日期和账单地址。 您需要上传足够数量的相似/不同布局的训练数据(发票图像或PDF文件),并标记需要提取值的已定义字段。在这里,您需要上传您的发票图像或PDF文件。
2、训练模型
3、部署模型:添加之前定义的字段以存储从图像字段中提取的值。在这里,发票号码、发票日期、到期日期和账单地址将是存储提取值的字段。
上传图片/文件格式及大小
1、支持的图像格式包括JPEG、PNG、BMP、TIF。
2、每张上传的图片的最大大小不能超过5MB。
3、整体模型大小不得超过150MB。
4、每个上传的 PDF 的最大文件大小不能超过5MB。
5、对于自定义OCR模型,每个PDF最多需要2页相似布局。