AIAS/1_image_sdks/text_recognition/ocr_sdk
2022-10-07 22:35:23 +08:00
..
src no message 2022-10-07 22:35:23 +08:00
pom.xml enhance performance & fix table recognition bugs. 2022-10-07 15:50:27 +08:00
README.md enhance performance & fix table recognition bugs. 2022-10-07 15:50:27 +08:00

官网:

官网链接

文字识别OCR工具箱

文字识别OCR目前在多个行业中得到了广泛应用比如金融行业的单据识别输入餐饮行业中的发票识别 交通领域的车票识别,企业中各种表单识别,以及日常工作生活中常用的身份证,驾驶证,护照识别等等。 OCR文字识别是目前常用的一种AI能力。

OCR工具箱功能:

1. 文字识别 (原生支持倾斜文本)

  • SimpleOcrV3RecognitionExample (原文字识别,需要图片转正)
  • OcrV3RecognitionExample新文字识别原生支持倾斜文本

2. 图片旋转

3. 版面分析支持5个类别, 用于配合文字识别,表格识别的流水线处理)

  • Text
  • Title
  • List
  • Table
  • Figure
    # 版面分析 model URI
    layout: https://aias-home.oss-cn-beijing.aliyuncs.com/models/ocr_models/ppyolov2_r50vd_dcn_365e_publaynet_infer.zip

4. 表格识别

  • 生成html表格
  • 生成excel文件
    # 表格识别 model URI
    table-en: https://aias-home.oss-cn-beijing.aliyuncs.com/models/ocr_models/en_table.zip

运行OCR识别例子

1.1 文字识别:

  • 例子代码: OcrV3RecognitionExample.java
  • 运行成功后,命令行应该看到下面的信息:
time: 766
time: 2221
烦恼!
无数个
吃饱了就有
烦恼
没有吃饱只有一个
  • 输出图片效果如下: text_with_angle

2. 图片旋转:

每调用一次rotateImg方法会使图片逆时针旋转90度。

  • 例子代码: RotationExample.java
  • 旋转前图片: ticket_0
  • 旋转后图片效果如下: rotate_result

3 多线程文字识别:

  • 例子代码: OcrV3MultiThreadRecExample.java

4. 版面分析:

  • 运行成功后,命令行应该看到下面的信息:
[INFO ] - [
	class: "Text", probability: 0.98750, bounds: [x=0.081, y=0.620, width=0.388, height=0.183]
	class: "Text", probability: 0.98698, bounds: [x=0.503, y=0.464, width=0.388, height=0.167]
	class: "Text", probability: 0.98333, bounds: [x=0.081, y=0.465, width=0.387, height=0.121]
	class: "Figure", probability: 0.97186, bounds: [x=0.074, y=0.091, width=0.815, height=0.304]
	class: "Table", probability: 0.96995, bounds: [x=0.506, y=0.712, width=0.382, height=0.143]
]
  • 输出图片效果如下: layout

5. 表格识别:

  • 运行成功后,命令行应该看到下面的信息:
<html>
 <body>
  <table>
   <thead>
    <tr>
     <td>Methods</td>
     <td>R</td>
     <td>P</td>
     <td>F</td>
     <td>FPS</td>
    </tr>
   </thead>
   <tbody>
    <tr>
     <td>SegLink[26]</td>
     <td>70.0</td>
     <td>86.0</td>
     <td>770</td>
     <td>89</td>
    </tr>
    <tr>
     <td>PixelLink[4j</td>
     <td>73.2</td>
     <td>83.0</td>
     <td>77.8</td>
     <td></td>
    </tr>
...
   </tbody>
  </table> 
 </body>
</html>
  • 输出图片效果如下: table

  • 生成excel效果如下 excel

参考文章:

https://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/89819785#comments https://www.jianshu.com/p/9eb9d6f6f837 https://www.jianshu.com/p/173d329afa3a https://blog.csdn.net/zhouguangfei0717/article/details/103026139/ https://blog.csdn.net/u014133119/article/details/82222656 https://blog.csdn.net/wsp_1138886114/article/details/83374333 以上文章供参考,并不一定是最好的,建议根据相关关键字进一步去搜索。

开源算法

1. sdk使用的开源算法

2. 模型如何导出 ?

(readme.md 里提供了推理模型的下载链接)

Git地址

Github链接
Gitee链接