[自荐][中文OCR]天若 OCR 文字识别工具本地OCR版本(V1.3.0支持win7)

软件名称

天若OCR文字识别本地版(Chinese-lite框架和Paddle-ocr框架)

应用平台

  • Windows

推荐类型

【开发者自荐】

一句简介

在天若 OCR 文字识别工具5.0的基础上采用本地化识别,不用担心网络问题,paddle-ocr识别准确度和速度都很快

问题汇总

  1. win7无法使用,基本无解(V1.7 win7已经可以用了)

  2. 如果出现Exception from HRESULT: 0x8007007E可以使用dx修复工具进行修复,一般能够启动

  3. 请尝试安装vc++运行库

更新

v1.3(2021.12.27)

  1. Win7也能用了!(详请见更新说明)
  2. 段落合并功能bug修复
  3. 尝试解决识别文本和显示不一样的bug,也就是识别框出现很多重复文字的bug(实际没有这些文字,只是显示而已)
  4. 谷歌翻译采用“ZZK-1989”大佬的方式,更加快速
  5. 切换模型和修改模型不再需要重启应用,只需要随便切换一次模型即可(将载入模型放在了切换模型的位置)

v1.2.6

  1. 修正一个编译bug(具体情况是编译识别为空)
  2. 更加合理的段落合并功能,拆分按钮现状不会清空文字了,但是依然没用
  3. 采用64位编译

v1.2.5

  1. 把原来删除的百度在线ocr给撤销回来了,现在可以使用了,并且加入了错误检测,避免崩溃
  2. 段落翻译增加了延时,避免ip被封

v1.2.4

  1. 添加了保留段落翻译,不再合并段落翻译,切换接口即可,由于单独翻译,速度可能稍慢

v1.2.3

  1. 添加了参数帮助(注释)

V1.2.2

  1. 修复了不能重启的bug

V1.2.1

  1. 修复了不能切换模型的bug,初始paddle模型是选的英文

V1.2

  1. 更新了翻译接口,现在谷歌和百度可以用了!换行会自动处理成连起来的,方便pdf。百度需要申请API
  2. 添加了几个轻量模型(日文和英文专精),切换需要重启
  3. 修复了部分bug,清理了部分源码
  4. 应该不会再更新了!

V1.1

  1. 添加了paddle-ocr支持,模型并不大,速度快!
  2. 可以切换接口了,虽然工程里面名字还是其他名字,但是编译出来的不会显示搜狗和腾讯了
  3. 优化了内存占用(每次识别完自动清理内存)

应用简介

2021.12.27

win7支持源自与逛吾爱时看到有大佬做出来ncnn和onnx的差不多的天若本地版,目的就是解决我的不支持win7的问题,可惜没有开源,但是大佬提供了思路,然后顺着大佬思路,我也自己编译了onnxruntime,得益于微软的开源,编译很简单,然后又修正了下库的引用,在win7上真的跑起来了(我用了虚拟机)。我编译的是onnxruntime 1.5.2版本,1.6我试了好像不支持了,具体不清楚。当然大佬还做了其他差异化的东西,例如二维码,局域网网页调用,我就没做了,自己还是太菜,应该不会再更新了,算是圆满了,这个项目其实只是简单粘贴复制,方法很菜,希望有朝一日能给大家提供一点微薄的帮助。

2021-9-27

一堆小更新

2021-9-26

添加了谷歌和百度框架

2021-9-26

添加了Paddle-ocr框架

2021-9-25

之前有人分享过5.0.1,但是现在百度接口,腾讯接口都只给了很少的次数,那干脆别在线了,本地还是挺好的,然后又看到 chineseocr_lite - 超轻量级中文 OCR,本地文字识别工具 - 小众软件 中 chineseocr-lite 框架,体积小巧,准确度高,于是准备复制粘贴鼓捣出来本地识别ocr,有时间还是想用下,这下不用担心api的问题了。翻译部分没有时间修复了

官方网站 && 应用商店地址

Gitee源码地址
发行版地址,64位

其他

和之前的大佬一样,个人使用,无维护计划,有爱自取

18 个赞

有没有办法调用百度paddle,百度这个本地ocr好像很牛

最近翻译功能坏了,我还打算国庆弄下的 :sweat_smile:
我看到大佬升级了.net版本 顺便把里面ShareX也升级下吧

Sharex本身也4年没更新了 :joy:翻译我本来想添加的,但是本地识别英文有点着急,翻译没有太大意思,好想重构下

感谢分享。 做备用

感谢分享

有闪退情况,任务栏图标出现几秒就消失了

已添加Paddle-ocr框架,在识别结果处切换接口即可享用

1 个赞

本帖发行版地址没更新1.1,只能从源码地址里跳过去

本地翻译能不能搞一搞,就差翻译了

不要想什么重构的事了,能用就行.这个代码看起来像是反编译出来的一样,能改就不错了
大佬把翻译修复下吧,可以考虑修复谷歌,加入bing和有道的免费翻译接口

已修改地址。本地翻译有点难,之后修复下翻译吧

闪退可能是文件不齐?我好像试过删了部分文件(我以为没关系的),结果闪退,其他时候要不就是载入本地模型出错了

1 个赞

哈哈哈,重构确实有点困难。翻译我国庆修复下,我在考虑加入基于百度api的翻译,免费接口总是不稳,最近谷歌接口好像都不行了

1 个赞

66666,太牛le

想不到最近这么多基于天若OCR的修改版本啊,赞

1 个赞

小白想问下这种本地的识别准确率是否还能进行模型训练?之前用pearocr一些行业用语总是识别不准确。

有不可替代性的东西就算再拉垮再小众也是有生命力的

1 个赞

现有模型是这样了,需要现有模型更加精确只能等官方更新,或者更换官方的更大的模型。官方提供了训练方法,你可以百度下paddleocr,有教程,然后自己训练。

已添加翻译 :joy:
这下我觉得足够了,开始摸鱼

1 个赞