Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

【预告】V2.0版本 | 前景展望 | 意见收集 | 功能投票 #146

Closed
10 of 21 tasks
hiroi-sora opened this issue May 18, 2023 · 59 comments
Closed
10 of 21 tasks

Comments

@hiroi-sora
Copy link
Owner

hiroi-sora commented May 18, 2023

大家好~ 这里是Umi-OCR的开发者hiroi-sora。

Umi-OCR诞生了一年有余,从v1.0到v1.3.4更新了17个版本。在各位用户的建议下,Umi不断成长,规模已经远超项目初创时我的预期。

受限于初期采用的技术框架和一些历史遗留问题,v1.x的更新工作已经遇到了不少瓶颈。于是,我决定启动v2.0版本计划;几乎所有旧代码都会被推翻重构。我会选用更现代的框架和更精巧的代码,为大家带来焕然一新的美观界面,和丰富且可拓展的功能。

当前v2的大部分开发工作已完成,可前往这里体验预览版本:

https://github.com/hiroi-sora/Umi-OCR_v2

这是预期效果:

i18n
image

按照设计目标,预计V2将具有以下特性:

  • 技术框架采用 python3.8 + 定制版PyStand + 定制版PySide2(Qt5) + QML 。
  • 运行环境采用使用嵌入式Python包(PyStand)+手动裁切模块的模式,比V1的pyinstaller自动打包的启动速度快一倍。
  • 主界面框架,从V1的选项卡模式,升级为标签页模式。每个功能(如截图OCR、批量OCR、PDF识别等)是一个单独的标签页。你可以把最常用的功能保留在标签栏便于切换,不常用的则无需占用标签栏的空间。标签栏可以锁定,以防止日常误触。
  • 全面适配高分屏,不会再出现V1的模糊问题。(#33, #48
  • 更美观的界面设计,采用扁平化+圆角的设计元素,同时添加适量的动画效果,让软件体验更舒畅。也会为低配置用户提供关闭动画的选项。
  • 小白友好度:无需任何调配,下载解压即可使用,常用界面简洁易懂。
  • 高手友好度:也可以深度调配,在高级设置面板中修改各种属性。可以在发行包中修改代码来调整功能,支持自定义插件和皮肤。
  • 支持换肤,可切换UI配色和样式,支持深/浅色主题。
  • 支持国际化,可切换UI语言。(#89
  • 低耦合,模块化,支持添加和移除各种功能模块。可能还会提供插件系统,用户可以热添加自定义插件。
  • 以顺序队列的方式支持任务伪并发,为局域网服务器模式做准备。
  • 与C++引擎的通信机制,由V1的管道改为套接字,以求更好的兼容性。
  • 跨平台友好。虽然我可能没有能力和精力去做Linux和Mac的适配,但是在V2的设计中,我会尽力用跨平台的方式去开发,绑定平台的功能也会分离成单独模块以方便移植,让有能力的开发者可以更轻松地进行移植工作。(#8, #34, #73

设计框架
按照我的设计理念,Umi-OCR V2 将是一个“OCR Hub”,是一种中枢,能够整合上游的离线引擎、在线接口、翻译机等不同模块,为下游的截图识别、批量识别等不同功能页面提供服务。开发者可以方便的拓展上游模块来为下游提供更高效的服务,也可以方便的拓展下游页面来为用户提供更多样的使用手段。

V2版开发的优先级

由于人的能力是有限的,V2的开发工作将分为“三步走”策略。

高优先级:指V2初版就会搭载的基础、核心功能。中优先级:指V2必定会搭载的功能,设计之初就预留好了接口,但可能不会在初版就推出。低优先级:它们目前可能存在一些技术困难或者得失取舍,将在V2正式版日后的维护工作中慢慢添加。也会为它预留好接口。

(列表中☑︎表示已开发完成。可能更新不及时)

高优先级

  • 基于CPU的离线OCR模块。
  • V1的两大基础功能:快捷截图识别、批量识别。
  • 可切换皮肤主题。
  • 系统最低兼容至Win7 x64。
  • 命令行模式。

中优先级

  • 可切换界面显示语言。
  • 忽略区域。
  • 在线翻译,或者与第三方翻译工具的联动。(#81, #108, #131, #141
  • PDF识别。(#52, #79, #114, #121, #142
  • 高级截图(仿Snipaste,支持贴图)。(#115
  • 二维码识别。(#95
  • 基于GPU的离线OCR。
  • 识别正常图片,输出为Excel。
  • 根据Windows的深/浅模式,自动切换主题。
  • 历史记录系统。

低优先级

  • 插件系统。
  • 离线翻译。
  • 固定区域识别。(#136
  • 识别表格图片,输出为Excel。(#65, #101
  • 服务器模式:本地的Umi-OCR打开网络端口,局域网内其他设备可以访问并提交图片进行识别。(#51
  • 兼容32位系统。(#133

叠Buff

由于任务的复杂性,及个人时间精力有限,V2具体推出的时间将不确定,可能需要 数月之久 。甚至,面临无法预料的变故时,也存在搁置V2开发计划的可能性。

当然,我热爱Umi-OCR这个项目。会尽力保证不弃坑滴~

开发进度放在新仓库: Umi-OCR_v2新仓库仅作为V2开发前中期的记录使用 ,后期会弃用,并将新版本代码合并回当前主仓库。

V2开发期间,V1将继续维护,但是会减少大型新功能的推出。

关于免费

Umi-OCR 是我个人兴趣开发的项目。按照我目前的想法,在可预见的未来里,Umi-OCR承诺 不以任何手段盈利 。包括提供免费下载、不含任何广告、没有需要付费的“高级功能”、无需注册账号、无需关注公众号。所有代码100%开源。短期内,我也不会开设打赏渠道。你的⭐️就是对我的鼓励。

关于协作

V2版将有一批功能期待你的参与。比如,国际化适配功能需要译者的协作。UI设计师可以为本项目设计皮肤。程序员用户可以为本项目设计插件。

为了方便协作者,我将会开发一系列的配套工具;比如不会编程的译者也可以用工具提取文本开展翻译工作。

具体的协作细则将在V2开发中后期公布。

你的建议

如果你有任何关于V2的建议,欢迎在本issue下提出,或者在 讨论区 发表新帖。如果多人有同样的提议,很可能改变我的任务优先级,将你的需求视为高优先级任务。

@hiroi-sora hiroi-sora pinned this issue May 18, 2023
@hiroi-sora
Copy link
Owner Author

hiroi-sora commented May 18, 2023

下面是一些问题,希望听取一下大家的看法。你可以点击下方的表情【👍️、🎉、🚀、👀】来给这个问题投票。
1、你期待V2版本吗?(此题统计人数用)
【拇指👍️】期待。

@hiroi-sora
Copy link
Owner Author

hiroi-sora commented May 18, 2023

2、你的系统是?
【拇指👍️】Win10/11 x64。
【彩带🎉】Win7 x64。
【火箭🚀】Win7 x86(32位)。
【眼睛👀】macOS或Linux。

@hiroi-sora
Copy link
Owner Author

3、你的电脑配置是?
【拇指👍️】较老旧的机器(如8代intel以前)。
【彩带🎉】较新的机器,但没有独立显卡。
【火箭🚀】有英伟达Nvdia独立显卡。
【眼睛👀】有AMD独立显卡。

@hiroi-sora
Copy link
Owner Author

hiroi-sora commented May 18, 2023

4、你喜欢自动更新吗?
【拇指👍️】我喜欢后台自动下载、自动安装的更新服务。
【彩带🎉】我希望有新版本时自动提醒我。
【火箭🚀】我希望能手动检查更新。
【眼睛👀】我不想要联网,包括检查更新服务。

@hiroi-sora
Copy link
Owner Author

hiroi-sora commented May 18, 2023

5、你希望最终发布时,程序打包到什么程度?
【拇指👍️】我喜欢单个exe可执行文件,尽管这样会难以安装插件和其他语言库。
【彩带🎉】我认为资源文件(图标、ui文件等)可以打包起来以提高性能,同时支持自己导入插件和语言库。
【火箭🚀】我希望所有的文件(包括ui和逻辑)全部暴露,以便于随时修改或查看程序代码。

@hiroi-sora
Copy link
Owner Author

6、使用OCR时,除了简体中文和简短的英文,你还会用到的语言是?(多选)
【拇指👍️】大篇幅英文段落。
【彩带🎉】繁中。
【火箭🚀】日文。
【眼睛👀】其他语言。

@paul-yangmy
Copy link

顶!!!大佬太强了!!!

@Suz1e
Copy link

Suz1e commented May 18, 2023

期待,虽然我的建议处于低级优先级/(ㄒoㄒ)/~~

@raoyi
Copy link

raoyi commented May 21, 2023

可不可以有文字定位信息,就是返回文字在图片中的坐标信息

@hiroi-sora
Copy link
Owner Author

hiroi-sora commented May 21, 2023

返回文字在图片中的坐标信息

当前版本可以输出OCR结果的完整信息(含文本框的坐标),在设置里打开 结果输出→原始信息.jsonl文件 即可。然后你可以读取生成文件,逐行解析json并提取位置信息。

至于精确到单个字符的坐标信息,Paddle引擎是不支持的。Rapid引擎可能支持,但我为了通用性就没有搞它。

@w1330200236
Copy link

支持大佬 小白不会改代码 希望越做越好 非常喜欢截图OCR功能

@IceYin0
Copy link

IceYin0 commented May 22, 2023

作者大大您好,我是一名非计算机专业的研究生,这是我第一次在github上发表内容。
我想向您表达感谢和敬意,这款软件在我的学习和工作中,以远超竞品的表现,极大地提高了我的效率。我将其设置为开机启动的唯二应用软件,另外一个是onedrive。
更不要说兼具小巧轻量、实用、免费、开源、频繁更新、考虑用户感受、功能全面、人性化于一体,我接触计算机领域不多,在我的观念里,个人开发者做到这样的程度实在是太不容易了。尤其是,没有打赏渠道在内的任何盈利方式,白嫖的我感觉怪难为情。
向您致敬,向您表示由衷的谢意。祝您和家人身体健康、工作顺利、一生顺遂、平安喜乐。
我会经常来看看您的动态,也希望软件越来越好。
我的专业是法律,如果您和家人遇到了法律问题,在您需要的情况下,我非常乐意为您无偿解答。

p.s. 基础翻译工作我也可以胜任,但计算机专业名词可能对我来说有些困难。如果无专业译者进行翻译,我可以尝试初步翻译(又不是不能用😜) 后续有专业译者可以在初步结果上改进

@hiroi-sora
Copy link
Owner Author

@IceYin0 哈哈,感谢支持啦😄

@githubmango0509
Copy link

支持作者按拟定的策略按步开发,期待最强离线OCR软件诞生!

@zhaoyingchuang
Copy link

下面是一些问题,希望听取一下大家的看法。你可以点击下方的表情【👍️、🎉、🚀、👀】来给这个问题投票。 1、你期待V2版本吗?(此题统计人数用) 【拇指👍️】期待。

作者大大,能不能给这个软件添加这样一个功能:在右下角隐藏托盘的同时可以在后台运行。现在的情况是:显示系统托盘图标这一功能和窗口关闭最小化到托盘是绑定在一起的。我不喜欢在右下角任务栏显示任何图标,只让软件在后台运行就可以啦,这样就好像是系统只带的软件啦。很多第三方开源软件都可以隐藏托盘图标的情况下在电脑后台运行,例如zoomlt、spipaste等。还有一个建议就是希望您能将这款软件定位明确,只专注ocr本身,不要添加其他功能,例如截图,标注,贴图、在先翻译等,我只想要一个干干净净的ocr功能。上面所说只是个人的一些观点。最后感谢您给大家提供这么优秀开源免费的ocr软件,跪拜!

@zhaoyingchuang
Copy link

作者大大,能不能给这个软件添加这样一个功能:在右下角隐藏托盘的同时可以在后台运行。现在的情况是:显示系统托盘图标这一功能和窗口关闭最小化到托盘是绑定在一起的。我不喜欢在右下角任务栏显示任何图标,只让软件在后台运行就可以啦,这样就好像是系统只带的软件啦。很多第三方开源软件都可以隐藏托盘图标的情况下在电脑后台运行,例如zoomlt、spipaste等。还有一个建议就是希望您能将这款软件定位明确,只专注ocr本身,不要添加其他功能,例如截图,标注,贴图、在先翻译等,我只想要一个干干净净的ocr功能。上面所说只是个人的一些观点。最后感谢您给大家提供这么优秀开源免费的ocr软件,跪拜!

@hiroi-sora
Copy link
Owner Author

hiroi-sora commented May 24, 2023

@zhaoyingchuang 感谢你的建议。我来补充一下:

隐藏托盘图标

我感觉这样不太安全,系统自带软件另说,第三方软件的后台模式总得有个可以看见的入口,让我知道它还在跑着。既隐藏任务栏图标又隐藏托盘图标的话,我认为会不太方便。另外,万一用户在软件设置里取消了所有快捷键,又隐藏了可见入口,就无法用正常的手段唤起它了。我是不会主动在软件层面做这个操作的。

但是,你要是不喜欢在托盘图标,把它收纳进【^】折叠区域。对于win11,在【个性化→任务栏→其他系统托盘图标】里,将想要隐藏的软件的开关关掉即可。或者直接在托盘栏将图标拖进【^】。

只专注ocr本身

这就是为什么V2主界面的核心设计思路是“标签页模式”了。像您这种只需要基础OCR功能的用户,完全可以只打开“截图OCR”的标签页,让主界面上只有这一个“干干净净的ocr功能”。其他功能既不会出现在你的视线里,也不会加载进内存,占用你的CPU。体验上跟纯粹的OCR软件是一毛一样的。至于需要其他功能的用户,比如需要PDF的,那就单独打开PDF标签页;需要翻译的,就打开翻译标签页……。各取所需,所有人的偏好都能得到满足。

标签页会记录你的设置,只需初始设置一次,以后每次启动会恢复已打开的标签页。另外标签页可以锁定,即禁用标签的添加、删除、移动,防止日常使用时手滑误触。这个作为基础功能,现在的开发进度已经实现了。

@zhaoyingchuang
Copy link

@zhaoyingchuang 感谢你的建议。我来补充一下:

隐藏托盘图标

我感觉这样不太安全,系统自带软件另说,第三方软件的后台模式总得有个可以看见的入口,让我知道它还在跑着。既隐藏任务栏图标又隐藏托盘图标的话,我认为会不太方便。另外,万一用户在软件设置里取消了所有快捷键,又隐藏了可见入口,就无法用正常的手段唤起它了。我是不会主动在软件层面做这个操作的。

但是,你要是不喜欢在托盘图标,把它收纳进【^】折叠区域。对于win11,在【个性化→任务栏→其他系统托盘图标】里,将想要隐藏的软件的开关关掉即可。或者直接在托盘栏将图标拖进【^】。

只专注ocr本身

这就是为什么V2主界面的核心设计思路是“标签页模式”了。像您这种只需要基础OCR功能的用户,完全可以只打开“截图OCR”的标签页,让主界面上只有这一个“干干净净的ocr功能”。其他功能既不会出现在你的视线里,也不会加载进内存,占用你的CPU。体验上跟纯粹的OCR软件是一毛一样的。至于需要其他功能的用户,比如需要PDF的,那就单独打开PDF标签页;需要翻译的,就打开翻译标签页……。各取所需,所有人的偏好都能得到满足。

标签页会记录你的设置,只需初始设置一次,以后每次启动会恢复已打开的标签页。另外标签页可以锁定,即禁用标签的添加、删除、移动,防止日常使用时手滑误触。这个作为基础功能,现在的开发进度已经实现了。

我明白您的顾虑,也知道可以把托盘图标隐藏到【^】。哈哈,可能是我这个需求太刁钻了,不知道有没有人和我一样,就是想让软件隐藏到后台工作,前台找不到任何踪影。我想应该会有,因为这样一款软件就像融入自己的电脑一样,使用起来会更加舒服(纯属个人观点)
不过,我认为您认为用户会因为既隐藏了托盘,又忘记快捷键或没有设置快捷键而找不到软件入口的顾虑是多余的。首先,隐藏托盘入口的同时让其在后台运行这个功能是可选项,您如果依然担心有用户不小心设置上这一功能令自己无法找当前软件入口,大可以把它当作高级设置,只能让用户通过JSON文件里的is_show_tray=TRUE来单独设置,就像snipaste这款截图软件一样。退一步来说,有这个需求的用户我想应该不会因为隐藏掉图标而就不到软件入口 ,通过在任务管理器、桌面快捷方式、软件下载位置打开软件等都可以重新唤醒软件再对其设置。再次,如果还有顾虑,还可以给软件加一个使用手册,内置各自使用默认快捷和使用说明,这好像软件本身已经做了一些。最后给软件可以加一个终级快捷键,就是直接弹出应用窗口。这样也可以避免,因为隐藏托盘图标找不到程序入口这一问题。也给多给用户一个选择。
其次,还有一点我不理解,不知是我用不到这个功能还是它不身是一个bug。就是为什么这个软件可以多开,而不是,当我多次打开软件后 竟然软件进行了双开甚至多开,而不是弹出隐藏在后台应用。经过我使用的这一段时间,暂时只想到了这些瑕疵,当然这都是对我自己来说的,不代表其他任何人的意见。
最后,再次感谢作者,祝您身体健康万事如意😊

@hiroi-sora
Copy link
Owner Author

@zhaoyingchuang

嗯,也有道理。你说的我都会考虑的。

@1151971148
Copy link

老大你好,希望操作窗口能做一些无障碍相关支持。应为我是一个视障用户,目前的版本对于我们使用的读屏软件来说,操作还是会有些麻烦。窗口的控件几乎无法被读屏软件获取,我们也有一些朋友在使用这款框架,遇到了相同的问题。希望老大能够做一些相关优化,特别感谢。

@89huanghaowei
Copy link

加油,蹲一手表格输出。王国之泪真好玩

@hiroi-sora
Copy link
Owner Author

@1151971148

视障用户

感谢特殊群体的支持,祝愿你们越过越好。

我认为,如果你们是希望把OCR作为使用电脑的辅助手段,比如读取屏幕上面非文本格式的字段;那么与其让OCR软件支持读屏的查找机制,不如直接让OCR软件推出一个面向视障用户的特殊版本,比如说删减不必要的功能,着重于截图和鼠标划词和语音朗读功能,按键设置和使用方法上参考市面上常见的读屏软件,等等。

特殊版本与正常版本使用相同的内核和逻辑,理论上修改的工作量不会很大。在未来有时间和精力时,我可能会再考虑一下。

@1151971148
Copy link

特别感谢老大的回复。其实我们现在主要使用离线ocr的场景是把图片形式的文本转换成文本格式。应为我们很多的教科书全部是pdf以及图片。
电脑操作的话,目前大部分读屏软件已经内置了屏幕识别的ocr。用来辅助操作基本够用,但是用来识别扫描的书本精度还是不太够。所以想着用ocr框架配合模型使用。@hiroi-sora @

@XiaoXiaoYanHe
Copy link

想要后台启动,快捷键截图识别并翻译,翻译内容窗口显示。
支持腾讯百度彩云等大厂的翻译接口,接口比较稳定,大概翻译文本用的流量少,给的免费额度都挺多。(不着急)
对照翻译。(不着急)

@qjqyp
Copy link

qjqyp commented Jun 2, 2023

一方面深深的为作者的无私奉献感动,希望你能留个赞助方式,你为爱发电,用户也为爱发电,双向奔赴才能构建更美好的世界。
另一方面在研究工作中,很多时候有很多非常冷门的原版书,只能找到模糊的影印版,而且可能是多语言的,希望能在这方面有很好的支持

@qjwshz
Copy link

qjwshz commented Jun 10, 2023

感谢作者创建这么好的惠人项目。目前用得是Umi-OCR.Rapid v1.3.4-alpha.1版本,支持win7,这是个利好。弱弱地咨询两点: V2版本会继续向下兼容 win7吗? 第二个,v2版本会增加对表格的识别支持么? 祝作者身体健康,万事顺心~~

@hiroi-sora
Copy link
Owner Author

@qjwshz

  1. V2仍会尽力兼容win7,预计离线文字识别等核心功能可以使用。部分附加功能可能无法使用本地版,只能用在线服务。
  2. 表格识别已有计划,但不会最优先完成。

@Eyion
Copy link

Eyion commented Jul 10, 2023

每个人应用场景不一样,于我而言,公式识别就基本用不上。

@hiroi-sora
Copy link
Owner Author

hiroi-sora commented Jul 12, 2023

@Eyion

V2的第1个版本预计何时面世

时间是未知数。虽然开发工作到现在为止没有遇到过大的技术困难,正在逐步推进中。但重构的工作量并不小,我个人的精力、业余时间有限,所以进展速度并不快。也许今年内能搞定初版吧。

@Eyion
Copy link

Eyion commented Jul 12, 2023

@Eyion

V2的第1个版本预计何时面世

时间是未知数。虽然开发工作到现在为止没有遇到过大的技术困难,正在逐步推进中。但重构的工作量并不小,我个人的精力、业余时间有限,所以进展速度并不快。也许今年内能搞定初版吧。

辛苦了!

@Doraemon0611
Copy link

希望新版本也会考虑其他程序将Umi-OCR以库文件的形式集成到其他城市中,这样对其他开发者来说真的是有很大帮助。

@Eyion
Copy link

Eyion commented Aug 5, 2023

字体识别和补全功能,方便添加进去吗?或者有无好推荐?

@clyop
Copy link

clyop commented Aug 9, 2023

希望有post接口

@hiroi-sora
Copy link
Owner Author

hiroi-sora commented Aug 9, 2023

预览版本发布:https://github.com/hiroi-sora/Umi-OCR_v2/releases

开发进度已完成大半,实现大部分基础功能,达到了预期的优化效果。

解决了一些V1祖传的问题,比如现在能完全兼容高分屏和多显示器了。

欢迎各位测试体验。

@a740659387
Copy link

感谢大佬为爱发电。
我希望增强命令行模式,可以使用dll/so库直接调用OCR识别,不需要启动exe。
原exe程序所需的json配置也可以通过参数传入或指定路径。
顺祝时祺。

@JusticeRen
Copy link

感谢大佬。
其实我更喜欢V1的UI风格,可否支持切换UI风格?

@hiroi-sora
Copy link
Owner Author

@JusticeRen

可否支持切换V1的UI风格

抱歉,V2的底层框架基于qt-qml,并不使用windows风格的组件库,而是自绘组件。所以很难切换为V1的windows风格。

V2在一定程度上支持自定义样式,可以自己创建皮肤包来调整界面的颜色等外观;但大幅度切换风格还是比较困难的。

@iKun4real
Copy link

刚下了v2试了下,感觉比v1用起来更方便哈哈,已经添加了启动项日常用了,就等v2上正式版了。

@ysml
Copy link

ysml commented Sep 5, 2023

在给包的时候,能否加上校验码?如sha256

@hiroi-sora
Copy link
Owner Author

发布加上校验码

收到 √

@ReedinGod
Copy link

虽然处于低优先级,不过还是期待能出 Mac 版的。

@hiroi-sora
Copy link
Owner Author

hiroi-sora commented Sep 8, 2023

新预览版本发布。除了命令行模式截图联动外,V1现有的功能在V2预览版均已上线。

V2还提供了一批新功能:可预览的截图界面,更丰富精准的段落合并(支持还原代码缩进),软件GUI支持多国语言……

欢迎测试体验。

https://github.com/hiroi-sora/Umi-OCR_v2/releases

@iKun4real
Copy link

目前v2日常使用中,发现一个与snipaste冲突的地方。snipaste截图快捷键触发以后,就无法触发v2的快捷键了。比如snipaste的快捷键是CTRL+ALT+A,v2的快捷键是ALT+Q,先触发snipaste的快捷键,然后回到v2的快捷键设置,按下ALT+Q,就会变成CTRL+ALT+A+Q,不知道为啥,就好像是snipaste没释放按键一样,或者是v2捕获错了。还有个小问题就是在部分窗口无法触发快捷键,比如一些游戏窗口(快捷键未冲突),或者注册表之类的,不知道是不是跟管理员权限有关,我记得snipaste那边好像说明有说过部分窗口截图要管理员权限。

@LanRenLan
Copy link

之前有人提到公式识别,我目前用的是https://simpletex.cn/
不知道有没有办法继续提升识别精度,尤其是大量的英文文章,包括图片有一点倾斜角度或者不太清晰的情况下。
日语ocr的精度以前非常差,不过V2好很多了,谢谢大佬。原文都是从维基百科截图的
image
image

@hiroi-sora
Copy link
Owner Author

hiroi-sora commented Sep 11, 2023

@iKun4real

快捷键的问题也是v1祖传的问题了。python几个常见热键库都存在不稳定的问题,win32批量注册系统层级热键也不太方便。所以我是监听普通按键事件,在软件层级自己维护一条热键列表。

优点是通用,稳定,去年11月更新至今 没有爆出过恶性bug。缺点是默认优先级低,如果有高权限的软件先拦截了按键事件,那么Umi-OCR可能就捕获不到同一个按键。

就像你说的,好像是snipaste没释放按键一样,实际上是snipaste拦截了按键抬起事件,导致Umi认为该按键一直未释放。

(为了缓解这个问题,我设置了按键超时时间,如一个按键按下超过30秒则视为已释放。v1可以自定义设置超时时间,v2之后会开放修改接口。)

而要从根源上解决这个问题,就是给Umi高权限——即给管理员权限。管理员权限可以无视其它软件的拦截(包括其它管理员权限的软件),从而保证热键的触发。

@iKun4real
Copy link

@iKun4real

快捷键的问题也是v1祖传的问题了。python几个常见热键库都存在不稳定的问题,win32批量注册系统层级热键也不太方便。所以我是监听普通按键事件,在软件层级自己维护一条热键列表。

优点是通用,稳定,去年11月更新至今 没有爆出过恶性bug。缺点是默认优先级低,如果有高权限的软件先拦截了按键事件,那么Umi-OCR可能就捕获不到同一个按键。

就像你说的,好像是snipaste没释放按键一样,实际上是snipaste拦截了按键抬起事件,导致Umi认为该按键一直未释放。

(为了缓解这个问题,我设置了按键超时时间,如一个按键按下超过30秒则视为已释放。v1可以自定义设置超时时间,v2之后会开放修改接口。)

而要从根源上解决这个问题,就是给Umi高权限——即给管理员权限。管理员权限可以无视其它软件的拦截(包括其它管理员权限的软件),从而保证热键的触发。

好的,感谢,那就期待后面正式版能加个跟snipaste一样的管理员权限的选项了,也方便在很多不能触发快捷键的窗口识别。

@hiroi-sora
Copy link
Owner Author

v2 基础开发告一段落,接下来是长期维护、迭代优化、逐步实现新功能的环节了。

此issue关闭,若大家有任何建议或报bug,请在本仓库或 v2仓库 提新issue。

(过段时间,v2正式版的代码也会迁到此仓库进行维护。)

@hiroi-sora hiroi-sora unpinned this issue Sep 27, 2023
@hiroi-sora
Copy link
Owner Author

hiroi-sora commented Oct 19, 2023

@2-3-5-7

最新预览版已支持:让文字浮现在图片上,直接用鼠标划选。

@hiroi-sora
Copy link
Owner Author

hiroi-sora commented Dec 1, 2023

@ysml @LanRenLan

数学公式识别已支持。

详见: #254

@aimarxjg
Copy link

希望主要功能都能做成按钮,记不住快捷键

@hiroi-sora
Copy link
Owner Author

@aimarxjg 请放心,所有快捷键都有对应按钮的,请在界面上找找。

@longer008
Copy link

能不能在OCR识别后
image
把繁体字转成简体(不认识的繁体字还要到一些工具中查看)

@hiroi-sora
Copy link
Owner Author

能不能在OCR识别后把繁体字转成简体

该功能比较小众,暂时不会开发。

不过,未来我打算支持自定义的“文本后处理”模块,用户可以编写一些简单的python脚本插件,实现类似繁简转换的自定义功能。

@peade
Copy link

peade commented Apr 18, 2024

这个软件功能很强大。唯一希望是能够跨平台支持

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests