-
Notifications
You must be signed in to change notification settings - Fork 2.8k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
【预告】V2.0版本 | 前景展望 | 意见收集 | 功能投票 #146
Comments
下面是一些问题,希望听取一下大家的看法。你可以点击下方的表情【👍️、🎉、🚀、👀】来给这个问题投票。 |
2、你的系统是? |
3、你的电脑配置是? |
4、你喜欢自动更新吗? |
5、你希望最终发布时,程序打包到什么程度? |
6、使用OCR时,除了简体中文和简短的英文,你还会用到的语言是?(多选) |
顶!!!大佬太强了!!! |
期待,虽然我的建议处于低级优先级/(ㄒoㄒ)/~~ |
可不可以有文字定位信息,就是返回文字在图片中的坐标信息 |
当前版本可以输出OCR结果的完整信息(含文本框的坐标),在设置里打开 至于精确到单个字符的坐标信息,Paddle引擎是不支持的。Rapid引擎可能支持,但我为了通用性就没有搞它。 |
支持大佬 小白不会改代码 希望越做越好 非常喜欢截图OCR功能 |
作者大大您好,我是一名非计算机专业的研究生,这是我第一次在github上发表内容。 p.s. 基础翻译工作我也可以胜任,但计算机专业名词可能对我来说有些困难。如果无专业译者进行翻译,我可以尝试初步翻译(又不是不能用😜) 后续有专业译者可以在初步结果上改进 |
@IceYin0 哈哈,感谢支持啦😄 |
支持作者按拟定的策略按步开发,期待最强离线OCR软件诞生! |
作者大大,能不能给这个软件添加这样一个功能:在右下角隐藏托盘的同时可以在后台运行。现在的情况是:显示系统托盘图标这一功能和窗口关闭最小化到托盘是绑定在一起的。我不喜欢在右下角任务栏显示任何图标,只让软件在后台运行就可以啦,这样就好像是系统只带的软件啦。很多第三方开源软件都可以隐藏托盘图标的情况下在电脑后台运行,例如zoomlt、spipaste等。还有一个建议就是希望您能将这款软件定位明确,只专注ocr本身,不要添加其他功能,例如截图,标注,贴图、在先翻译等,我只想要一个干干净净的ocr功能。上面所说只是个人的一些观点。最后感谢您给大家提供这么优秀开源免费的ocr软件,跪拜! |
作者大大,能不能给这个软件添加这样一个功能:在右下角隐藏托盘的同时可以在后台运行。现在的情况是:显示系统托盘图标这一功能和窗口关闭最小化到托盘是绑定在一起的。我不喜欢在右下角任务栏显示任何图标,只让软件在后台运行就可以啦,这样就好像是系统只带的软件啦。很多第三方开源软件都可以隐藏托盘图标的情况下在电脑后台运行,例如zoomlt、spipaste等。还有一个建议就是希望您能将这款软件定位明确,只专注ocr本身,不要添加其他功能,例如截图,标注,贴图、在先翻译等,我只想要一个干干净净的ocr功能。上面所说只是个人的一些观点。最后感谢您给大家提供这么优秀开源免费的ocr软件,跪拜! |
@zhaoyingchuang 感谢你的建议。我来补充一下:
我感觉这样不太安全,系统自带软件另说,第三方软件的后台模式总得有个可以看见的入口,让我知道它还在跑着。既隐藏任务栏图标又隐藏托盘图标的话,我认为会不太方便。另外,万一用户在软件设置里取消了所有快捷键,又隐藏了可见入口,就无法用正常的手段唤起它了。我是不会主动在软件层面做这个操作的。 但是,你要是不喜欢在托盘图标,把它收纳进【^】折叠区域。对于win11,在【个性化→任务栏→其他系统托盘图标】里,将想要隐藏的软件的开关关掉即可。或者直接在托盘栏将图标拖进【^】。
这就是为什么V2主界面的核心设计思路是“标签页模式”了。像您这种只需要基础OCR功能的用户,完全可以只打开“截图OCR”的标签页,让主界面上只有这一个“干干净净的ocr功能”。其他功能既不会出现在你的视线里,也不会加载进内存,占用你的CPU。体验上跟纯粹的OCR软件是一毛一样的。至于需要其他功能的用户,比如需要PDF的,那就单独打开PDF标签页;需要翻译的,就打开翻译标签页……。各取所需,所有人的偏好都能得到满足。 标签页会记录你的设置,只需初始设置一次,以后每次启动会恢复已打开的标签页。另外标签页可以锁定,即禁用标签的添加、删除、移动,防止日常使用时手滑误触。这个作为基础功能,现在的开发进度已经实现了。 |
我明白您的顾虑,也知道可以把托盘图标隐藏到【^】。哈哈,可能是我这个需求太刁钻了,不知道有没有人和我一样,就是想让软件隐藏到后台工作,前台找不到任何踪影。我想应该会有,因为这样一款软件就像融入自己的电脑一样,使用起来会更加舒服(纯属个人观点) |
嗯,也有道理。你说的我都会考虑的。 |
老大你好,希望操作窗口能做一些无障碍相关支持。应为我是一个视障用户,目前的版本对于我们使用的读屏软件来说,操作还是会有些麻烦。窗口的控件几乎无法被读屏软件获取,我们也有一些朋友在使用这款框架,遇到了相同的问题。希望老大能够做一些相关优化,特别感谢。 |
加油,蹲一手表格输出。王国之泪真好玩 |
感谢特殊群体的支持,祝愿你们越过越好。 我认为,如果你们是希望把OCR作为使用电脑的辅助手段,比如读取屏幕上面非文本格式的字段;那么与其让OCR软件支持读屏的查找机制,不如直接让OCR软件推出一个面向视障用户的特殊版本,比如说删减不必要的功能,着重于截图和鼠标划词和语音朗读功能,按键设置和使用方法上参考市面上常见的读屏软件,等等。 特殊版本与正常版本使用相同的内核和逻辑,理论上修改的工作量不会很大。在未来有时间和精力时,我可能会再考虑一下。 |
特别感谢老大的回复。其实我们现在主要使用离线ocr的场景是把图片形式的文本转换成文本格式。应为我们很多的教科书全部是pdf以及图片。 |
想要后台启动,快捷键截图识别并翻译,翻译内容窗口显示。 |
一方面深深的为作者的无私奉献感动,希望你能留个赞助方式,你为爱发电,用户也为爱发电,双向奔赴才能构建更美好的世界。 |
感谢作者创建这么好的惠人项目。目前用得是Umi-OCR.Rapid v1.3.4-alpha.1版本,支持win7,这是个利好。弱弱地咨询两点: V2版本会继续向下兼容 win7吗? 第二个,v2版本会增加对表格的识别支持么? 祝作者身体健康,万事顺心~~ |
|
每个人应用场景不一样,于我而言,公式识别就基本用不上。 |
时间是未知数。虽然开发工作到现在为止没有遇到过大的技术困难,正在逐步推进中。但重构的工作量并不小,我个人的精力、业余时间有限,所以进展速度并不快。也许今年内能搞定初版吧。 |
辛苦了! |
希望新版本也会考虑其他程序将Umi-OCR以库文件的形式集成到其他城市中,这样对其他开发者来说真的是有很大帮助。 |
字体识别和补全功能,方便添加进去吗?或者有无好推荐? |
希望有post接口 |
预览版本发布:https://github.com/hiroi-sora/Umi-OCR_v2/releases 开发进度已完成大半,实现大部分基础功能,达到了预期的优化效果。 解决了一些V1祖传的问题,比如现在能完全兼容高分屏和多显示器了。 欢迎各位测试体验。 |
感谢大佬为爱发电。 |
感谢大佬。 |
抱歉,V2的底层框架基于qt-qml,并不使用windows风格的组件库,而是自绘组件。所以很难切换为V1的windows风格。 V2在一定程度上支持自定义样式,可以自己创建皮肤包来调整界面的颜色等外观;但大幅度切换风格还是比较困难的。 |
刚下了v2试了下,感觉比v1用起来更方便哈哈,已经添加了启动项日常用了,就等v2上正式版了。 |
在给包的时候,能否加上校验码?如sha256 |
收到 √ |
虽然处于低优先级,不过还是期待能出 Mac 版的。 |
新预览版本发布。除了 V2还提供了一批新功能:可预览的截图界面,更丰富精准的段落合并(支持还原代码缩进),软件GUI支持多国语言…… 欢迎测试体验。 |
目前v2日常使用中,发现一个与snipaste冲突的地方。snipaste截图快捷键触发以后,就无法触发v2的快捷键了。比如snipaste的快捷键是CTRL+ALT+A,v2的快捷键是ALT+Q,先触发snipaste的快捷键,然后回到v2的快捷键设置,按下ALT+Q,就会变成CTRL+ALT+A+Q,不知道为啥,就好像是snipaste没释放按键一样,或者是v2捕获错了。还有个小问题就是在部分窗口无法触发快捷键,比如一些游戏窗口(快捷键未冲突),或者注册表之类的,不知道是不是跟管理员权限有关,我记得snipaste那边好像说明有说过部分窗口截图要管理员权限。 |
之前有人提到公式识别,我目前用的是https://simpletex.cn/ |
快捷键的问题也是v1祖传的问题了。python几个常见热键库都存在不稳定的问题,win32批量注册系统层级热键也不太方便。所以我是监听普通按键事件,在软件层级自己维护一条热键列表。 优点是通用,稳定,去年11月更新至今 没有爆出过恶性bug。缺点是默认优先级低,如果有高权限的软件先拦截了按键事件,那么Umi-OCR可能就捕获不到同一个按键。 就像你说的, (为了缓解这个问题,我设置了按键超时时间,如一个按键按下超过30秒则视为已释放。v1可以自定义设置超时时间,v2之后会开放修改接口。) 而要从根源上解决这个问题,就是给Umi高权限——即给管理员权限。管理员权限可以无视其它软件的拦截(包括其它管理员权限的软件),从而保证热键的触发。 |
好的,感谢,那就期待后面正式版能加个跟snipaste一样的管理员权限的选项了,也方便在很多不能触发快捷键的窗口识别。 |
v2 基础开发告一段落,接下来是长期维护、迭代优化、逐步实现新功能的环节了。 此issue关闭,若大家有任何建议或报bug,请在本仓库或 v2仓库 提新issue。 (过段时间,v2正式版的代码也会迁到此仓库进行维护。) |
最新预览版已支持:让文字浮现在图片上,直接用鼠标划选。 |
数学公式识别已支持。 详见: #254 |
希望主要功能都能做成按钮,记不住快捷键 |
@aimarxjg 请放心,所有快捷键都有对应按钮的,请在界面上找找。 |
该功能比较小众,暂时不会开发。 不过,未来我打算支持自定义的“文本后处理”模块,用户可以编写一些简单的python脚本插件,实现类似繁简转换的自定义功能。 |
这个软件功能很强大。唯一希望是能够跨平台支持 |
大家好~ 这里是Umi-OCR的开发者hiroi-sora。
Umi-OCR诞生了一年有余,从v1.0到v1.3.4更新了17个版本。在各位用户的建议下,Umi不断成长,规模已经远超项目初创时我的预期。
受限于初期采用的技术框架和一些历史遗留问题,v1.x的更新工作已经遇到了不少瓶颈。于是,我决定启动v2.0版本计划;几乎所有旧代码都会被推翻重构。我会选用更现代的框架和更精巧的代码,为大家带来焕然一新的美观界面,和丰富且可拓展的功能。
当前v2的大部分开发工作已完成,可前往这里体验预览版本:
https://github.com/hiroi-sora/Umi-OCR_v2
这是预期效果:
按照设计目标,预计V2将具有以下特性:
按照我的设计理念,Umi-OCR V2 将是一个“OCR Hub”,是一种中枢,能够整合上游的离线引擎、在线接口、翻译机等不同模块,为下游的截图识别、批量识别等不同功能页面提供服务。开发者可以方便的拓展上游模块来为下游提供更高效的服务,也可以方便的拓展下游页面来为用户提供更多样的使用手段。
V2版开发的优先级
由于人的能力是有限的,V2的开发工作将分为“三步走”策略。
(列表中☑︎表示已开发完成。可能更新不及时)
高优先级
中优先级
低优先级
叠Buff
由于任务的复杂性,及个人时间精力有限,V2具体推出的时间将不确定,可能需要 数月之久 。甚至,面临无法预料的变故时,也存在搁置V2开发计划的可能性。
当然,我热爱Umi-OCR这个项目。会尽力保证不弃坑滴~
开发进度放在新仓库: Umi-OCR_v2 。 新仓库仅作为V2开发前中期的记录使用 ,后期会弃用,并将新版本代码合并回当前主仓库。
V2开发期间,V1将继续维护,但是会减少大型新功能的推出。
关于免费
Umi-OCR 是我个人兴趣开发的项目。按照我目前的想法,在可预见的未来里,Umi-OCR承诺 不以任何手段盈利 。包括提供免费下载、不含任何广告、没有需要付费的“高级功能”、无需注册账号、无需关注公众号。所有代码100%开源。短期内,我也不会开设打赏渠道。你的⭐️就是对我的鼓励。
关于协作
V2版将有一批功能期待你的参与。比如,国际化适配功能需要译者的协作。UI设计师可以为本项目设计皮肤。程序员用户可以为本项目设计插件。
为了方便协作者,我将会开发一系列的配套工具;比如不会编程的译者也可以用工具提取文本开展翻译工作。
具体的协作细则将在V2开发中后期公布。
你的建议
如果你有任何关于V2的建议,欢迎在本issue下提出,或者在 讨论区 发表新帖。如果多人有同样的提议,很可能改变我的任务优先级,将你的需求视为高优先级任务。
The text was updated successfully, but these errors were encountered: