-
Notifications
You must be signed in to change notification settings - Fork 2.8k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于批量文档识别生成双层可搜索文档失败的疑惑 #416
Comments
因为OCR任务完成后,软件需要一小段时间来保存文件。你的截图里,软件显示”停止任务“的按钮,表示保存未完成。 后来可以了吗? |
后来Umi就白屏卡住了,然后我现在发现可能是我的该pdf文件的毛病,因为我测试别的pdf,可以正常生成,而且功能真的非常好用;现在就是无法定性到这个不能成功的pdf文件到底有什么限制,导致无法生成双层可搜索文档,苦恼。 |
我观察就是Umi无法正常结束这个生成任务,导致一直持续,直到卡死白屏,但是我找不到原因。 |
OKK,将这个文件上传上来,帮你看看。 |
|
你尝试转几页就行,文件页数很大,转几页问题就能复现。 |
你文件没上传完成,还是 Uploading 状态。 |
我通过打印生成pdf的方式裁出来两页后,单独操作两页,任务就能跑完,然后生成双层pdf的效果不理想,麻烦老大下载上面全量pdf测试,谢谢了。 |
已收到你的文件。 你这份PDF本身是纯文字的,不需要OCR。 Umi-OCR支持从这类pdf中直接提取文字,保存为txt等格式。但是,保存为双层PDF就没有必要了,因为原文件本身就可以搜索。 |
我调试了一下代码,大概是原PDF本身含有大量文字,所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间,甚至可能造成卡死。 我会优化一下对存在大量文本的PDF的处理逻辑。 |
我才知道“原文件本身就可以搜索”,谢谢老大,我方向错了。 |
这么严谨的嘛,我觉得我这种需求比较另类,很难有别人会干这种画蛇添足的事。我刚才跑了个纯图片的pdf,ocr然后生成双层pdf,功能用起来真的不错。 |
生成后是0KB打不开,什么原因呢
The text was updated successfully, but these errors were encountered: