Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于批量文档识别生成双层可搜索文档失败的疑惑 #416

Closed
XinTsui opened this issue Mar 13, 2024 · 15 comments
Closed

关于批量文档识别生成双层可搜索文档失败的疑惑 #416

XinTsui opened this issue Mar 13, 2024 · 15 comments

Comments

@XinTsui
Copy link

XinTsui commented Mar 13, 2024

截图_20240313211355
生成后是0KB打不开,什么原因呢

@hiroi-sora
Copy link
Owner

因为OCR任务完成后,软件需要一小段时间来保存文件。你的截图里,软件显示”停止任务“的按钮,表示保存未完成。

后来可以了吗?

@XinTsui
Copy link
Author

XinTsui commented Mar 13, 2024

因为OCR任务完成后,软件需要一小段时间来保存文件。你的截图里,软件显示”停止任务“的按钮,表示保存未完成。

后来可以了吗?

后来Umi就白屏卡住了,然后我现在发现可能是我的该pdf文件的毛病,因为我测试别的pdf,可以正常生成,而且功能真的非常好用;现在就是无法定性到这个不能成功的pdf文件到底有什么限制,导致无法生成双层可搜索文档,苦恼。

@XinTsui
Copy link
Author

XinTsui commented Mar 13, 2024

因为OCR任务完成后,软件需要一小段时间来保存文件。你的截图里,软件显示”停止任务“的按钮,表示保存未完成。

后来可以了吗?

我观察就是Umi无法正常结束这个生成任务,导致一直持续,直到卡死白屏,但是我找不到原因。

@XinTsui
Copy link
Author

XinTsui commented Mar 13, 2024

截图_20240313214817
这个状态是成功状态,就是不知道为啥这个pdf不能成功

@hiroi-sora
Copy link
Owner

OKK,将这个文件上传上来,帮你看看。

@XinTsui
Copy link
Author

XinTsui commented Mar 13, 2024

OKK,将这个文件上传上来,帮你看看。

来了来了
Uploading 全国医疗服务项目技术规范(2023年版)1.pdf…

@XinTsui
Copy link
Author

XinTsui commented Mar 13, 2024

我不怎么会用github,不知道这样你能不能拿到?
Uploading 截图_20240313220655.png…

@XinTsui
Copy link
Author

XinTsui commented Mar 13, 2024

OKK,将这个文件上传上来,帮你看看。

你尝试转几页就行,文件页数很大,转几页问题就能复现。

@hiroi-sora
Copy link
Owner

hiroi-sora commented Mar 13, 2024

你文件没上传完成,还是 Uploading 状态。
将pdf直接拖入github文字框,等待链接(https://)刷新出来才算上传完成,再Comment。
如果文件太大,你可以用wps等工具切几页下来,保证能复现问题即可,将这几页的pdf上传。

@XinTsui
Copy link
Author

XinTsui commented Mar 13, 2024

@XinTsui
Copy link
Author

XinTsui commented Mar 13, 2024

你文件没上传完成,还是 Uploading 状态。 将pdf直接拖入github文字框,等待链接(https://)刷新出来才算上传完成,再Comment。 如果文件太大,你可以用wps等工具切几页下来,保证能复现问题即可,将这几页的pdf上传。

我通过打印生成pdf的方式裁出来两页后,单独操作两页,任务就能跑完,然后生成双层pdf的效果不理想,麻烦老大下载上面全量pdf测试,谢谢了。

@hiroi-sora
Copy link
Owner

已收到你的文件。

你这份PDF本身是纯文字的,不需要OCR。

Umi-OCR支持从这类pdf中直接提取文字,保存为txt等格式。但是,保存为双层PDF就没有必要了,因为原文件本身就可以搜索。

@hiroi-sora
Copy link
Owner

我调试了一下代码,大概是原PDF本身含有大量文字,所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间,甚至可能造成卡死。

我会优化一下对存在大量文本的PDF的处理逻辑。

@XinTsui
Copy link
Author

XinTsui commented Mar 13, 2024

已收到你的文件。

你这份PDF本身是纯文字的,不需要OCR。

Umi-OCR支持从这类pdf中直接提取文字,保存为txt等格式。但是,保存为双层PDF就没有必要了,因为原文件本身就可以搜索。

我才知道“原文件本身就可以搜索”,谢谢老大,我方向错了。

@XinTsui
Copy link
Author

XinTsui commented Mar 13, 2024

我调试了一下代码,大概是原PDF本身含有大量文字,所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间,甚至可能造成卡死。

我会优化一下对存在大量文本的PDF的处理逻辑。

这么严谨的嘛,我觉得我这种需求比较另类,很难有别人会干这种画蛇添足的事。我刚才跑了个纯图片的pdf,ocr然后生成双层pdf,功能用起来真的不错。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants