关于批量文档识别生成双层可搜索文档失败的疑惑 #416

XinTsui · 2024-03-13T13:17:53Z

生成后是0KB打不开，什么原因呢

hiroi-sora · 2024-03-13T13:38:12Z

因为OCR任务完成后，软件需要一小段时间来保存文件。你的截图里，软件显示”停止任务“的按钮，表示保存未完成。

后来可以了吗？

XinTsui · 2024-03-13T13:43:46Z

因为OCR任务完成后，软件需要一小段时间来保存文件。你的截图里，软件显示”停止任务“的按钮，表示保存未完成。

后来可以了吗？

后来Umi就白屏卡住了，然后我现在发现可能是我的该pdf文件的毛病，因为我测试别的pdf，可以正常生成，而且功能真的非常好用；现在就是无法定性到这个不能成功的pdf文件到底有什么限制，导致无法生成双层可搜索文档，苦恼。

XinTsui · 2024-03-13T13:45:58Z

因为OCR任务完成后，软件需要一小段时间来保存文件。你的截图里，软件显示”停止任务“的按钮，表示保存未完成。

后来可以了吗？

我观察就是Umi无法正常结束这个生成任务，导致一直持续，直到卡死白屏，但是我找不到原因。

XinTsui · 2024-03-13T13:49:10Z

这个状态是成功状态，就是不知道为啥这个pdf不能成功

hiroi-sora · 2024-03-13T13:50:17Z

OKK，将这个文件上传上来，帮你看看。

XinTsui · 2024-03-13T14:05:34Z

OKK，将这个文件上传上来，帮你看看。

来了来了
Uploading 全国医疗服务项目技术规范（2023年版）1.pdf…

XinTsui · 2024-03-13T14:07:08Z

我不怎么会用github，不知道这样你能不能拿到？

XinTsui · 2024-03-13T14:09:33Z

OKK，将这个文件上传上来，帮你看看。

你尝试转几页就行，文件页数很大，转几页问题就能复现。

hiroi-sora · 2024-03-13T14:11:06Z

你文件没上传完成，还是 Uploading 状态。
将pdf直接拖入github文字框，等待链接（https://）刷新出来才算上传完成，再Comment。
如果文件太大，你可以用wps等工具切几页下来，保证能复现问题即可，将这几页的pdf上传。

XinTsui · 2024-03-13T14:18:58Z

全国医疗服务项目技术规范（2023年版）1.pdf

XinTsui · 2024-03-13T14:26:49Z

你文件没上传完成，还是 Uploading 状态。将pdf直接拖入github文字框，等待链接（https://）刷新出来才算上传完成，再Comment。如果文件太大，你可以用wps等工具切几页下来，保证能复现问题即可，将这几页的pdf上传。

我通过打印生成pdf的方式裁出来两页后，单独操作两页，任务就能跑完，然后生成双层pdf的效果不理想，麻烦老大下载上面全量pdf测试，谢谢了。

hiroi-sora · 2024-03-13T14:27:47Z

已收到你的文件。

你这份PDF本身是纯文字的，不需要OCR。

Umi-OCR支持从这类pdf中直接提取文字，保存为txt等格式。但是，保存为双层PDF就没有必要了，因为原文件本身就可以搜索。

hiroi-sora · 2024-03-13T14:41:52Z

我调试了一下代码，大概是原PDF本身含有大量文字，所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间，甚至可能造成卡死。

我会优化一下对存在大量文本的PDF的处理逻辑。

XinTsui · 2024-03-13T14:46:54Z

已收到你的文件。

你这份PDF本身是纯文字的，不需要OCR。

Umi-OCR支持从这类pdf中直接提取文字，保存为txt等格式。但是，保存为双层PDF就没有必要了，因为原文件本身就可以搜索。

我才知道“原文件本身就可以搜索”，谢谢老大，我方向错了。

XinTsui · 2024-03-13T14:48:48Z

我调试了一下代码，大概是原PDF本身含有大量文字，所以Umi保存新PDF时进行的 空间压缩和垃圾回收步骤 需要花费大量的时间，甚至可能造成卡死。

我会优化一下对存在大量文本的PDF的处理逻辑。

这么严谨的嘛，我觉得我这种需求比较另类，很难有别人会干这种画蛇添足的事。我刚才跑了个纯图片的pdf，ocr然后生成双层pdf，功能用起来真的不错。

hiroi-sora added a commit that referenced this issue Mar 13, 2024

优化双层PDF保存：若没有新文本写入，则不启用压缩与垃圾回收，加快保存速度。 (#416)

ecb27c4

hiroi-sora closed this as completed Mar 13, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于批量文档识别生成双层可搜索文档失败的疑惑 #416

关于批量文档识别生成双层可搜索文档失败的疑惑 #416

XinTsui commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024 •

edited

Loading

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

关于批量文档识别生成双层可搜索文档失败的疑惑 #416

关于批量文档识别生成双层可搜索文档失败的疑惑 #416

Comments

XinTsui commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024 • edited Loading

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024

XinTsui commented Mar 13, 2024

XinTsui commented Mar 13, 2024

hiroi-sora commented Mar 13, 2024 •

edited

Loading