docs: enhance document parsing capabilities

- Improve reading order with model-based sorting- Add list recognition within text
- Implement table of contents recognition
- Support table recognition
- Enhance code block and geometric shape recognition
- Address known issues in both English and Chinese READMEs
This commit is contained in:
myhloli
2024-10-16 10:16:49 +08:00
parent 675f8e66f4
commit 237c062de4
2 changed files with 15 additions and 11 deletions

View File

@@ -341,19 +341,21 @@ TODO
# TODO
- [x] 基于语义的阅读顺序
- [ ] 正文中列表识别
- [x] 基于模型的阅读顺序
- [x] 正文中列表识别
- [ ] 正文中代码块识别
- [ ] 目录识别
- [x] 目录识别
- [x] 表格识别
- [ ] [化学式识别](docs/chemical_knowledge_introduction/introduction.pdf)
- [ ] 几何图形识别
# Known Issues
- 阅读顺序基于规则的分割,在一些情况下会乱序
- 阅读顺序基于模型对文本在空间中的分布进行排序,在极端复杂的排版下可能会乱序
- 不支持竖排文字
- 列表、代码块、目录在layout模型里还没有支持
- 目录和列表通过规则进行识别,少部分不常见的列表形式可能无法识别
- 标题只有一级,目前不支持标题分级
- 代码块在layout模型里还没有支持
- 漫画书、艺术图册、小学教材、习题尚不能很好解析
- 在一些公式密集的PDF上强制启用OCR效果会更好
- 如果您要处理包含大量公式的pdf,强烈建议开启OCR功能。使用pymuPDF提取文字的时候会出现文本行互相重叠的情况导致公式插入位置不准确。