mirror of
https://github.com/opendatalab/MinerU.git
synced 2026-03-27 11:08:32 +07:00
134 lines
6.5 KiB
Markdown
134 lines
6.5 KiB
Markdown
# 命令行工具使用说明
|
||
|
||
## 查看帮助信息
|
||
要查看 MinerU 命令行工具的帮助信息,可以使用 `--help` 参数。以下是各个命令行工具的帮助信息示例:
|
||
```bash
|
||
mineru --help
|
||
Usage: mineru [OPTIONS]
|
||
|
||
Options:
|
||
-v, --version 显示版本并退出
|
||
-p, --path PATH 输入文件路径或目录(必填)
|
||
-o, --output PATH 输出目录(必填)
|
||
-m, --method [auto|txt|ocr] 解析方法:auto(默认)、txt、ocr(仅用于 pipeline 与 hybrid* 后端)
|
||
-b, --backend [pipeline|hybrid-auto-engine|hybrid-http-client|vlm-auto-engine|vlm-http-client]
|
||
解析后端(默认为 hybrid-auto-engine)
|
||
-l, --lang [ch|ch_server|ch_lite|en|korean|japan|chinese_cht|ta|te|ka|th|el|latin|arabic|east_slavic|cyrillic|devanagari]
|
||
指定文档语言(可提升 OCR 准确率,仅用于 pipeline 与 hybrid* 后端)
|
||
-u, --url TEXT 当使用 http-client 时,需指定服务地址
|
||
-s, --start INTEGER 开始解析的页码(从 0 开始)
|
||
-e, --end INTEGER 结束解析的页码(从 0 开始)
|
||
-f, --formula BOOLEAN 是否启用公式解析(默认开启)
|
||
-t, --table BOOLEAN 是否启用表格解析(默认开启)
|
||
-d, --device TEXT 推理设备(如 cpu/cuda/cuda:0/npu/mps,仅 pipeline 后端)
|
||
--vram INTEGER 单进程最大 GPU 显存占用(GB)(仅 pipeline 后端)
|
||
--source [huggingface|modelscope|local]
|
||
模型来源,默认 huggingface
|
||
--help 显示帮助信息
|
||
```
|
||
```bash
|
||
mineru-api --help
|
||
Usage: mineru-api [OPTIONS]
|
||
|
||
Options:
|
||
--host TEXT 服务器主机地址(默认:127.0.0.1)
|
||
--port INTEGER 服务器端口(默认:8000)
|
||
--reload 启用自动重载(开发模式)
|
||
--help 显示此帮助信息并退出
|
||
```
|
||
```bash
|
||
mineru-gradio --help
|
||
Usage: mineru-gradio [OPTIONS]
|
||
|
||
Options:
|
||
--enable-example BOOLEAN 启用示例文件输入(需要将示例文件放置在当前
|
||
执行命令目录下的 `example` 文件夹中)
|
||
--enable-http-client BOOLEAN 在后端选项中启用 HTTP 客户端选项
|
||
--enable-api BOOLEAN 启用 Gradio API 以提供应用程序服务
|
||
--max-convert-pages INTEGER 设置从 PDF 转换为 Markdown 的最大页数
|
||
--server-name TEXT 设置 Gradio 应用程序的服务器主机名
|
||
--server-port INTEGER 设置 Gradio 应用程序的服务器端口
|
||
--latex-delimiters-type [a|b|all]
|
||
设置在 Markdown 渲染中使用的 LaTeX 分隔符类型
|
||
('a' 表示 '$' 类型,'b' 表示 '()[]' 类型,
|
||
'all' 表示两种类型都使用)
|
||
--help 显示此帮助信息并退出
|
||
```
|
||
|
||
## 环境变量说明
|
||
|
||
MinerU命令行工具的某些参数存在相同功能的环境变量配置,通常环境变量配置的优先级高于命令行参数,且在所有命令行工具中都生效。
|
||
以下是常用的环境变量及其说明:
|
||
|
||
- `MINERU_DEVICE_MODE`:
|
||
* 用于指定推理设备
|
||
* 支持`cpu/cuda/cuda:0/npu/mps`等设备类型
|
||
* 仅对`pipeline`后端生效。
|
||
|
||
- `MINERU_VIRTUAL_VRAM_SIZE`:
|
||
* 用于指定单进程最大 GPU 显存占用(GB)
|
||
* 仅对`pipeline`后端生效。
|
||
|
||
- `MINERU_MODEL_SOURCE`:
|
||
* 用于指定模型来源
|
||
* 支持`huggingface/modelscope/local`
|
||
* 默认为`huggingface`可通过环境变量切换为`modelscope`使用国内加速源或切换至`local`以使用本地模型。
|
||
|
||
- `MINERU_TOOLS_CONFIG_JSON`:
|
||
* 用于指定配置文件路径
|
||
* 默认为用户目录下的`mineru.json`,可通过环境变量指定其他配置文件路径。
|
||
|
||
- `MINERU_FORMULA_ENABLE`:
|
||
* 用于启用公式解析
|
||
* 默认为`true`,可通过环境变量设置为`false`来禁用公式解析。
|
||
|
||
- `MINERU_FORMULA_CH_SUPPORT`:
|
||
* 用于启用中文公式解析优化(实验性功能)
|
||
* 默认为`false`,可通过环境变量设置为`true`来启用中文公式解析优化。
|
||
* 仅对`pipeline`后端生效。
|
||
|
||
- `MINERU_TABLE_ENABLE`:
|
||
* 用于启用表格解析
|
||
* 默认为`true`,可通过环境变量设置为`false`来禁用表格解析。
|
||
|
||
- `MINERU_TABLE_MERGE_ENABLE`:
|
||
* 用于启用表格合并功能
|
||
* 默认为`true`,可通过环境变量设置为`false`来禁用表格合并功能。
|
||
|
||
- `MINERU_PDF_RENDER_TIMEOUT`:
|
||
* 用于设置将PDF渲染为图片的超时时间(秒)
|
||
* 默认为`300`秒,可通过环境变量设置为其他值以调整渲染图片的超时时间。
|
||
* 仅在linux和macOS系统中生效。
|
||
|
||
- `MINERU_PDF_RENDER_THREADS`:
|
||
* 用于设置将PDF渲染为图片时使用的线程数
|
||
* 默认为`4`,可通过环境变量设置为其他值以调整渲染图片时的线程数。
|
||
* 仅在linux和macOS系统中生效。
|
||
|
||
- `MINERU_INTRA_OP_NUM_THREADS`:
|
||
* 用于设置onnx模型的intra_op线程数,影响单个算子的计算速度
|
||
* 默认为`-1`(自动选择),可通过环境变量设置为其他值以调整线程数。
|
||
|
||
- `MINERU_INTER_OP_NUM_THREADS`:
|
||
* 用于设置onnx模型的inter_op线程数,影响多个算子的并行执行
|
||
* 默认为`-1`(自动选择),可通过环境变量设置为其他值以调整线程数。
|
||
|
||
- `MINERU_HYBRID_BATCH_RATIO`:
|
||
* 用于设置 hybrid-* 后端中 小模型处理的batch倍率
|
||
* 在hybrid-http-client中较为常用,可以通过控制小模型的batch倍率来调整单个客户端的显存占用量
|
||
* 单个client端显存大小 | MINERU_HYBRID_BATCH_RATIO
|
||
------------------|------------------------
|
||
<= 6 GB | 8
|
||
<= 4.5 GB | 4
|
||
<= 3 GB | 2
|
||
<= 2.5 GB | 1
|
||
|
||
- `MINERU_HYBRID_FORCE_PIPELINE_ENABLE`:
|
||
* 用于强制将 hybrid-* 后端中的 文本提取部分使用 小模型 进行处理
|
||
* 默认为`false`,可通过环境变量设置为`true`来启用该功能,从而在某些极端情况下减少幻觉的发生。
|
||
|
||
- `MINERU_VL_MODEL_NAME`:
|
||
* 用于指定 vlm/hybrid 后端使用的模型名称,这将允许您在同时存在多个模型的远程openai-server中指定 MinerU 运行所需的模型。
|
||
|
||
- `MINERU_VL_API_KEY`:
|
||
* 用于指定 vlm/hybrid 后端使用的API Key,这将允许您在远程openai-server中进行身份验证。 |