Files
MinerU/docs/zh/usage/cli_tools.md

134 lines
6.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 命令行工具使用说明
## 查看帮助信息
要查看 MinerU 命令行工具的帮助信息,可以使用 `--help` 参数。以下是各个命令行工具的帮助信息示例:
```bash
mineru --help
Usage: mineru [OPTIONS]
Options:
-v, --version 显示版本并退出
-p, --path PATH 输入文件路径或目录(必填)
-o, --output PATH 输出目录(必填)
-m, --method [auto|txt|ocr] 解析方法auto默认、txt、ocr仅用于 pipeline 与 hybrid* 后端)
-b, --backend [pipeline|hybrid-auto-engine|hybrid-http-client|vlm-auto-engine|vlm-http-client]
解析后端(默认为 hybrid-auto-engine
-l, --lang [ch|ch_server|ch_lite|en|korean|japan|chinese_cht|ta|te|ka|th|el|latin|arabic|east_slavic|cyrillic|devanagari]
指定文档语言(可提升 OCR 准确率,仅用于 pipeline 与 hybrid* 后端)
-u, --url TEXT 当使用 http-client 时,需指定服务地址
-s, --start INTEGER 开始解析的页码(从 0 开始)
-e, --end INTEGER 结束解析的页码(从 0 开始)
-f, --formula BOOLEAN 是否启用公式解析(默认开启)
-t, --table BOOLEAN 是否启用表格解析(默认开启)
-d, --device TEXT 推理设备(如 cpu/cuda/cuda:0/npu/mps仅 pipeline 后端)
--vram INTEGER 单进程最大 GPU 显存占用(GB)(仅 pipeline 后端)
--source [huggingface|modelscope|local]
模型来源,默认 huggingface
--help 显示帮助信息
```
```bash
mineru-api --help
Usage: mineru-api [OPTIONS]
Options:
--host TEXT 服务器主机地址默认127.0.0.1
--port INTEGER 服务器端口默认8000
--reload 启用自动重载(开发模式)
--help 显示此帮助信息并退出
```
```bash
mineru-gradio --help
Usage: mineru-gradio [OPTIONS]
Options:
--enable-example BOOLEAN 启用示例文件输入(需要将示例文件放置在当前
执行命令目录下的 `example` 文件夹中)
--enable-http-client BOOLEAN 在后端选项中启用 HTTP 客户端选项
--enable-api BOOLEAN 启用 Gradio API 以提供应用程序服务
--max-convert-pages INTEGER 设置从 PDF 转换为 Markdown 的最大页数
--server-name TEXT 设置 Gradio 应用程序的服务器主机名
--server-port INTEGER 设置 Gradio 应用程序的服务器端口
--latex-delimiters-type [a|b|all]
设置在 Markdown 渲染中使用的 LaTeX 分隔符类型
('a' 表示 '$' 类型,'b' 表示 '()[]' 类型,
'all' 表示两种类型都使用)
--help 显示此帮助信息并退出
```
## 环境变量说明
MinerU命令行工具的某些参数存在相同功能的环境变量配置通常环境变量配置的优先级高于命令行参数且在所有命令行工具中都生效。
以下是常用的环境变量及其说明:
- `MINERU_DEVICE_MODE`
* 用于指定推理设备
* 支持`cpu/cuda/cuda:0/npu/mps`等设备类型
* 仅对`pipeline`后端生效。
- `MINERU_VIRTUAL_VRAM_SIZE`
* 用于指定单进程最大 GPU 显存占用(GB)
* 仅对`pipeline`后端生效。
- `MINERU_MODEL_SOURCE`
* 用于指定模型来源
* 支持`huggingface/modelscope/local`
* 默认为`huggingface`可通过环境变量切换为`modelscope`使用国内加速源或切换至`local`以使用本地模型。
- `MINERU_TOOLS_CONFIG_JSON`
* 用于指定配置文件路径
* 默认为用户目录下的`mineru.json`,可通过环境变量指定其他配置文件路径。
- `MINERU_FORMULA_ENABLE`
* 用于启用公式解析
* 默认为`true`,可通过环境变量设置为`false`来禁用公式解析。
- `MINERU_FORMULA_CH_SUPPORT`
* 用于启用中文公式解析优化(实验性功能)
* 默认为`false`,可通过环境变量设置为`true`来启用中文公式解析优化。
* 仅对`pipeline`后端生效。
- `MINERU_TABLE_ENABLE`
* 用于启用表格解析
* 默认为`true`,可通过环境变量设置为`false`来禁用表格解析。
- `MINERU_TABLE_MERGE_ENABLE`
* 用于启用表格合并功能
* 默认为`true`,可通过环境变量设置为`false`来禁用表格合并功能。
- `MINERU_PDF_RENDER_TIMEOUT`
* 用于设置将PDF渲染为图片的超时时间
* 默认为`300`秒,可通过环境变量设置为其他值以调整渲染图片的超时时间。
* 仅在linux和macOS系统中生效。
- `MINERU_PDF_RENDER_THREADS`
* 用于设置将PDF渲染为图片时使用的线程数
* 默认为`4`,可通过环境变量设置为其他值以调整渲染图片时的线程数。
* 仅在linux和macOS系统中生效。
- `MINERU_INTRA_OP_NUM_THREADS`
* 用于设置onnx模型的intra_op线程数影响单个算子的计算速度
* 默认为`-1`(自动选择),可通过环境变量设置为其他值以调整线程数。
- `MINERU_INTER_OP_NUM_THREADS`
* 用于设置onnx模型的inter_op线程数影响多个算子的并行执行
* 默认为`-1`(自动选择),可通过环境变量设置为其他值以调整线程数。
- `MINERU_HYBRID_BATCH_RATIO`
* 用于设置 hybrid-* 后端中 小模型处理的batch倍率
* 在hybrid-http-client中较为常用可以通过控制小模型的batch倍率来调整单个客户端的显存占用量
* 单个client端显存大小 | MINERU_HYBRID_BATCH_RATIO
------------------|------------------------
<= 6 GB | 8
<= 4.5 GB | 4
<= 3 GB | 2
<= 2.5 GB | 1
- `MINERU_HYBRID_FORCE_PIPELINE_ENABLE`
* 用于强制将 hybrid-* 后端中的 文本提取部分使用 小模型 进行处理
* 默认为`false`,可通过环境变量设置为`true`来启用该功能,从而在某些极端情况下减少幻觉的发生。
- `MINERU_VL_MODEL_NAME`
* 用于指定 vlm/hybrid 后端使用的模型名称这将允许您在同时存在多个模型的远程openai-server中指定 MinerU 运行所需的模型。
- `MINERU_VL_API_KEY`:
* 用于指定 vlm/hybrid 后端使用的API Key这将允许您在远程openai-server中进行身份验证。