将任何图像或 PDF 转换为 Markdown 文本或 JSON 结构化文档,并具有超高的准确性,包括表格数据、数字或数学公式。
该 API 使用 FastAPI 构建,并使用 Celery 进行异步任务处理。Redis 用于缓存 OCR 结果。
无需云/外部依赖,您只需要:
•基于 PyTorch 的 OCR(Marker)+ Ollama 通过 docker-compose 进行交付和配置,不会将任何数据发送到您的开发/服务器环境之外。•使用不同的 OCR 策略(包括 marker、surya-ocr 或 tessereact)进行 PDF 到 Markdown 的转换,具有非常高的准确性。•使用 Ollama 支持的模型(例如 LLama 3.1)进行 PDF 到 JSON 的转换。•LLM 改善 OCR 结果,LLama 在修复 OCR 文本中的拼写和文本问题方面非常出色。•删除 PII,此工具可用于从 PDF 中删除个人身份信息 - 请参阅示例。•使用 Celery[1] 进行分布式队列处理。•使用 Redis 进行缓存 - OCR 结果可以在 LLM 处理之前轻松缓存。•用于发送任务和处理结果的 CLI 工具。
示例:
•将 MRI 报告转换为 Markdown + JSON。•将发票转换为 JSON 并删除 PII。
Docker 和 Docker Compose:
•克隆仓库:git clone https://github.com/CatchTheTornado/pdf-extract-api.git
•进入目录:cd pdf-extract-api
•设置环境变量:
•创建 .env
文件并设置必要的环境变量。•使用 .env.example
文件作为模板。•修改文件中的变量。
•构建并运行 Docker 容器:
•使用 Docker Compose 构建并运行 Docker 容器:docker-compose up --build
•对于 GPU 支持,运行:docker-compose -f docker-compose.gpu.yml up --build
•FastAPI 应用程序:运行 FastAPI 应用程序。•Celery 工作进程:处理异步 OCR 任务。•Redis:缓存 OCR 结果。•Ollama:运行 Ollama 模型。
CLI 工具:
•进入 client
目录:cd client
•安装依赖:pip install -r requirements.txt
•测试不同的 LLama 支持的模型:python client/cli.py llm_pull --model llama3.1
•上传文件进行 OCR(转换为 Markdown):python client/cli.py ocr --file examples/example-mri.pdf --ocr_cache
•上传文件进行 OCR(由 LLM 处理):python client/cli.py ocr --file examples/example-mri.pdf --ocr_cache --prompt_file=examples/example-mri-remove-pii.txt
•通过任务 ID 获取 OCR 结果:python client/cli.py result -task_id {your_task_id_from_upload_step}
•清除缓存:python client/cli.py clear_cache
•使用 LLM 生成文本:python llm_generate --prompt "Your prompt here"
API 端点:
•/ocr
:
•方法:POST•参数:
•file
:要处理的 PDF 文件。•strategy
:要使用的 OCR 策略(marker 或 tesseract)。•ocr_cache
:是否缓存 OCR 结果(true 或 false)。•prompt
:如果提供,将用于 Ollama 处理 OCR 结果。•model
:如果与提示一起提供,此模型将用于 LLM 处理。
•示例:curl -X POST "http://localhost:8000/ocr" -F "file=examples/example-mri.pdf" -F "strategy=marker" -F "ocr_cache=true"
•/ocr/result/{task_id}
:
•方法:GET•参数:
•task_id
:OCR 端点返回的任务 ID。
curl -X GET "http://localhost:8000/ocr/result/{task_id}"
•/ocr/clear_cache
:
•方法:POST•示例:curl -X POST "http://localhost:8000/ocr/clear_cache"
/llm_pull
:•方法:POST•参数:
•model
:首先拉取要使用的模型。
curl -X POST "http://localhost:8000/llama_pull" -H "Content-Type: application/json" -d '{"model": "llama3.1"}'
•/llm_generate
:
•方法:POST•参数:
•prompt
:Ollama 模型的提示。•model
:要查询的模型。
curl -X POST "http://localhost:8000/llama_generate" -H "Content-Type: application/json" -d '{"prompt": "Your prompt here", "model":"llama3.1"}'
许可证:
•该项目根据 GNU 通用公共许可证授权。有关详细信息,请参阅 LICENSE 文件。