PDF 文档提取和解析 API:使用最先进的 OCR 和 Ollama 支持的模型

CTOLib码库 2024年11月05日 07:53

将任何图像或 PDF 转换为 Markdown 文本或 JSON 结构化文档,并具有超高的准确性,包括表格数据、数字或数学公式。

图片

该 API 使用 FastAPI 构建,并使用 Celery 进行异步任务处理。Redis 用于缓存 OCR 结果。

无需云/外部依赖,您只需要:

基于 PyTorch 的 OCR(Marker)+ Ollama 通过 docker-compose 进行交付和配置,不会将任何数据发送到您的开发/服务器环境之外。使用不同的 OCR 策略(包括 marker、surya-ocr 或 tessereact)进行 PDF 到 Markdown 的转换,具有非常高的准确性。使用 Ollama 支持的模型(例如 LLama 3.1)进行 PDF 到 JSON 的转换。LLM 改善 OCR 结果,LLama 在修复 OCR 文本中的拼写和文本问题方面非常出色。删除 PII,此工具可用于从 PDF 中删除个人身份信息 - 请参阅示例。使用 Celery[1] 进行分布式队列处理。使用 Redis 进行缓存 - OCR 结果可以在 LLM 处理之前轻松缓存。用于发送任务和处理结果的 CLI 工具。

示例:

将 MRI 报告转换为 Markdown + JSON。将发票转换为 JSON 并删除 PII。

Docker 和 Docker Compose:

克隆仓库:git clone https://github.com/CatchTheTornado/pdf-extract-api.git进入目录:cd pdf-extract-api设置环境变量:

创建 .env 文件并设置必要的环境变量。使用 .env.example 文件作为模板。修改文件中的变量。

构建并运行 Docker 容器:

使用 Docker Compose 构建并运行 Docker 容器:docker-compose up --build对于 GPU 支持,运行:docker-compose -f docker-compose.gpu.yml up --build

这将启动以下服务:

FastAPI 应用程序:运行 FastAPI 应用程序。Celery 工作进程:处理异步 OCR 任务。Redis:缓存 OCR 结果。Ollama:运行 Ollama 模型。


CLI 工具:

进入 client 目录:cd client安装依赖:pip install -r requirements.txt测试不同的 LLama 支持的模型:python client/cli.py llm_pull --model llama3.1上传文件进行 OCR(转换为 Markdown):python client/cli.py ocr --file examples/example-mri.pdf --ocr_cache上传文件进行 OCR(由 LLM 处理):python client/cli.py ocr --file examples/example-mri.pdf --ocr_cache --prompt_file=examples/example-mri-remove-pii.txt通过任务 ID 获取 OCR 结果:python client/cli.py result -task_id {your_task_id_from_upload_step}清除缓存:python client/cli.py clear_cache使用 LLM 生成文本:python llm_generate --prompt "Your prompt here"

API 端点:

/ocr

方法:POST参数:

file:要处理的 PDF 文件。strategy:要使用的 OCR 策略(marker 或 tesseract)。ocr_cache:是否缓存 OCR 结果(true 或 false)。prompt:如果提供,将用于 Ollama 处理 OCR 结果。model:如果与提示一起提供,此模型将用于 LLM 处理。

示例:curl -X POST "http://localhost:8000/ocr" -F "file=examples/example-mri.pdf" -F "strategy=marker" -F "ocr_cache=true"


/ocr/result/{task_id}

方法:GET参数:

task_id:OCR 端点返回的任务 ID。

示例:curl -X GET "http://localhost:8000/ocr/result/{task_id}"


/ocr/clear_cache

方法:POST示例:curl -X POST "http://localhost:8000/ocr/clear_cache"

/llm_pull

方法:POST参数:

model:首先拉取要使用的模型。

示例:curl -X POST "http://localhost:8000/llama_pull" -H "Content-Type: application/json" -d '{"model": "llama3.1"}'


/llm_generate

方法:POST参数:

prompt:Ollama 模型的提示。model:要查询的模型。

示例:curl -X POST "http://localhost:8000/llama_generate" -H "Content-Type: application/json" -d '{"prompt": "Your prompt here", "model":"llama3.1"}'


许可证:

该项目根据 GNU 通用公共许可证授权。有关详细信息,请参阅 LICENSE 文件。