通用 OCR 文字识别
免费高精度通用 OCR 文字识别 API 接口,可以通过本地文件、图片链接或 Base64 提交图片,准确提取完整文本、逐段文字和坐标信息。适合票据识别、证件扫描、截图取字、文档数字化和自动化表单录入等场景。 · 适用于票据截图识别、表单自动录入、合同扫描件文本提取、图片文本标注框选、拍照取字、证件信息识别和结构化数据抽取等场景 · 通用 OCR 文字识别
免费OCR接口, 文字识别API, 通用OCR, 图片转文字, 图片提取文字, 截图取字, 带坐标OCR, 票据识别接口, 证件识别API, 拍照取字, image ocr api, ocr 坐标 api
POST /image/ocr - 通用 OCR 文字识别
无论您是需要实现票据的自动化录入,还是在网页前端对图片上的文字进行坐标框选,这个高精度的 OCR 接口都能为您提供强大的基础能力。
功能概述
[!IMPORTANT]
如果您只关心图片上写了什么(例如截图取字或内容安全审核),强烈建议将 needlocation 设置为 false。这会大幅精简返回的 JSON 数据体积,提升网络传输与系统解析效率。
除了常规的图片转文字,这个接口还针对实际开发场景做了一些实用设计:
- 前端文字高亮与结构化分析:默认返回每一段文字的矩形坐标和四个顶点坐标。这非常适合使用 Canvas 在原图上画框高亮,或者在后端根据相对位置提取票据中的键值对信息。
- 复杂拍摄环境下的抗畸变:针对手机拍摄导致的旋转或倾斜,可以开启 enablecls=true。服务端在识别前会自动进行方向预校正,显著提升识别准确率。
- 灵活的输入与请求要求:接口支持 file、url 或 imagebase64 三种方式输入。请确保请求格式为 multipart/form-data,且图片链接在公网可直接访问。