图像

通用 OCR 文字识别

0次调用

4 积分/次

无论您是需要实现票据的自动化录入，还是在网页前端对图片上的文字进行坐标框选，这个高精度的 OCR 接口都能为您提供强大的基础能力。

功能概述

如果您只关心图片上写了什么（例如截图取字或内容安全审核），强烈建议将need_location 设置为 false。这会大幅精简返回的 JSON 数据体积，提升网络传输与系统解析效率。

除了常规的图片转文字，这个接口还针对实际开发场景做了一些实用设计：

前端文字高亮与结构化分析：默认返回每一段文字的矩形坐标和四个顶点坐标。这非常适合使用 Canvas 在原图上画框高亮，或者在后端根据相对位置提取票据中的键值对信息。
复杂拍摄环境下的抗畸变：针对手机拍摄导致的旋转或倾斜，可以开启 enable_cls=true。服务端在识别前会自动进行方向预校正，显著提升识别准确率。
灵活的输入与请求要求：接口支持 file、url 或 image_base64 三种方式输入。请确保请求格式为 multipart/form-data，且图片链接在公网可直接访问。

请求体

包含待识别图像及可选配置的表单数据。无论使用哪种输入方式，请求体均需采用 multipart/form-data 格式。请在 file、url 或 image_base64 中选择一种作为输入源。

file

file可选

待识别的图片文件。支持 JPG、JPEG、PNG、BMP、GIF、WebP 等常见格式，最大不超过 10MB。请勿与 url 或 image_base64 同时提交。

url

string可选

公网可直接访问的图片地址。请勿与 file 或 image_base64 同时提交。

image_base64

string可选

图片的 Base64 字符串。可以传完整 Data URI，也可以只传纯 Base64 内容。请勿与 file 或 url 同时提交。

image_name

string可选

自定义图片文件名。传链接或纯 Base64 时建议一起传，便于保留或推断扩展名。

need_location

string可选

是否返回文字坐标信息。请传 true 或 false，不传时默认是 true。

return_markdown

string可选

是否额外返回整理后的 Markdown 文本。请传 true 或 false，不传时默认是 false。

enable_cls

string可选

是否开启额外的文字方向校正。请传 true 或 false，不传时默认是 false。

名称	类型	属性	说明
`file`	file	可选	待识别的图片文件。支持 JPG、JPEG、PNG、BMP、GIF、WebP 等常见格式，最大不超过 10MB。请勿与 url 或 image_base64 同时提交。
`url`	string	可选	公网可直接访问的图片地址。请勿与 file 或 image_base64 同时提交。
`image_base64`	string	可选	图片的 Base64 字符串。可以传完整 Data URI，也可以只传纯 Base64 内容。请勿与 file 或 url 同时提交。
`image_name`	string	可选	自定义图片文件名。传链接或纯 Base64 时建议一起传，便于保留或推断扩展名。
`need_location`	string	可选	是否返回文字坐标信息。请传 `true` 或 `false`，不传时默认是 `true`。
`return_markdown`	string	可选	是否额外返回整理后的 Markdown 文本。请传 `true` 或 `false`，不传时默认是 `false`。
`enable_cls`	string	可选	是否开启额外的文字方向校正。请传 `true` 或 `false`，不传时默认是 `false`。

响应

200 / 请求成功

识别成功，返回统一的 OCR 结果对象。默认会带坐标信息；当 need_location=false 时，坐标相关字段会省略。

JSON

400 / 错误的请求

请求参数不正确，比如没有传图片来源、提交了多重图片来源，或者布尔参数和 Base64 格式不合法。

格式 1缺少图片来源

JSON

格式 2输入源冲突

JSON

格式 3Base64 格式错误

JSON

413 / 请求实体太大

图片大小超过当前限制。

JSON

415 /

上传内容不是可识别的常见图片格式。

JSON

502 / 网关错误

识别处理失败，请稍后重试。

JSON

503 / 服务不可用

文字识别服务暂时不可用，请稍后再试。

JSON

快速上手

选择你的语言查看调用示例

认证方式：

cURL 命令

curl -X POST 'https://uapis.cn/api/v1/image/ocr' \
  -F 'url=https://uapis.cn/ocr-samples/bilingual-poetry-sample.png'

常见问题解答

如何在前端 Canvas 里根据坐标做文字框选？

您可以遍历 `words_result` 数组，读取每一项里的 `location`。其中 `left` 和 `top` 是左上角坐标，`width` 和 `height` 是矩形尺寸，直接传给 Canvas 的 `strokeRect` 就可以画出识别框。

为什么传 Base64 时更容易报体积过大？

Base64 会让图片体积额外膨胀一部分。如果原图本身已经比较大，转成 Base64 后更容易触发请求体大小限制。对大图来说，更建议直接传 `file`，或者先把图片放到公网地址再传 `url`。

拍歪的票据或截图识别效果不稳定怎么办？

这种场景建议把 `enable_cls` 设为 `true`。服务端会先尝试做文字方向校正，再进入识别流程，通常会比直接识别更稳定。

上一篇获取Gravatar头像

下一篇图片敏感检测

通用 OCR 文字识别

功能概述

请求体

响应

200 / 请求成功

400 / 错误的请求

413 / 请求实体太大

415 /

502 / 网关错误

503 / 服务不可用