功能列表

借助 Vision API,您目前可以使用以下特征:

所有特征类型

文本检测

路标图片
  • 图片的光学字符识别 (OCR);文本识别和机器编码文本转换。识别并提取图片中的 UTF-8 文本。
  • 图片:已针对较大图片中的稀疏文本区域进行优化。
  • 响应:返回通过文本、边界框和 textAnnotations 识别的字词列表,以及 OCR 检测到的文本的结构层次 (fullTextAnnotation) 列表。
    • 提取的文本结构的层次结构:
      • TextAnnotation -> 页面 -> 块 -> 段落 -> 字词 -> 符号。
      • 页面中的每个结构组件都可以进一步包含各自的属性,例如检测到的语言、换行等等。
  • 支持的语言:支持目前受支持的语言、映射的语言和实验性语言
  • 特征枚举值:TEXT_DETECTION

文档文本检测(密集文本/手写)

带有注释的密集图片
手写图片
  • 文件 (PDF/TIFF) 或密集文本图片的光学字符识别 (OCR);密集文本识别和机器编码文本转换。
  • 文件:已针对文档文件 (PDF/TIFF) 进行优化。
  • 图片:已针对图片(文档图片)中的密集文本区域以及包含手写内容的图片进行优化。
  • 响应:返回用 OCR 检测到的文本 (fullTextAnnotation) 的结构性层次结构。
    • 提取的文本结构的层次结构:
      • TextAnnotation -> 页面 -> 块 -> 段落 -> 字词 -> 符号。
      • 页面中的每个结构组件都可以进一步包含各自的属性,例如检测到的语言、换行等等。
  • 支持的语言:支持目前受支持的语言、映射的语言和实验性语言
  • 特征枚举值:DOCUMENT_TEXT_DETECTION
    • 在请求 DOCUMENT_TEXT_DETECTIONTEXT_DETECTION 时优先考虑。

地标检测 1

圣巴西尔大教堂图片
  • 在地标图片中提供地标的名称、置信度分数和边界框。
  • 提供检测到的实体的坐标。

徽标检测 2

带有注释的徽标
  • 提供识别到的实体的文本描述、置信度分数以及文件中徽标的边界多边形。

标签检测 3

上海街景图片
  • 提供图片的通用化标签。
  • 对于每个标签,系统会返回文本描述、置信度分数和话题性分数。

图片属性 4

带有属性的巴厘岛图片
  • 返回图片中的主色。
  • 每种颜色以 RGBA 颜色空间表示,具有置信度分数,并且会显示该颜色占据的像素比例 [0, 1]。

对象本地化 5

具有边界框的图片
  • 为在单个图片中识别出的多个对象提供常规标签和边界框注释。
  • 对于检测到的每个对象,系统会返回以下元素:文本描述、置信度分数以及该对象的边界多边形的规范化顶点 [0,1]。

剪裁提示检测 6

具有裁剪版本的图片
  • 为每个请求提供剪裁后图片的边界多边形、置信度分数以及此重要区域相对于原始图片的重要性比例。
  • 您可以为单个图片最多提供 16 个图片比例值(宽高比)。

Web 实体和页面 7

具有网络实体表的图片
  • 提供一系列与图片相关的 Web 内容。
  • 返回以下信息:
    • 网络实体:根据网络上的类似图片推断出的实体(标签/说明)。
    • 完全匹配的图片:互联网上任意尺寸的完全匹配图片的网址列表。
    • 部分匹配的图片:具有共同关键特征(例如剪裁后的原始图片)的图片的网址列表。
    • 具有匹配图片的页面:具有满足上述条件的图片的网页(由网页网址、网页标题、匹配的图片网址标识)列表。
    • 外观类似的图片:与原始图片具有某些共同特征的图片的网址列表。
    • 最佳猜测标签:对根据互联网上类似图片推断出的所请求图片主题的最佳猜测。

露骨内容检测(安全搜索)

  • 提供以下露骨内容类别的似然度评分:adultspoofmedicalviolenceracy
  • 似然度评分表示为 6 个不同的值:UNKNOWNVERY_UNLIKELYUNLIKELYPOSSIBLELIKELYVERY_LIKELY

人脸检测

包含人脸检测的示例图片
  • 使用边界多边形定位脸部,并识别具体的面部“特征”(例如眼睛、耳朵、鼻子、嘴巴等)以及相应的置信度值。
  • 返回情绪(喜悦、悲伤、愤怒、惊喜)和常规图片属性(曝光不足、模糊处理、存在头饰)的似然度评分。
  • 似然度评分表示为 6 个不同的值:UNKNOWNVERY_UNLIKELYUNLIKELYPOSSIBLELIKELYVERY_LIKELY
  • 不支持特定个人面部识别

1. 图片来源:Unsplash 用户 Nikolay Vorobyev(添加了注释)。

2. 图片来源:Robert ScobleCC BY 2.0,已添加注释)。

3. 图片来源:Unsplash 用户 Alex Knight

4. 图片来源:Unsplash 用户 Jeremy Bishop

5. 图片来源:Unsplash 用户 Bogdan Dada(添加了注释)。

6. 图片来源:Unsplash 用户 Yasmin Dangor(显示原始图片和剪裁后的图片)。

7. 图片来源: Unsplash 用户 Quinten de Graaf