Package google.cloud.language.v2

索引

LanguageService

提供文本分析操作,例如情感分析和实体识别。

AnalyzeEntities

rpc AnalyzeEntities(AnalyzeEntitiesRequest) returns (AnalyzeEntitiesResponse)

查找文本中的命名实体(当前为专有名词和普通名词),以及实体类型、概率、每个实体的提及和其他属性。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

AnalyzeSentiment

rpc AnalyzeSentiment(AnalyzeSentimentRequest) returns (AnalyzeSentimentResponse)

分析所提供的文本的情感。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

AnnotateText

rpc AnnotateText(AnnotateTextRequest) returns (AnnotateTextResponse)

一种便捷方法,用于在一次调用中提供所有功能。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ClassifyText

rpc ClassifyText(ClassifyTextRequest) returns (ClassifyTextResponse)

将文档进行分类。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ModerateText

rpc ModerateText(ModerateTextRequest) returns (ModerateTextResponse)

审核文档是否包含有害内容和敏感内容。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

AnalyzeEntitiesRequest

实体分析请求消息。

字段
document

Document

必需。输入文档。

encoding_type

EncodingType

API 用于计算偏移的编码类型。

AnalyzeEntitiesResponse

实体分析响应消息。

字段
entities[]

Entity

输入文档中已识别的实体。

language_code

string

文本的语言,与请求中指定的语言相同;如果未指定,则与自动检测到的语言相同。如需了解详情,请参阅 [Document.language][] 字段。

language_supported

bool

相应语言是否受官方支持。在语言不受支持的情况下,API 可能仍会返回响应,但只能尽力而为。

AnalyzeSentimentRequest

情感分析请求消息。

字段
document

Document

必需。输入文档。

encoding_type

EncodingType

API 用于计算句子偏移的编码类型。

AnalyzeSentimentResponse

情感分析响应消息。

字段
document_sentiment

Sentiment

输入文档的整体情感。

language_code

string

文本的语言,与请求中指定的语言相同;如果未指定,则与自动检测到的语言相同。如需了解详情,请参阅 [Document.language][] 字段。

sentences[]

Sentence

文档中所有句子的情感。

language_supported

bool

相应语言是否受官方支持。在语言不受支持的情况下,API 可能仍会返回响应,但只能尽力而为。

AnnotateTextRequest

文本注释 API 的请求消息,此 API 可以在一次调用中执行多种分析类型。

字段
document

Document

必需。输入文档。

features

Features

必需。已启用的功能。

encoding_type

EncodingType

API 用于计算偏移的编码类型。

特性

所有可用功能。将每个特性设为 true 可对输入启用特定的分析。

字段
extract_entities

bool

可选。提取实体,

extract_document_sentiment

bool

可选。提取文档级情感。

classify_text

bool

可选。将整个文档分类。

moderate_text

bool

可选。审核文档是否包含有害和敏感内容。

AnnotateTextResponse

文本注释响应消息。

字段
sentences[]

Sentence

输入文档中的句子。当用户启用 AnnotateTextRequest.Features.extract_document_sentiment 时填充。

entities[]

Entity

输入文档中的实体及其语义信息。如果用户启用 AnnotateTextRequest.Features.extract_entitiesAnnotateTextRequest.Features.extract_entity_sentiment,则会填充此值。

document_sentiment

Sentiment

文档的整体情感。当用户启用 AnnotateTextRequest.Features.extract_document_sentiment 时填充。

language_code

string

文本的语言,与请求中指定的语言相同;如果未指定,则与自动检测到的语言相同。如需了解详情,请参阅 [Document.language][] 字段。

categories[]

ClassificationCategory

输入文档中识别的类别。

moderation_categories[]

ClassificationCategory

输入文档中识别的有害和敏感类别。

language_supported

bool

所有请求的功能是否都正式支持相应语言。在语言不受支持的情况下,API 可能仍会返回响应,但只能尽力而为。

ClassificationCategory

表示从文本分类器返回的类别。

字段
name

string

表示文档的类别名称。

confidence

float

分类器的类别置信度。数字表示分类器对该类别表示给定文本的确定程度。

severity

float

可选。分类器对相应类别的严重程度。只有在 ModerateTextRequest.ModelVersion 设置为 MODEL_VERSION_2 且相应类别具有严重程度得分时,此字段才会出现。

ClassifyTextRequest

文档分类请求消息。

字段
document

Document

必需。输入文档。

ClassifyTextResponse

文档分类响应消息。

字段
categories[]

ClassificationCategory

表示输入文档的类别。

language_code

string

文本的语言,与请求中指定的语言相同;如果未指定,则与自动检测到的语言相同。如需了解详情,请参阅 [Document.language][] 字段。

language_supported

bool

相应语言是否受官方支持。在语言不受支持的情况下,API 可能仍会返回响应,但只能尽力而为。

文档

表示 API 方法的输入。

字段
type

Type

必需。如果类型未设置或为 TYPE_UNSPECIFIED,则返回 INVALID_ARGUMENT 错误。

language_code

string

可选。文档的语言(如果未指定,系统会自动检测语言)。接受 ISO 和 BCP-47 语言代码。
语言支持列出了每种 API 方法当前支持的语言。如果调用的 API 方法不支持该语言(由调用方指定或自动检测到的语言),系统会返回 INVALID_ARGUMENT 错误。

联合字段 source。文档的来源:包含内容或 Google Cloud Storage URI 的字符串。source 只能是下列其中一项:
content

string

输入的内容(字符串格式)。 Cloud Audit Logging 基于用户数据,因此无需满足此要求。

gcs_content_uri

string

文件内容所在的 Google Cloud Storage URI。 此 URI 必须为如下形式:gs://bucket_name/object_name。如需了解详情,请参阅 https://cloud.google.com/storage/docs/reference-uris。注意:不支持 Cloud Storage 对象版本控制。

类型

文档类型枚举。

枚举
TYPE_UNSPECIFIED 未指定内容类型。
PLAIN_TEXT 纯文本
HTML HTML

EncodingType

表示调用方用于处理输出的文本编码。建议提供 EncodingType,因为 API 为各种输出(例如词法单元和提及)提供起始偏移量,而且以原生方式使用不同文本编码的语言可能以不同方式访问偏移量。

枚举
NONE 如果未指定 EncodingType,则依赖于编码的信息(例如 begin_offset)将设置为 -1
UTF8 依赖于编码的信息(例如 begin_offset)基于输入的 UTF-8 编码计算得出。例如,C++ 和 Go 就是以原生方式使用此编码的语言。
UTF16 依赖于编码的信息(例如 begin_offset)基于输入的 UTF-16 编码计算得出。例如,Java 和 JavaScript 就是以原生方式使用此编码的语言。
UTF32 依赖于编码的信息(例如 begin_offset)基于输入的 UTF-32 编码计算得出。Python 是以原生方式使用此编码的语言示例。

实体

表示文本中已知实体(例如用户、组织或位置)的短语。API 会将概率和提及等信息与实体关联。

字段
name

string

实体的代表性名称。

type

Type

实体类型。

metadata

map<string, string>

与实体关联的元数据。

对于与其他实体类型关联的元数据,请参阅下面的“类型”表。

mentions[]

EntityMention

输入文档中此实体的提及。API 目前支持专有名词提及。

sentiment

Sentiment

对于对 AnalyzeEntitySentimentRequest 的调用,或者如果 AnnotateTextRequest.Features.extract_entity_sentiment 设置为 true,此字段将包含在提供的文档中对该实体表达的总体情感。

类型

实体的类型。下表列出了具有不同元数据的实体的关联字段。

枚举
UNKNOWN 未知
PERSON 用户
LOCATION 位置
ORGANIZATION 组织
EVENT 事件
WORK_OF_ART 艺术作品
CONSUMER_GOOD 消费类商品
OTHER 其他类型的实体
PHONE_NUMBER

电话号码

元数据列出根据当地惯例设置格式的电话号码,以及文本中出现的任何其他元素:

  • number - 实际数字,按照当地惯例分为多个部分
  • national_prefix - 国家/地区代码(如果检测到)
  • area_code - 地区或区域代码(如果检测到)
  • extension - 在连接后拨打的电话分机号(如果检测到)
ADDRESS

地址

元数据标识门牌号和市行政区,以及文本中出现的任何其他元素:

  • street_number - 门牌号
  • locality - 城市或城镇
  • street_name - 街道/路线名称(如果检测到)
  • postal_code - 邮政编码(如果检测到)
  • country - 国家/地区(如果检测到)
  • broad_region - 行政区,例如州(如果检测到)
  • narrow_region - 较小的行政区,例如县/郡(如果检测到)
  • sublocality - 在亚洲地址中用于区分城市内的区(如果检测到)
DATE

日期

元数据标识日期的组成部分:

  • year - 用四位数表示的年份(如果检测到)
  • month - 用两位数表示的月份(如果检测到)
  • day - 用两位数表示的日期(如果检测到)
NUMBER

数字

元数据本身就是数字。

PRICE

价格

元数据标识 valuecurrency

EntityMention

表示文本中实体的提及。目前支持专有名词提及。

字段
text

TextSpan

提及文本。

type

Type

实体提及的类型。

sentiment

Sentiment

对于对 AnalyzeEntitySentimentRequest 的调用,或者如果 AnnotateTextRequest.Features.extract_entity_sentiment 设置为 true,此字段将包含在提供的文档中此实体提及所表达的情感。

probability

float

与实体关联的概率得分。

该分数表示实体提及属于相应实体类型的概率。得分介于 (0, 1] 范围内。

类型

支持的提及类型。

枚举
TYPE_UNKNOWN 未知
PROPER 专有名词
COMMON 普通名词(或复合名词)

ModerateTextRequest

文档审核请求消息。

字段
document

Document

必需。输入文档。

model_version

ModelVersion

可选。用于 ModerateText 的模型版本。

ModelVersion

用于 ModerateText 的模型版本。

枚举
MODEL_VERSION_UNSPECIFIED 默认模型版本。
MODEL_VERSION_1 使用 v1 模型,如果未提供,系统会默认使用此模型。v1 模型仅会为每个类别返回概率(置信度)分数。
MODEL_VERSION_2 使用 v2 模型。v2 模型仅会为每个类别返回概率(置信度)分数,并会为部分类别返回严重程度分数。

ModerateTextResponse

文档审核响应消息。

字段
moderation_categories[]

ClassificationCategory

表示输入文档的有害和敏感类别。

language_code

string

文本的语言,与请求中指定的语言相同;如果未指定,则与自动检测到的语言相同。如需了解详情,请参阅 [Document.language][] 字段。

language_supported

bool

相应语言是否受官方支持。在语言不受支持的情况下,API 可能仍会返回响应,但只能尽力而为。

句子

表示输入文档中的一个句子。

字段
text

TextSpan

句子文本。

sentiment

Sentiment

对于对 AnalyzeSentimentRequest 的调用,或者如果 AnnotateTextRequest.Features.extract_document_sentiment 设置为 true,则此字段将包含句子所体现的情感。

情感

表示与整个文本或文本中的实体相关联的感受。

字段
magnitude

float

[0, +inf] 范围内的非负数,表示情感的绝对量级,与具体分数(正数或负数)无关。

score

float

情感得分介于 -1.0(负面情绪)与 1.0(正面情绪)之间。

TextSpan

表示输入文档中的文本片段。

字段
content

string

文本片段的内容,即文档的子字符串。

begin_offset

int32

API 根据 API 请求中指定的 EncodingType 计算原始文档中内容的起始偏移量。