Package google.cloud.language.v1beta2

索引

LanguageService

提供文本分析操作,例如情感分析和实体识别。

AnalyzeEntities

rpc AnalyzeEntities(AnalyzeEntitiesRequest) returns (AnalyzeEntitiesResponse)

查找文本中的命名实体(当前为专有名词和普通名词),以及实体类型、显著性、每个实体的提及和其他属性。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

AnalyzeEntitySentiment

rpc AnalyzeEntitySentiment(AnalyzeEntitySentimentRequest) returns (AnalyzeEntitySentimentResponse)

查找文本中与 AnalyzeEntities 类似的实体,分析与每个实体及其提及关联的情感。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

AnalyzeSentiment

rpc AnalyzeSentiment(AnalyzeSentimentRequest) returns (AnalyzeSentimentResponse)

分析所提供的文本的情感。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

AnalyzeSyntax

rpc AnalyzeSyntax(AnalyzeSyntaxRequest) returns (AnalyzeSyntaxResponse)

分析文本的语法,提供句子边界和词法单元以及词性标记、依存关系树和其他属性。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

AnnotateText

rpc AnnotateText(AnnotateTextRequest) returns (AnnotateTextResponse)

在一次调用中提供所有语法、情感、实体和分类功能的便捷方法。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ClassifyText

rpc ClassifyText(ClassifyTextRequest) returns (ClassifyTextResponse)

将文档进行分类。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

ModerateText

rpc ModerateText(ModerateTextRequest) returns (ModerateTextResponse)

审核文档是否包含有害和敏感内容。

授权范围

需要以下 OAuth 范围之一:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

如需了解详情,请参阅身份验证概览

AnalyzeEntitiesRequest

实体分析请求消息。

字段
document

Document

必需。输入文档。

encoding_type

EncodingType

API 用于计算偏移的编码类型。

AnalyzeEntitiesResponse

实体分析响应消息。

字段
entities[]

Entity

输入文档中已识别的实体。

language

string

文本的语言,与请求中指定的语言相同;如果未指定,则与自动检测到的语言相同。如需了解详情,请参阅 Document.language 字段。

AnalyzeEntitySentimentRequest

实体级情感分析请求消息。

字段
document

Document

必需。输入文档。

encoding_type

EncodingType

API 用于计算偏移的编码类型。

AnalyzeEntitySentimentResponse

实体级情感分析响应消息。

字段
entities[]

Entity

输入文档中已识别的实体及其关联情感。

language

string

文本的语言,与请求中指定的语言相同;如果未指定,则与自动检测到的语言相同。如需了解详情,请参阅 Document.language 字段。

AnalyzeSentimentRequest

情感分析请求消息。

字段
document

Document

必需。输入文档。

encoding_type

EncodingType

API 用于计算句子情感的句子偏移量的编码类型。

AnalyzeSentimentResponse

情感分析响应消息。

字段
document_sentiment

Sentiment

输入文档的整体情感。

language

string

文本的语言,与请求中指定的语言相同;如果未指定,则与自动检测到的语言相同。如需了解详情,请参阅 Document.language 字段。

sentences[]

Sentence

文档中所有句子的情感。

AnalyzeSyntaxRequest

语法分析请求消息。

字段
document

Document

必需。输入文档。

encoding_type

EncodingType

API 用于计算偏移的编码类型。

AnalyzeSyntaxResponse

语法分析响应消息。

字段
sentences[]

Sentence

输入文档中的句子。

tokens[]

Token

输入文档中的词法单元及其语法信息。

language

string

文本的语言,与请求中指定的语言相同;如果未指定,则与自动检测到的语言相同。如需了解详情,请参阅 Document.language 字段。

AnnotateTextRequest

文本注释 API 的请求消息,此 API 可以在一次调用中执行多种分析类型(情感、实体和语法)。

字段
document

Document

必需。输入文档。

features

Features

必需。已启用的功能。

encoding_type

EncodingType

API 用于计算偏移的编码类型。

特性

所有适用于情感、语法和语义分析的特性。将每个特性设为 true 可对输入启用特定的分析。

字段
extract_syntax

bool

提取语法信息。

extract_entities

bool

提取实体,

extract_document_sentiment

bool

提取文档级情感。

extract_entity_sentiment

bool

提取实体及其关联的情感。

classify_text

bool

将整个文档分类。如果该值为 true,则 API 将使用归类为预定义分类的默认模型。

moderate_text

bool

审核文档是否包含有害和敏感内容。

classification_model_options

ClassificationModelOptions

可选。用于分类的模型选项。如果未指定,则默认为 v1 选项。仅当 classify_text 设为 true 时才会用到此政策。

AnnotateTextResponse

文本注释响应消息。

字段
sentences[]

Sentence

输入文档中的句子。当用户启用 AnnotateTextRequest.Features.extract_syntax 时填充。

tokens[]

Token

输入文档中的词法单元及其语法信息。当用户启用 AnnotateTextRequest.Features.extract_syntax 时填充。

entities[]

Entity

输入文档中的实体及其语义信息。当用户启用 AnnotateTextRequest.Features.extract_entities 时填充。

document_sentiment

Sentiment

文档的整体情感。当用户启用 AnnotateTextRequest.Features.extract_document_sentiment 时填充。

language

string

文本的语言,与请求中指定的语言相同;如果未指定,则与自动检测到的语言相同。如需了解详情,请参阅 Document.language 字段。

categories[]

ClassificationCategory

输入文档中识别的类别。

moderation_categories[]

ClassificationCategory

输入文档中识别的有害和敏感类别。

ClassificationCategory

表示从文本分类器返回的类别。

字段
name

string

表示文档的类别名称。

confidence

float

分类器的类别置信度。数字表示分类器对该类别表示给定文本的确定程度。

ClassificationModelOptions

分类请求可用的模型选项。

字段
联合字段 model_type。如果未设置此字段,则系统将默认使用 v1_modelmodel_type 只能是下列其中一项:
v1_model

V1Model

设置此字段将使用 V1 模型和 V1 内容类别版本。V1 模型是旧版模型;我们日后将不再支持此模型。

v2_model

V2Model

设置此字段后,系统将使用具有适当内容类别版本的 V2 模型。V2 模型的效果更好。

V1Model

此类型没有字段。

V1 模型的选项。

V2Model

V2 模型的选项。

字段
content_categories_version

ContentCategoriesVersion

用于分类的内容类别。

ContentCategoriesVersion

用于分类的内容类别。

枚举
CONTENT_CATEGORIES_VERSION_UNSPECIFIED 如果未指定 ContentCategoriesVersion,此选项将默认为 V1
V1 我们在 2017 年首次推出的旧版内容类别。
V2 2022 年更新了内容类别。

ClassifyTextRequest

文档分类请求消息。

字段
document

Document

必需。输入文档。

classification_model_options

ClassificationModelOptions

可选。用于分类的模型选项。如果未指定,则默认为 v1 选项。

ClassifyTextResponse

文档分类响应消息。

字段
categories[]

ClassificationCategory

表示输入文档的类别。

DependencyEdge

表示词法单元的依存关系解析树信息。

字段
head_token_index

int32

表示依存关系树中此词法单元的头。这是词法单元的索引,它包含指向该词法单元的有向边。索引是 API 方法返回的词法单元数组中词法单元的位置。如果此令牌是根令牌,则 head_token_index 是它自己的索引。

label

Label

词法单元的解析标签。

标签

词法单元的解析标签枚举。

枚举
UNKNOWN 未知
ABBREV 缩写
ACOMP 形容词补语
ADVCL 状语从句修饰语
ADVMOD 状语
AMOD 名词短语的形容词修饰
APPOS 名词短语的同位词修饰
ATTR 与系动词相关的属性
AUX 助(非主)动词
AUXPASS 被动式助动词
CC 并列连接词
CCOMP 动词或形容词的从句补语
CONJ 连接性副词
CSUBJ 从主关系
CSUBJPASS 主从被动关系
DEP 依赖关系(无法确定)
DET 限定词
DISCOURSE 话语
DOBJ 直接宾语
EXPL 虚词
GOESWITH 伴随(文本中未经修改的字词的一部分)
IOBJ 间接宾语
MARK 标志词(引导从句的字词)
MWE 多字词表达
MWV 多字词口头表达
NEG 否定词修饰
NN 复合名词修饰语
NPADVMOD 用作状语的名词短语
NSUBJ 名词性主语
NSUBJPASS 被动型名词性主语
NUM 名词的数量修饰
NUMBER 复名数
P 标点符号
PARATAXIS 并列关系
PARTMOD 分词修饰语
PCOMP 介词的补语是从句
POBJ 介词宾语
POSS 所有格修饰语
POSTNEG 动词后否定助词
PRECOMP 谓词补语
PRECONJ 前置连接词
PREDET 前置限定词
PREF 前缀
PREP 介词修饰语
PRONL 动词和动语素之间的关系
PRT 小品词
PS 关联或所有格标志词
QUANTMOD 量词短语修饰语
RCMOD 关系从句修饰语
RCMODREL 关系从句中的补语化成分
RDROP 前面无谓词的省略号
REF 指代
REMNANT 补余
REPARANDUM 修正
ROOT 词根
SNUM 指定数字单位的后缀
SUFF 后缀
TMOD 时间修饰语
TOPIC 主题标志词
VMOD 以修饰名词的动词不定式开头的从句
VOCATIVE 呼格
XCOMP 开放式从句补语
SUFFIX 名称后缀
TITLE 职位名称
ADVPHMOD 副词短语修饰
AUXCAUS 使役助动词
AUXVV 助动词
DTMOD Rentaishi(名词前修饰语)
FOREIGN 外来词
KW 关键字
LIST 一系列可比项目列表
NOMC 名词性从句
NOMCSUBJ 名词性从句主语
NOMCSUBJPASS 名词性从句被动语态
NUMC 数字修饰词组合
COP 系动词
DISLOCATED 错位关系(针对前移/主题化元素)
ASP 式标记
GMOD 所有格修饰语
GOBJ 所有格宾语
INFMOD 不定式修饰语
MES 衡量
NCOMP 名词的名词性补语

文档

表示 API 方法的输入。

字段
type

Type

必需。如果类型未设置或为 TYPE_UNSPECIFIED,则返回 INVALID_ARGUMENT 错误。

language

string

文档的语言(如果未指定,系统会自动检测语言)。接受 ISO 和 BCP-47 语言代码。
语言支持列出了每种 API 方法当前支持的语言。如果调用的 API 方法不支持该语言(由调用方指定或自动检测到的语言),系统会返回 INVALID_ARGUMENT 错误。

reference_web_uri

string

文档的来源网络 URI。此 URI 不用于提取内容,而是作为分析文档的提示。

boilerplate_handling

BoilerplateHandling

指明应如何处理此文档中检测到的样本内容(例如广告、版权声明、横幅)。如果未指定,系统会将样本内容与内容视为同等。

联合字段 source。文档的来源:包含内容或 Google Cloud Storage URI 的字符串。source 只能是下列其中一项:
content

string

输入的内容(字符串格式)。 Cloud Audit Logging 基于用户数据,因此无需满足此要求。

gcs_content_uri

string

文件内容所在的 Google Cloud Storage URI。 此 URI 必须为如下形式:gs://bucket_name/object_name。如需了解详情,请参阅 https://cloud.google.com/storage/docs/reference-uris。注意:不支持 Cloud Storage 对象版本控制。

BoilerplateHandling

处理文档中检测到的样本文本的方法

枚举
BOILERPLATE_HANDLING_UNSPECIFIED 未指定样板处理。
SKIP_BOILERPLATE 不分析检测到的样板内容。必须提供参考网页 URI 才能检测样本代码。
KEEP_BOILERPLATE 将样本内容视为内容。

类型

文档类型枚举。

枚举
TYPE_UNSPECIFIED 未指定内容类型。
PLAIN_TEXT 纯文本
HTML HTML

EncodingType

表示调用方用于处理输出的文本编码。建议提供 EncodingType,因为 API 为各种输出(例如词法单元和提及)提供起始偏移量,而且以原生方式使用不同文本编码的语言可能以不同方式访问偏移量。

枚举
NONE 如果未指定 EncodingType,则依赖于编码的信息(例如 begin_offset)将设置为 -1
UTF8 依赖于编码的信息(例如 begin_offset)基于输入的 UTF-8 编码计算得出。例如,C++ 和 Go 就是以原生方式使用此编码的语言。
UTF16 依赖于编码的信息(例如 begin_offset)基于输入的 UTF-16 编码计算得出。例如,Java 和 JavaScript 就是以原生方式使用此编码的语言。
UTF32 依赖于编码的信息(例如 begin_offset)基于输入的 UTF-32 编码计算得出。Python 是以原生方式使用此编码的语言示例。

实体

表示文本中已知实体(例如用户、组织或位置)的短语。API 会将显著性和提及等信息与实体关联。

字段
name

string

实体的代表性名称。

type

Type

实体类型。

metadata

map<string, string>

与实体关联的元数据。

对于大多数实体类型,元数据是维基百科网址 (wikipedia_url) 和知识图谱 MID (mid)(如果有)。对于与其他实体类型关联的元数据,请参阅下面的“类型”表。

salience

float

在 [0, 1.0] 范围内的与实体关联的显著性得分。

通过实体的显著性得分,可了解该实体在整个文档文本中的重要性或向心性。分数接近 0 表示不太显著,而接近 1.0 则表示非常显著。

mentions[]

EntityMention

输入文档中此实体的提及。API 目前支持专有名词提及。

sentiment

Sentiment

对于对 AnalyzeEntitySentimentRequest 的调用,或者如果 AnnotateTextRequest.Features.extract_entity_sentiment 设置为 true,此字段将包含在提供的文档中对该实体表达的总体情感。

类型

实体的类型。对于大多数实体类型,关联的元数据是维基百科网址 (wikipedia_url) 和知识图谱 MID (mid)。下表列出了具有不同元数据的实体的关联字段。

枚举
UNKNOWN 未知
PERSON 用户
LOCATION 位置
ORGANIZATION 组织
EVENT 事件
WORK_OF_ART 艺术作品
CONSUMER_GOOD 消费类商品
OTHER 其他类型的实体
PHONE_NUMBER

电话号码

元数据列出根据当地惯例设置格式的电话号码,以及文本中出现的任何其他元素:

  • number - 实际数字,按照当地惯例分为多个部分
  • national_prefix - 国家/地区代码(如果检测到)
  • area_code - 地区或区域代码(如果检测到)
  • extension - 在连接后拨打的电话分机号(如果检测到)
ADDRESS

地址

元数据标识门牌号和市行政区,以及文本中出现的任何其他元素:

  • street_number - 门牌号
  • locality - 城市或城镇
  • street_name - 街道/路线名称(如果检测到)
  • postal_code - 邮政编码(如果检测到)
  • country - 国家/地区(如果检测到)
  • broad_region - 行政区,例如州(如果检测到)
  • narrow_region - 较小的行政区,例如县/郡(如果检测到)
  • sublocality - 在亚洲地址中用于区分城市内的区(如果检测到)
DATE

日期

元数据标识日期的组成部分:

  • year - 用四位数表示的年份(如果检测到)
  • month - 用两位数表示的月份(如果检测到)
  • day - 用两位数表示的日期(如果检测到)
NUMBER

数字

元数据本身就是数字。

PRICE

价格

元数据标识 valuecurrency

EntityMention

表示文本中实体的提及。目前支持专有名词提及。

字段
text

TextSpan

提及文本。

type

Type

实体提及的类型。

sentiment

Sentiment

对于对 AnalyzeEntitySentimentRequest 的调用,或者如果 AnnotateTextRequest.Features.extract_entity_sentiment 设置为 true,此字段将包含在提供的文档中此实体提及所表达的情感。

类型

支持的提及类型。

枚举
TYPE_UNKNOWN 未知
PROPER 专有名词
COMMON 普通名词(或复合名词)

ModerateTextRequest

文档审核请求消息。

字段
document

Document

必需。输入文档。

ModerateTextResponse

文档审核响应消息。

字段
moderation_categories[]

ClassificationCategory

表示输入文档的有害和敏感类别。

PartOfSpeech

表示词法单元的词性信息。

字段
tag

Tag

词性标记。

aspect

Aspect

语法式。

case

Case

语法格。

form

Form

语法形式。

gender

Gender

语法性别。

mood

Mood

语法语气。

number

Number

语法数量。

person

Person

语法人称。

proper

Proper

语法专有性。

reciprocity

Reciprocity

语法互指性。

tense

Tense

语法时态。

voice

Voice

语法语态。

方面

在事件中表现时间流的动词特征。

枚举
ASPECT_UNKNOWN 式不适用于分析后的语言,也无法预测。
PERFECTIVE 完成式
IMPERFECTIVE 未完成式
PROGRESSIVE 进行式

名词或代词在短语、从句或句子中所起的语法作用。在某些语言中,其他词性(如形容词和限定词)都会发生与名词一致的格变化。

枚举
CASE_UNKNOWN 格不适用于分析后的语言,也无法预测。
ACCUSATIVE 宾格
ADVERBIAL 副词格
COMPLEMENTIVE 补充格
DATIVE 与格
GENITIVE 所有格
INSTRUMENTAL 工具格
LOCATIVE 位置格
NOMINATIVE 主格
OBLIQUE 从格
PARTITIVE 部分格
PREPOSITIONAL 前置格
REFLEXIVE_CASE 反身代词
RELATIVE_CASE 关系格
VOCATIVE 呼格

形式

根据语言的不同,形式可以分为动词、形容词、副词等不同形式。例如,对动词和形容词的变形词尾进行分类,或者对形容词和分词的短形式和长形式进行区分

枚举
FORM_UNKNOWN 形式不适用于分析后的语言,也无法预测。
ADNOMIAL 名词修饰语
AUXILIARY 辅助词
COMPLEMENTIZER 补语成分
FINAL_ENDING 词尾
GERUND 动名词
REALIS 已然形
IRREALIS 未然形
SHORT 短形式
LONG 长形式
ORDER 命令形式
SPECIFIC 特殊形式

性别

关联词的行为反映的名词性别类别。

枚举
GENDER_UNKNOWN 性别不适用于分析后的语言,也无法预测。
FEMININE 阴性词
MASCULINE 阳性词
NEUTER 中性词

语气

动词的语法功能,用于表示情态和态度。

枚举
MOOD_UNKNOWN 语气不适用于分析后的语言,也无法预测。
CONDITIONAL_MOOD 条件语气
IMPERATIVE 祈使语气
INDICATIVE 陈述语气
INTERROGATIVE 疑问语气
JUSSIVE 弱祈使语气
SUBJUNCTIVE 虚拟语气

数字

数的区分。

枚举
NUMBER_UNKNOWN 数字不适用于分析后的语言,也无法预测。
SINGULAR 单数
PLURAL 复数
DUAL 双数

人称

说话人、第二人称、第三人称等之间的区别。

枚举
PERSON_UNKNOWN 人称不适用于分析后的语言,也无法预测。
FIRST 第一人称
SECOND 第二人称
THIRD 第三人称
REFLEXIVE_PERSON 反身代词

专有

此类别显示词法单元是否属于专有名称的一部分。

枚举
PROPER_UNKNOWN 专有性不适用于分析后的语言,也无法预测。
PROPER 专有
NOT_PROPER 非专有

互指性

代词的互指特征。

枚举
RECIPROCITY_UNKNOWN 互指性不适用于分析后的语言,也无法预测。
RECIPROCAL 互指
NON_RECIPROCAL 非互指

标记

词性标记枚举。

枚举
UNKNOWN 未知
ADJ 形容词
ADP 介词(前置词和后置词)
ADV 副词
CONJ 连词
DET 限定词
NOUN 名词(普通和专有)
NUM 基数词
PRON 代词
PRT 助词或其他虚词
PUNCT 标点符号
VERB 动词(所有时态和模式)
X 其他:外来词、拼写错误的词、缩写
AFFIX 词缀

时态

时间参考。

枚举
TENSE_UNKNOWN 时态不适用于分析后的语言,也无法预测。
CONDITIONAL_TENSE 条件
FUTURE 将来时
PAST 过去时
PRESENT 现在时
IMPERFECT 未完成时
PLUPERFECT 过去完成时

语态

动词表达的动作与由其主词确定的参与者之间的关系。

枚举
VOICE_UNKNOWN 语态不适用于分析后的语言,也无法预测。
ACTIVE 主动
CAUSATIVE 使动
PASSIVE 被动

句子

表示输入文档中的一个句子。

字段
text

TextSpan

句子文本。

sentiment

Sentiment

对于对 AnalyzeSentimentRequest 的调用,或者如果 AnnotateTextRequest.Features.extract_document_sentiment 设置为 true,则此字段将包含句子所体现的情感。

情感

表示与整个文本或文本中的实体相关联的感受。

字段
magnitude

float

[0, +inf] 范围内的非负数,表示情感的绝对量级,与具体分数(正数或负数)无关。

score

float

情感得分介于 -1.0(负面情绪)与 1.0(正面情绪)之间。

TextSpan

表示输入文档中的文本片段。

字段
content

string

文本片段的内容,即文档的子字符串。

begin_offset

int32

API 根据 API 请求中指定的 EncodingType 计算原始文档中内容的起始偏移量。

令牌

表示文本的最小语法构建块。

字段
text

TextSpan

令牌文本。

part_of_speech

PartOfSpeech

此词法单元的词性标记。

dependency_edge

DependencyEdge

此词法单元的依存关系树解析。

lemma

string

词法单元的词元