Package google.cloud.language.v1

索引

LanguageService

提供情緒分析和實體辨識等文字分析作業。

AnalyzeEntities

rpc AnalyzeEntities(AnalyzeEntitiesRequest) returns (AnalyzeEntitiesResponse)

找出文字中的命名實體 (目前為專有名詞和普通名詞),以及實體類型、醒目程度、每個實體的提及,以及其他屬性。

授權範圍

需要下列其中一種 OAuth 範圍:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

詳情請參閱驗證總覽一文。

AnalyzeEntitySentiment

rpc AnalyzeEntitySentiment(AnalyzeEntitySentimentRequest) returns (AnalyzeEntitySentimentResponse)

尋找與文字中 AnalyzeEntities 相似的實體,並分析與每個實體及其提及相關的情緒。

授權範圍

需要下列其中一種 OAuth 範圍:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

詳情請參閱驗證總覽一文。

AnalyzeSentiment

rpc AnalyzeSentiment(AnalyzeSentimentRequest) returns (AnalyzeSentimentResponse)

分析所提供文字的情緒。

授權範圍

需要下列其中一種 OAuth 範圍:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

詳情請參閱驗證總覽一文。

AnalyzeSyntax

rpc AnalyzeSyntax(AnalyzeSyntaxRequest) returns (AnalyzeSyntaxResponse)

分析文字的語法,並提供句子邊界和符記化,以及詞性標記、相依樹狀結構和其他屬性。

授權範圍

需要下列其中一種 OAuth 範圍:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

詳情請參閱驗證總覽一文。

AnnotateText

rpc AnnotateText(AnnotateTextRequest) returns (AnnotateTextResponse)

這項方便方法可在單一呼叫中提供 analyzeSentiment、analyzeEntities 和 analyzeSyntax 提供的所有功能。

授權範圍

需要下列其中一種 OAuth 範圍:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

詳情請參閱驗證總覽一文。

ClassifyText

rpc ClassifyText(ClassifyTextRequest) returns (ClassifyTextResponse)

將文件分門別類。

授權範圍

需要下列其中一種 OAuth 範圍:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

詳情請參閱驗證總覽一文。

ModerateText

rpc ModerateText(ModerateTextRequest) returns (ModerateTextResponse)

審核有害內容和敏感類別的文件。

授權範圍

需要下列其中一種 OAuth 範圍:

  • https://www.googleapis.com/auth/cloud-language
  • https://www.googleapis.com/auth/cloud-platform

詳情請參閱驗證總覽一文。

AnalyzeEntitiesRequest

實體分析要求訊息。

欄位
document

Document

這是必要旗標,輸入文件。

encoding_type

EncodingType

API 用來計算位移的編碼類型。

AnalyzeEntitiesResponse

實體分析回應訊息。

欄位
entities[]

Entity

輸入文件中已辨識的實體。

language

string

文字的語言,與要求中指定的語言相同,如果未指定,則為自動偵測的語言。詳情請參閱 Document.language 欄位。

AnalyzeEntitySentimentRequest

實體層級情緒分析要求訊息。

欄位
document

Document

這是必要旗標,輸入文件。

encoding_type

EncodingType

API 用來計算位移的編碼類型。

AnalyzeEntitySentimentResponse

實體層級情緒分析回應訊息。

欄位
entities[]

Entity

輸入文件中已辨識的實體,以及相關情緒。

language

string

文字的語言,與要求中指定的語言相同,如果未指定,則為自動偵測的語言。詳情請參閱 Document.language 欄位。

AnalyzeSentimentRequest

情緒分析要求訊息。

欄位
document

Document

這是必要旗標,輸入文件。

encoding_type

EncodingType

API 用來計算句子偏移值的編碼類型。

AnalyzeSentimentResponse

情緒分析回應訊息。

欄位
document_sentiment

Sentiment

輸入文件的整體情緒。

language

string

文字的語言,與要求中指定的語言相同,如果未指定,則為自動偵測的語言。詳情請參閱 Document.language 欄位。

sentences[]

Sentence

文件中所有句子的情緒。

AnalyzeSyntaxRequest

語法分析要求訊息。

欄位
document

Document

這是必要旗標,輸入文件。

encoding_type

EncodingType

API 用來計算位移的編碼類型。

AnalyzeSyntaxResponse

語法分析回應訊息。

欄位
sentences[]

Sentence

輸入文件中的句子。

tokens[]

Token

輸入文件中的符記,以及其語法資訊。

language

string

文字的語言,與要求中指定的語言相同,如果未指定,則為自動偵測的語言。詳情請參閱 Document.language 欄位。

AnnotateTextRequest

文字註解 API 的請求訊息,可在單一呼叫中執行多種分析類型 (情緒、實體和語法)。

欄位
document

Document

這是必要旗標,輸入文件。

features

Features

這是必要旗標,已啟用的功能。

encoding_type

EncodingType

API 用來計算位移的編碼類型。

功能

所有可用的情緒、語法和語意分析功能。將每個值設為 true 可為輸入內容啟用特定分析。

欄位
extract_syntax

bool

擷取語法資訊。

extract_entities

bool

擷取實體

extract_document_sentiment

bool

擷取文件層級的情緒。

extract_entity_sentiment

bool

擷取實體及其相關情緒。

classify_text

bool

將整份文件分門別類。

moderate_text

bool

審核文件是否含有有害和敏感內容。

classification_model_options

ClassificationModelOptions

(非必要) 用於分類的模型選項。如未指定,預設會使用 v1 選項。只有在 classify_text 設為 True 時才會使用。

AnnotateTextResponse

文字註解回應訊息。

欄位
sentences[]

Sentence

輸入文件中的句子。如果使用者啟用 AnnotateTextRequest.Features.extract_syntax,系統就會填入這個值。

tokens[]

Token

輸入文件中的符記,以及其語法資訊。如果使用者啟用 AnnotateTextRequest.Features.extract_syntax,系統就會填入這個值。

entities[]

Entity

輸入文件中的實體及其語意資訊。如果使用者啟用 AnnotateTextRequest.Features.extract_entities,系統就會填入這個值。

document_sentiment

Sentiment

文件的整體情緒。如果使用者啟用 AnnotateTextRequest.Features.extract_document_sentiment,系統就會填入這個值。

language

string

文字的語言,與要求中指定的語言相同,如果未指定,則為自動偵測的語言。詳情請參閱 Document.language 欄位。

categories[]

ClassificationCategory

輸入文件中識別的類別。

moderation_categories[]

ClassificationCategory

輸入文件中所識別的有害和敏感類別。

ClassificationCategory

代表從文字分類器傳回的類別。

欄位
name

string

代表文件的類別名稱。

confidence

float

分類器對類別的可信度。這個數字代表分類器對此類別代表指定文字的確定程度。

ClassificationModelOptions

分類要求可用的模型選項。

欄位
聯集欄位 model_type。如果未設定這個欄位,系統會預設使用 v1_modelmodel_type 只能是下列其中一項:
v1_model

V1Model

設定這個欄位會使用第 1 版模型和第 1 版內容類別。V1 模型為舊版模型,日後將停止支援。

v2_model

V2Model

設定這個欄位後,系統會使用第 2 版模型,並搭配適當的內容類別版本。V2 模型的效能較佳。

V1Model

這個類型沒有任何欄位。

V1 模型的選項。

V2Model

V2 模型的選項。

欄位
content_categories_version

ContentCategoriesVersion

用於分類的內容類別。

ContentCategoriesVersion

用於分類的內容類別。

列舉
CONTENT_CATEGORIES_VERSION_UNSPECIFIED 如果未指定 ContentCategoriesVersion,這個選項會預設為 V1
V1 我們在 2017 年推出的舊版內容類別。
V2 2022 年更新的內容類別。

ClassifyTextRequest

文件分類要求訊息。

欄位
document

Document

這是必要旗標,輸入文件。

classification_model_options

ClassificationModelOptions

(非必要) 用於分類的模型選項。如未指定,則預設為 v1 選項。

ClassifyTextResponse

文件分類回應訊息。

欄位
categories[]

ClassificationCategory

代表輸入文件的類別。

DependencyEdge

代表符記的相依性剖析樹狀結構資訊。(如要進一步瞭解依附標籤,請參閱 http://www.aclweb.org/anthology/P13-2017

欄位
head_token_index

int32

代表依附元件樹狀結構中這個符記的頭部。這是符記的索引,該符記具有指向此符記的曲線。索引是權杖在 API 方法傳回的權杖陣列中的位置。如果這個符記是根權杖,則 head_token_index 就是該權杖的索引。

label

Label

符記的剖析標籤。

標籤

符記的剖析標籤列舉。

列舉
UNKNOWN 不明
ABBREV 縮寫修飾符
ACOMP 形容詞補語
ADVCL 副詞子句修飾符
ADVMOD 副詞修飾符
AMOD NP 的形容詞修飾詞
APPOS NP 的介詞修飾符
ATTR 依附於連繫動詞的屬性
AUX 助動詞 (非主要動詞)
AUXPASS 被動輔助
CC 並列連字詞
CCOMP 動詞或形容詞的子句補語
CONJ 連接詞
CSUBJ 子句主詞
CSUBJPASS 從句被動主詞
DEP 依附元件 (無法判斷)
DET 限定詞
DISCOURSE Discourse
DOBJ 直接受詞
EXPL 咒罵語
GOESWITH 與「文字中某個字詞的部分未經過妥善編輯」相關
IOBJ 間接物件
MARK 標記 (引入從句的字詞)
MWE 多字詞運算式
MWV 多字詞語音表達
NEG 否定修飾符
NN 名詞複合修飾符
NPADVMOD 用作副詞修飾詞的名詞片語
NSUBJ 名詞主詞
NSUBJPASS 被動名詞主詞
NUM 名詞的數字修飾符
NUMBER 複合數字的元素
P 標點符號
PARATAXIS 並列關係
PARTMOD 分詞修飾語
PCOMP 介系詞的補語是子句
POBJ 介係詞的受詞
POSS 控球修飾符
POSTNEG 動詞後否定助詞
PRECOMP 謂語補語
PRECONJ Preconjunt
PREDET 預設值
PREF 前置字串
PREP 介系詞修飾符
PRONL 動詞與動詞詞素之間的關係
PRT 助詞
PS 聯想或所有格標記
QUANTMOD 量詞片語修飾詞
RCMOD 相對子句修飾符
RCMODREL 在相關子句中使用補語
RDROP 沒有前置述詞的省略號
REF 參照
REMNANT 剩餘
REPARANDUM Reparandum
ROOT
SNUM 表示一組數字的字尾
SUFF 字尾
TMOD 時間修飾符
TOPIC 主題標記
VMOD 由動詞的非限定式所領導的子句,用於修飾名詞
VOCATIVE 呼格
XCOMP 開啟子句補語
SUFFIX 稱謂
TITLE 頭銜
ADVPHMOD 副詞片語調節係數
AUXCAUS 使役助詞
AUXVV 輔助說明
DTMOD 連體詞 (名詞前修飾語)
FOREIGN 外來語
KW 關鍵字
LIST 可比較的項目鏈結清單
NOMC 名詞化子句
NOMCSUBJ 名詞化子句式主詞
NOMCSUBJPASS 名詞化子句式被動語態
NUMC 數字修飾符的複合
COP 耦合
DISLOCATED 錯位關係 (前移/主題化元素)
ASP 體態標記
GMOD 屬格修飾語
GOBJ 屬格受詞
INFMOD 不定詞修飾語
MES 量測
NCOMP 名詞的名詞補語

文件

代表 API 方法的輸入內容。

欄位
type

Type

這是必要旗標,如果未設定類型或類型為 TYPE_UNSPECIFIED,系統會傳回 INVALID_ARGUMENT 錯誤。

language

string

文件的語言 (如未指定,系統會自動偵測語言)。系統接受 ISO 和 BCP-47 語言代碼。
語言支援」一節列出每個 API 方法目前支援的語言。如果呼叫的 API 方法不支援所指定 (由呼叫端指定或自動偵測) 的語言,系統會傳回 INVALID_ARGUMENT 錯誤。

聯集欄位 source。文件來源:包含內容的字串或 Google Cloud Storage URI。source 只能是下列其中一項:
content

string

輸入內容的字串格式。Cloud 稽核記錄不受影響,因為這項功能是根據使用者資料產生。

gcs_content_uri

string

檔案內容所在的 Google Cloud Storage URI。此 URI 的格式必須為 gs://bucket_name/object_name。詳情請參閱 https://cloud.google.com/storage/docs/reference-uris。注意:系統不支援 Cloud Storage 物件版本管理。

類型

文件類型列舉。

列舉
TYPE_UNSPECIFIED 未指定內容類型。
PLAIN_TEXT 純文字
HTML HTML

EncodingType

代表呼叫端用來處理輸出的文字編碼。建議提供 EncodingType,因為 API 會為各種輸出內容提供起始偏移量,例如符記和提及,而原生使用不同文字編碼的語言可能會以不同方式存取偏移量。

列舉
NONE 如果未指定 EncodingType,系統會在 -1 中設定編碼相關資訊 (例如 begin_offset)。
UTF8 編碼依附資訊 (例如 begin_offset) 會根據輸入內容的 UTF-8 編碼計算。C++ 和 Go 就是使用這種編碼的原生語言。
UTF16 系統會根據輸入內容的 UTF-16 編碼,計算出依賴編碼的資訊 (例如 begin_offset)。Java 和 JavaScript 就是使用這種編碼的語言。
UTF32 系統會根據輸入內容的 UTF-32 編碼,計算與編碼相關的資訊 (例如 begin_offset)。Python 就是使用這種編碼的語言之一。

實體

代表文字中已知實體的字詞,例如人物、機構或地點。API 會將醒目效果和提及等資訊與實體建立關聯。

欄位
name

string

實體的代表名稱。

type

Type

實體類型。

metadata

map<string, string>

與實體相關聯的中繼資料。

對於大多數實體類型,中繼資料是 Wikipedia 網址 (wikipedia_url) 和 Knowledge Graph MID (mid) (如有)。如要瞭解與其他實體類型相關聯的中繼資料,請參閱下方的「類型」表格。

salience

float

與實體相關聯的顯著性分數,範圍為 [0, 1.0]。

實體的顯著性分數可提供該實體對整篇文件文字的重要性或中心性相關資訊。分數越接近 0,醒目程度越低,越接近 1.0,醒目程度越高。

mentions[]

EntityMention

輸入文件中提及這個實體的次數。這個 API 目前支援專有名詞提及。

sentiment

Sentiment

如果您呼叫 [AnalyzeEntitySentiment][],或是將 AnnotateTextRequest.Features.extract_entity_sentiment 設為 true,這個欄位就會包含在提供文件中,針對此實體所表達的整體情緒。

類型

實體的類型。對於大多數實體類型,相關聯的中繼資料是 Wikipedia 網址 (wikipedia_url) 和 Knowledge Graph MID (mid)。下表列出具有不同中繼資料的實體相關聯欄位。

列舉
UNKNOWN 不明
PERSON 人物
LOCATION 位置
ORGANIZATION 機構
EVENT 活動
WORK_OF_ART 藝術品
CONSUMER_GOOD 消費性產品
OTHER 其他類型的實體
PHONE_NUMBER

電話號碼

中繼資料會列出電話號碼,並根據當地慣例設定格式,以及文字中顯示的其他元素:

  • number - 實際號碼,依照當地慣例細分為多個部分
  • national_prefix - 國家/地區代碼 (如有偵測到)
  • area_code - 區域或區碼 (如有)
  • extension - 電話分機 (連線後撥打) (如有偵測到)
ADDRESS

地址

中繼資料會標示街道號碼和地區,以及文字中顯示的其他元素:

  • street_number - 門牌號碼
  • locality - 城市或鄉鎮
  • street_name - 街道/路線名稱 (如果偵測到)
  • postal_code - 郵遞區號 (如有偵測到)
  • country - 國家/地區 (如果偵測到) <
  • broad_region - 系統偵測到的行政區 (例如州/省)
  • narrow_region:如有偵測到,則為較小的行政區域,例如縣
  • sublocality:用於亞洲地址,用於標示城市內的區域 (如有偵測到)
DATE

日期

中繼資料會標示日期的各個元件:

  • year - 以四位數字表示的年份 (如有偵測到)
  • month - 以兩位數字表示的月份 (如果偵測到)
  • day - 以兩位數字表示的日期 (如果偵測到)
NUMBER

數字

中繼資料就是數字本身。

PRICE

價格

中繼資料會標示 valuecurrency

EntityMention

代表文字中提及的實體。目前支援專有名詞提及功能。

欄位
text

TextSpan

提及文字。

type

Type

實體提及的類型。

sentiment

Sentiment

如果您呼叫 [AnalyzeEntitySentiment][] 或將 AnnotateTextRequest.Features.extract_entity_sentiment 設為 true,這個欄位就會包含在提供文件中提及此實體時所表達的情緒。

類型

支援的提及類型。

列舉
TYPE_UNKNOWN 不明
PROPER 專有名詞
COMMON 普通名詞 (或名詞複合詞)

ModerateTextRequest

文件管理要求訊息。

欄位
document

Document

這是必要旗標,輸入文件。

ModerateTextResponse

文件審核回應訊息。

欄位
moderation_categories[]

ClassificationCategory

代表輸入文件的有害和敏感類別。

PartOfSpeech

代表符號的詞性資訊。詞性定義請參閱 http://www.lrec-conf.org/proceedings/lrec2012/pdf/274_Paper.pdf

欄位
tag

Tag

詞性標記。

aspect

Aspect

語法體。

case

Case

語法格式。

form

Form

語法形式。

gender

Gender

語法性別。

mood

Mood

語法語氣。

number

Number

語法數量。

person

Person

語法人稱。

proper

Proper

文法正確性。

reciprocity

Reciprocity

文法上的互惠關係。

tense

Tense

文法時態。

voice

Voice

語法語氣。

切面

動詞的特性,用於表示事件發生期間的時間流動。

列舉
ASPECT_UNKNOWN 在所分析的語言中,系統無法使用或預測特徵。
PERFECTIVE 完成式
IMPERFECTIVE 不定式
PROGRESSIVE 漸進式

案件

在片語、子句或句子中,名詞或代名詞所執行的文法功能。在某些語言中,形容詞和限定詞等其他詞性會根據名詞的變化而變化詞尾。

列舉
CASE_UNKNOWN 在所分析的語言中不支援大小寫,或系統未預測大小寫。
ACCUSATIVE 受格
ADVERBIAL Adverbial
COMPLEMENTIVE 互補
DATIVE 與格
GENITIVE 所有格
INSTRUMENTAL 演奏
LOCATIVE 方位
NOMINATIVE 主格
OBLIQUE Oblique
PARTITIVE 分詞
PREPOSITIONAL 介系詞
REFLEXIVE_CASE 反射
RELATIVE_CASE 相對時間
VOCATIVE 呼格

表單

視語言而定,Form 可將動詞、形容詞、副詞等不同形式分類。舉例來說,可將動詞和形容詞的變化結尾分類,或區分形容詞和分詞的長短形式。

列舉
FORM_UNKNOWN 表單不適用於所分析的語言,或未進行預測。
ADNOMIAL Adnomial
AUXILIARY 輔助
COMPLEMENTIZER 補語詞
FINAL_ENDING 最終結局
GERUND 動名詞
REALIS Realis
IRREALIS Irrealis
SHORT 短篇影片
LONG 長篇影片
ORDER 訂單表單
SPECIFIC 特定表單

性別

名詞的性別類別會反映在相關字詞的行為中。

列舉
GENDER_UNKNOWN 在所分析的語言中,性別不相干或無法預測。
FEMININE 陰性
MASCULINE 陽性
NEUTER 中性

情境

動詞的語法特徵,用於表示語氣和態度。

列舉
MOOD_UNKNOWN 在所分析的語言中,情緒不相應或未預測。
CONDITIONAL_MOOD 條件式
IMPERATIVE 命令式
INDICATIVE 陳述語氣
INTERROGATIVE 疑問
JUSSIVE Jussive
SUBJUNCTIVE 假設語氣

數字

計算獎項。

列舉
NUMBER_UNKNOWN 數字在分析的語言中不適用,或未進行預測。
SINGULAR 單數
PLURAL 複數
DUAL 雙通道

人物

區分說話者、第二人稱、第三人稱等。

列舉
PERSON_UNKNOWN 系統無法在所分析的語言中使用人物,或無法預測人物。
FIRST 名字
SECOND
THIRD 第三週
REFLEXIVE_PERSON 反射

正確

這個類別會顯示符記是否為專有名詞的一部分。

列舉
PROPER_UNKNOWN 在分析的語言中,Proper 不適用或未預測。
PROPER 正確
NOT_PROPER 不正確

互惠

代名詞的互易性特徵。

列舉
RECIPROCITY_UNKNOWN 分析語言不支援互惠性,或系統未預測到互惠性。
RECIPROCAL 互惠
NON_RECIPROCAL 非對稱

標記

詞性標記列舉。

列舉
UNKNOWN 不明
ADJ 形容詞
ADP 廣告位置 (前置和後置)
ADV 副詞
CONJ 連結詞
DET 限定詞
NOUN 名詞 (一般和專有名詞)
NUM 基數
PRON 人稱代名詞
PRT 助詞或其他虛詞
PUNCT 標點符號
VERB 動詞 (所有時態和語態)
X 其他:外來語、錯字、縮寫
AFFIX Affix

時態

時間參照。

列舉
TENSE_UNKNOWN 在所分析的語言中,時態不適用或無法預測。
CONDITIONAL_TENSE 條件式
FUTURE 後續
PAST 過去
PRESENT 展示
IMPERFECT Imperfect
PLUPERFECT Pluperfect

語音

動詞所表達的動作與其引數所識別的參與者之間的關係。

列舉
VOICE_UNKNOWN 語音不適用於所分析的語言,或系統無法預測語音。
ACTIVE 有效
CAUSATIVE 致病
PASSIVE 被動

Sentence

代表輸入文件中的句子。

欄位
text

TextSpan

句子文字。

sentiment

Sentiment

如果呼叫 [AnalyzeSentiment][] 或將 AnnotateTextRequest.Features.extract_document_sentiment 設為 true,這個欄位會包含句子的情緒。

情緒

代表與整段文字或文字中的實體相關聯的情緒。

欄位
magnitude

float

介於 [0, +inf) 範圍內的非負整數,代表情緒的絕對規模,不論分數為正面或負面。

score

float

情緒分數介於 -1.0 (負面情緒) 和 1.0 (正面情緒) 之間。

TextSpan

代表輸入文件中的文字區間。

欄位
content

string

文字區間的內容,也就是文件的子字串。

begin_offset

int32

API 會根據 API 要求中指定的 EncodingType,計算原始文件中內容的起始偏移量。

權杖

代表文字最小的語法構成要素。

欄位
text

TextSpan

符記文字。

part_of_speech

PartOfSpeech

這個符號的詞性標記。

dependency_edge

DependencyEdge

這個符記的相依性剖析樹狀結構。

lemma

string

符號的詞根