REST Resource: projects.locations.collections.dataStores.branches.documents.chunks

Recurso: Chunk

El fragmento captura toda la información de metadatos sin procesar de los elementos que se recomendarán o buscarán en el modo de fragmento.

Representación JSON
{
  "name": string,
  "id": string,
  "content": string,
  "documentMetadata": {
    object (DocumentMetadata)
  },
  "derivedStructData": {
    object
  },
  "pageSpan": {
    object (PageSpan)
  },
  "chunkMetadata": {
    object (ChunkMetadata)
  },
  "dataUrls": [
    string
  ],
  "annotationContents": [
    string
  ],
  "annotationMetadata": [
    {
      object (AnnotationMetadata)
    }
  ],
  "relevanceScore": number
}
Campos
name

string

Es el nombre completo del recurso del fragmento. Formato: projects/{project}/locations/{location}/collections/{collection}/dataStores/{dataStore}/branches/{branch}/documents/{documentId}/chunks/{chunk_id}.

Este campo debe ser una cadena codificada en UTF-8 con un límite de longitud de 1,024 caracteres.

id

string

Es el ID único del fragmento actual.

content

string

El contenido es una cadena de un documento (contenido analizado).

documentMetadata

object (DocumentMetadata)

Son los metadatos del documento del fragmento actual.

derivedStructData

object (Struct format)

Solo salida. Este campo es OUTPUT_ONLY. Contiene datos derivados que no se encuentran en el documento de entrada original.

pageSpan

object (PageSpan)

Es el intervalo de páginas del fragmento.

chunkMetadata

object (ChunkMetadata)

Solo salida. Son los metadatos del fragmento actual.

dataUrls[]

string

Solo salida. Son las URLs de los datos de la imagen si el fragmento actual contiene imágenes. Las URLs de datos se componen de cuatro partes: un prefijo (data:), un tipo de MIME que indica el tipo de datos, un token base64 opcional si no es textual y los datos en sí: data:[][;base64],

annotationContents[]

string

Solo salida. Contenido de la anotación si el fragmento actual contiene anotaciones.

annotationMetadata[]

object (AnnotationMetadata)

Solo salida. Los metadatos de la anotación incluyen contenido estructurado en el fragmento actual.

relevanceScore

number

Solo salida. Representa la puntuación de relevancia basada en la similitud. Una puntuación más alta indica una mayor relevancia del fragmento. La puntuación está en el rango [-1.0, 1.0]. Solo se propaga en SearchResponse.

DocumentMetadata

Los metadatos del documento contienen la información del documento del fragmento actual.

Representación JSON
{
  "uri": string,
  "title": string,
  "mimeType": string,
  "structData": {
    object
  }
}
Campos
uri

string

Es el URI del documento.

title

string

Es el título del documento.

mimeType

string

Es el tipo MIME del documento. https://www.iana.org/assignments/media-types/media-types.xhtml.

structData

object (Struct format)

Representación de datos Son los datos estructurados en formato JSON del documento. Debe cumplir con el Schema registrado o se arroja un error INVALID_ARGUMENT.

PageSpan

Es el intervalo de páginas del fragmento.

Representación JSON
{
  "pageStart": integer,
  "pageEnd": integer
}
Campos
pageStart

integer

Es la página de inicio del fragmento.

pageEnd

integer

Es la página final del fragmento.

ChunkMetadata

Son los metadatos del fragmento actual. Este campo solo se completa en la API de SearchService.Search.

Representación JSON
{
  "previousChunks": [
    {
      object (Chunk)
    }
  ],
  "nextChunks": [
    {
      object (Chunk)
    }
  ]
}
Campos
previousChunks[]

object (Chunk)

Son los fragmentos anteriores del fragmento actual. SearchRequest.ContentSearchSpec.ChunkSpec.num_previous_chunks controla el número. Este campo solo se completa en la API de SearchService.Search.

nextChunks[]

object (Chunk)

Son los próximos fragmentos del fragmento actual. SearchRequest.ContentSearchSpec.ChunkSpec.num_next_chunks controla el número. Este campo solo se completa en la API de SearchService.Search.

AnnotationMetadata

Los metadatos de la anotación incluyen contenido estructurado en el fragmento actual.

Representación JSON
{
  "structuredContent": {
    object (StructuredContent)
  },
  "imageId": string
}
Campos
structuredContent

object (StructuredContent)

Solo salida. Es la información del contenido estructurado.

imageId

string

Solo salida. Se proporciona el ID de la imagen si el contenido estructurado se basa en una imagen.

StructuredContent

Es la información del contenido estructurado.

Representación JSON
{
  "structureType": enum (StructureType),
  "content": string
}
Campos
structureType

enum (StructureType)

Solo salida. Es el tipo de estructura del contenido estructurado.

content

string

Solo salida. Es el contenido del contenido estructurado.

StructureType

Define los tipos de contenido estructurado que se pueden extraer.

Enums
STRUCTURE_TYPE_UNSPECIFIED Valor predeterminado.
SHAREHOLDER_STRUCTURE Estructura de accionistas
SIGNATURE_STRUCTURE estructura de firma.
CHECKBOX_STRUCTURE Estructura de la casilla de verificación.

Métodos

get

Obtienes una Document.

list

Obtiene una lista de Chunks.