Esta página se ha traducido con Cloud Translation API.

Obtener fragmentos y contenido extraído

Vertex AI Search puede proporcionar fragmentos de búsqueda, respuestas extractivas y segmentos extractivos con cada respuesta de búsqueda para mejorar los resultados.

Fragmentos: un fragmento es un breve extracto de texto del documento del resultado de búsqueda que ofrece una vista previa del contenido de un resultado de búsqueda. Incluye el resaltado de aciertos que puedes renderizar en tu interfaz de usuario. Los fragmentos suelen mostrarse debajo de cada resultado de búsqueda para ayudar a los usuarios finales a evaluar la relevancia y la utilidad de ese resultado. Los fragmentos están disponibles para los almacenes de datos con datos no estructurados y datos de sitios web (tanto la búsqueda básica en sitios web como la indexación avanzada de sitios web).
Respuestas extractivas: una respuesta extractiva es un texto literal que se devuelve con cada resultado de búsqueda. Se extrae directamente del documento original. Las respuestas extractivas suelen mostrarse en la parte superior de las páginas web para proporcionar al usuario final una respuesta breve que sea relevante para su consulta. Las respuestas extractivas están disponibles para los almacenes de datos con datos no estructurados y con indexación avanzada de sitios web.
Segmentos extractivos: un segmento extractivo es un texto literal que se devuelve con cada resultado de búsqueda. Un segmento extractivo suele ser más extenso que una respuesta extractiva. Los segmentos extractivos se pueden mostrar como respuesta a una consulta y se pueden usar para realizar tareas de posprocesamiento y como entrada para modelos de lenguaje extensos con el fin de generar respuestas o texto nuevo. Los segmentos extractivos están disponibles en los almacenes de datos con datos sin estructurar y con indexación avanzada de sitios web.

Ejemplos

Los siguientes ejemplos ayudan a ilustrar las diferencias entre los fragmentos, las respuestas extractivas y los segmentos extractivos.

Consulta: "¿Qué es la búsqueda de Vertex AI?"

Snippet:

Para ello, anunciamos Vertex AI Search, la forma más rápida que tienen los desarrolladores para empezar a crear aplicaciones de generación, como bots, ...
Respuesta extractiva:

Vertex AI Search permite a los desarrolladores lanzar rápidamente nuevas experiencias, como bots, interfaces de chat, buscadores personalizados, asistentes digitales y más. Los desarrolladores tienen acceso a las APIs de los modelos básicos de Google y pueden usar plantillas listas para usar para empezar a crear aplicaciones genéricas en cuestión de minutos u horas.
Segmento extractivo:
Las empresas y los Gobiernos también quieren que las interacciones con clientes, partners y empleados sean más eficaces y útiles con esta nueva tecnología de IA. Para ello, anunciamos nuestro nuevo Vertex AI Search.

Vertex AI Search permite a los desarrolladores lanzar rápidamente nuevas experiencias, como bots, interfaces de chat, buscadores personalizados, asistentes digitales y más. Los desarrolladores tienen acceso a las APIs de los modelos básicos de Google y pueden usar plantillas listas para usar para empezar a crear aplicaciones genéricas en cuestión de minutos u horas. Con Vertex AI Search, los desarrolladores también podrán hacer lo siguiente:
- Combina datos de la organización y técnicas de recuperación de información para ofrecer respuestas pertinentes.
- Busca y responde con algo más que texto.
- Combina conversaciones naturales con flujos estructurados.
- No te limites a informar, sino que también puedes realizar transacciones.

Antes de empezar

En función del tipo de aplicación que tengas, completa los siguientes requisitos previos:

Aplicación sin estructurar:
- En el caso de los fragmentos, no hay ningún requisito.
- Para las respuestas extractivas y los segmentos extractivos, activa las funciones de la edición Enterprise.
Aplicación del sitio web:
- En el caso de los fragmentos, activa lo siguiente:
  - Funciones de la edición Enterprise
- En el caso de las respuestas extractivas, activa lo siguiente:
  - Funciones de la edición Enterprise
  - Indexación avanzada de sitios web

Fragmentos

Los fragmentos son extractos breves de cada documento de resultados de búsqueda. Incluyen el resaltado de coincidencias en etiquetas HTML en negrita para renderizar vistas previas de los resultados de búsqueda en una interfaz de usuario. Normalmente, los fragmentos se muestran como texto de vista previa debajo de un resultado de búsqueda para ayudar a los usuarios finales a decidir si les será útil hacer clic en ese resultado.

Los fragmentos están disponibles para la búsqueda en sitios web y sin estructurar.

Obtener fragmentos

Para obtener fragmentos:

Envía una solicitud de búsqueda que incluya ContentSearchSpec.SnippetSpec y asigna el valor true a returnSnippet.

En el siguiente ejemplo de SnippetSpec se especifica que se puede devolver un fragmento por cada resultado de búsqueda.
```
"contentSearchSpec":
{
  "snippetSpec":
  {
    "returnSnippet": true
  }
}
```
- returnSnippet: si se define como true, devuelve un fragmento.

Obtiene fragmentos de la respuesta de búsqueda. Los fragmentos se devuelven con cada resultado de búsqueda en derivedStructData.snippets.

En este ejemplo de un documento que se ha devuelto como uno de los resultados de una respuesta de búsqueda, se incluye un fragmento con el texto destacado en negrita:

{
  "id": "54321",
  "document": {
    "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
    "id": "54321",
    "derivedStructData": {
      "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2008_google_annual_report.pdf",
      "snippets": [
        {
          "snippet": "Google Chrome. Google Chrome is an open-source browser that combines a minimal design with technologies to make the web faster, safer, and easier to navigate.",
          "snippet_status": "SUCCESS"
        }
      ]
    }
  }
}

snippet: Contiene un fragmento generado para el resultado de búsqueda del documento. Los resultados destacados se incluyen en etiquetas HTML en negrita.
snippet_status: Si se genera un fragmento, este campo se devuelve como SUCCESS. Si no se genera ningún fragmento, este campo se devuelve como NO_SNIPPET_AVAILABLE.

Respuestas extractivas

Una respuesta extractiva es una sección de texto extraída literalmente de un documento. Cuando se devuelve un documento como resultado de búsqueda en una respuesta de búsqueda, se puede devolver una respuesta extractiva relevante con ese resultado.

Una respuesta extractiva puede ser texto, como un párrafo, una tabla o una lista con viñetas, que se extrae del documento de resultados de búsqueda. Las respuestas extractivas son más cortas que los segmentos extractivos.

Las respuestas extractivas se pueden usar como alternativa a las respuestas resumidas en los casos en los que se prefieren respuestas precisas y literales a resúmenes parafraseados.

Las respuestas extractivas están disponibles para los almacenes de datos con datos no estructurados y con indexación avanzada de sitios web.

Obtener respuestas extractivas

Para obtener respuestas extractivas:

Envía una solicitud de búsqueda que use ContentSearchSpec.extractiveContentSpec para especificar maxExtractiveAnswerCount.

En el siguiente ejemplo de extractiveContentSpec se especifica que se puede devolver una respuesta por cada resultado de búsqueda.
```
"contentSearchSpec":
{
  "extractiveContentSpec": {
    "maxExtractiveAnswerCount": 1
  }
}
```
- maxExtractiveAnswerCount: número de respuestas extractivas que se devuelven por cada resultado de búsqueda. El valor predeterminado es 0 y el máximo es 5.

Obtener respuestas extractivas de la respuesta de búsqueda. Las respuestas extractivas se devuelven con cada resultado de búsqueda en extractive_answers.

En este ejemplo de un documento que se ha devuelto como uno de los resultados de una respuesta de búsqueda, se ha incluido una respuesta extractiva con el resultado:

{
  "id": "54321",
  "document": {
    "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
    "id": "54321",
    "derivedStructData": {
      "extractive_answers": [
        {
          "pageNumber": "2",
          "content": "Google saw growth throughout the year both in our domestic business and internationally, both on Google owned sites and on the Google Network. Specifically, revenues from Google owned sites increased 101% on a year over year basis, from $792 million to $1.6 billion."
        }
      ],
      "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
    }
}
}

pageNumber: Si se pueden extraer números de página del documento, este campo indica de dónde se ha extraído la respuesta.
content: el contenido de la respuesta extractiva.

Segmentos extractivos

Un segmento extractivo es una sección de texto que se extrae literalmente de un documento de resultados de búsqueda. Los segmentos extractivos son similares a las respuestas extractivas, pero suelen ser más completos y detallados. Por lo general, los segmentos extractivos se usan como entrada para tus propios LLMs con el fin de generar respuestas o texto nuevo.

Los segmentos extractivos pueden ser varios párrafos, incluido texto con formato, como tablas y listas con viñetas.

Los segmentos extractivos están disponibles para los almacenes de datos con datos sin estructurar y con indexación avanzada de sitios web.

Opciones de segmentos extractivos

Están disponibles las siguientes opciones para los segmentos extractivos:

Número de segmentos: puede especificar hasta 10 segmentos extractivos que se devolverán por cada resultado de búsqueda.
Puntuaciones de relevancia: se basan en la similitud de la consulta con el segmento extraído. Puedes especificar que los segmentos extractivos se devuelvan con puntuaciones de relevancia. Las puntuaciones van de -1,0 (menos relevante) a 1,0 (más relevante). Si activas las puntuaciones de relevancia, puede que aumente la latencia.

Nota: El orden en el que se devuelven los resultados se basa en muchos factores. Aunque las puntuaciones de relevancia se tienen en cuenta durante la clasificación, no determinan por sí solas el orden de los resultados.
Segmentos adyacentes: puede definir numPreviousSegments y numNextSegments para obtener hasta 3 segmentos inmediatamente anteriores y posteriores al segmento pertinente. Los segmentos adyacentes pueden añadir contexto y precisión al segmento pertinente.

Si activas los segmentos adyacentes, la latencia puede aumentar.

Obtener segmentos extractivos

En los siguientes pasos se muestra cómo obtener segmentos extractivos de datos no estructurados. Puedes seguir pasos similares para obtener segmentos extractivos de datos de sitios web.

Envía una solicitud de búsqueda que use ContentSearchSpec.extractiveContentSpec para especificar maxExtractiveSegmentCount.

En el siguiente ejemplo de extractiveContentSpec se especifica que se puede devolver un segmento por cada resultado de búsqueda.
```
"contentSearchSpec":
{
  "extractiveContentSpec": {
    "maxExtractiveSegmentCount": 1
  }
}
```
- maxExtractiveSegmentCount: número de segmentos extractivos que se devolverán por cada resultado de búsqueda. El valor predeterminado es 0 y el máximo es 10.
Opciones adicionales:
- returnExtractiveSegmentScore: asigna el valor true para devolver una puntuación de relevancia con cada segmento devuelto.
- numPreviousSegments: número de segmentos adyacentes que se devolverán antes del segmento pertinente. El valor predeterminado es 0 y el máximo es 3. Usar segmentos adyacentes puede aumentar la latencia.
- numNextSegments: número de segmentos adyacentes que se devolverán después del segmento pertinente. El valor predeterminado es 0 y el máximo es 3. Usar segmentos adyacentes puede aumentar la latencia.
Para obtener más información sobre estas opciones, consulta Opciones de segmento extractivo.

Obtiene segmentos de la respuesta de búsqueda. Los segmentos se devuelven con cada resultado de búsqueda en extractive_segments.

En este ejemplo de un documento que se ha devuelto como uno de los resultados de una respuesta de búsqueda, se ha incluido un segmento con el resultado:

{
  "id": "54321",
  "document": {
    "name": "projects/123/locations/global/collections/default_collection/dataStores/example-datastore/branches/0/documents/54321",
    "id": "54321",
    "derivedStructData": {
      "extractive_segments": [
        {
          "pageNumber": "2",
          "content": "Client\nGoogle Toolbar. Google Toolbar is a free application that adds a Google search box to web browsers (Internet\nExplorer and Firefox) and improves user web experience through features such as a pop-up blocker that blocks\npop-up advertising, an autofill feature that completes web forms with information saved on a user's computer, and\ncustomizable buttons that let users search their favorite web sites and stay updated on their favorite feeds.\n\nGoogle Chrome. Google Chrome is an open-source browser that combines a minimal design with\ntechnologies to make the web faster, safer, and easier to navigate.\nGoogle Pack. Google Pack is a free collection of safe, useful software programs from Google and other\ncompanies that improve the user experience online and on the desktop. It includes programs that help users\nbrowse the web faster, remove spyware and viruses.\n\nPicasa. Picasa is a free service that allows users to view, manage and share their photos. Picasa enables users\nto import, organize and edit their photos, and upload them to Picasa Web Albums where the photos can be shared\nwith others on the internet.\n\nGoogle Desktop. Google Desktop lets people perform a full-text search on the contents of their own\ncomputer, including email, files, instant messenger chats and web browser history. Users can view web pages they\nhave visited even when they are not online. Google Desktop also includes a customizable Sidebar that includes\nmodules for weather, stock tickers and news.\n\n5"
        }
      ],
      "link": "gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs/2004Q4_earnings_google.pdf"
    }
}
}

pageNumber: Si se pueden extraer números de página del documento, este campo indica de dónde se ha extraído la respuesta.
content: el contenido del segmento extractivo.

Siguientes pasos

Previsualizar los resultados de búsqueda