Daten für die Aufnahme vorbereiten

Wie Sie Daten vorbereiten, hängt von der Art der Daten ab, die Sie importieren, und von der Art des Imports. Beginnen Sie damit, welche Art von Daten Sie importieren möchten:

Informationen zur zusammengeführten Suche, bei der mehrere Datenspeicher mit einer einzelnen benutzerdefinierten Suchanwendung verbunden werden können, finden Sie unter Mehrere Datenspeicher verbinden.

Websitedaten

Wenn Sie einen Datenspeicher für Websitedaten erstellen, geben Sie die URLs der Webseiten an, die Google für die Suche oder Empfehlung crawlen und indexieren soll.

Bevor Sie Ihre Websitedaten indexieren:

  • Legen Sie fest, welche URL-Muster in die Indexierung einbezogen und welche ausgeschlossen werden sollen.

    • Schließen Sie die Muster für dynamische URLs aus. Dynamische URLs sind URLs, die sich zum Zeitpunkt der Bereitstellung je nach Anfrage ändern.

      Beispiel: Die URL-Muster für die Webseiten, auf denen die Suchergebnisse präsentiert werden, z. B. www.example.com/search/*. Angenommen, ein Nutzer sucht nach dem Begriff Nobel prize. Die dynamische Such-URL könnte dann eine eindeutige URL sein: www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Wenn das URL-Muster www.example.com/search/* nicht ausgeschlossen wird, werden alle eindeutigen dynamischen Such-URLs, die diesem Muster entsprechen, indexiert. Das führt zu einem aufgeblähten Index und einer schlechteren Suchqualität.

    • Doppelte URLs mithilfe von kanonischen URL-Mustern entfernen: So wird eine einzige kanonische URL für die Google Suche bereitgestellt, wenn die Website gecrawlt wird, und Unklarheiten werden vermieden. Beispiele für die Kanonisierung und weitere Informationen finden Sie unter Was ist URL-Kanonisierung? und Kanonische URL mit rel="canonical" und anderen Methoden angeben.

  • Sie können URL-Muster aus derselben oder aus verschiedenen Domains einfügen, die indexiert werden müssen, und Muster ausschließen, die nicht indexiert werden dürfen. Die Anzahl der URL-Muster, die Sie ein- und ausschließen können, unterscheidet sich so:

    Indexierungstyp Einbezogene Websites Ausgeschlossene Websites
    Einfache Website-Suche Maximal 50 URL-Muster Maximal 50 URL-Muster
    Erweiterte Websiteindexierung Maximal 500 URL-Muster Maximal 500 URL-Muster

  • Prüfen Sie, ob die Webseiten, die Sie bereitstellen möchten, nicht durch robots.txt blockiert werden. Weitere Informationen finden Sie unter Einführung in robots.txt.

  • Wenn Sie die erweiterte Websiteindexierung verwenden möchten, müssen Sie die Domains für die URL-Muster in Ihrem Datenspeicher bestätigen können.

  • Fügen Sie Ihrem Datenspeicherschema strukturierte Daten in Form von meta-Tags und PageMaps hinzu, um die Indexierung zu optimieren. Weitere Informationen finden Sie unter Strukturierte Daten für die erweiterte Websiteindexierung verwenden.

Unstrukturierte Daten

Vertex AI Search unterstützt die Suche in Dokumenten im HTML-, PDF-Format mit eingebettetem Text und TXT-Format. PPTX- und DOCX-Formate sind in der Vorabversion verfügbar.

Sie importieren Ihre Dokumente aus einem Cloud Storage-Bucket. Sie können Daten über die Google Cloud -Konsole, mit der Methode ImportDocuments oder durch Streaming-Aufnahme über CRUD-Methoden importieren. Informationen zur API-Referenz finden Sie unter DocumentService und documents.

In der folgenden Tabelle sind die Dateigrößenlimits für die einzelnen Dateitypen mit verschiedenen Konfigurationen aufgeführt. Weitere Informationen finden Sie unter Dokumente parsen und in Chunks aufteilen. Sie können jeweils bis zu 100.000 Dateien importieren.

Dateityp Standardimport Mit layoutbezogener Dokumentaufteilung importieren Mit dem Layoutparser importieren
Textbasierte Dateien wie HTML, TXT, JSON, XHTML und XML < 2,5 MB < 10 MB < 10 MB
PPTX, DOCX und XLSX < 200 MB < 200 MB < 200 MB
PDF < 200 MB < 200 MB < 40 MB

Wenn Sie Einbettungen in Ihre unstrukturierten Daten einfügen möchten, lesen Sie den Abschnitt Benutzerdefinierte Einbettungen verwenden.

Wenn Sie nicht durchsuchbare PDFs haben (gescannte PDFs oder PDFs mit Text in Bildern, z. B. Infografiken), empfehlen wir, die Verarbeitung der optischen Zeichenerkennung (Optical Character Recognition, OCR) beim Erstellen des Datenspeichers zu aktivieren. So kann Vertex AI Search Elemente wie Textblöcke und Tabellen extrahieren. Wenn Sie durchsuchbare PDFs haben, die hauptsächlich aus maschinenlesbarem Text bestehen und viele Tabellen enthalten, können Sie die OCR-Verarbeitung mit der Option für maschinenlesbaren Text aktivieren, um die Erkennung und das Parsen zu verbessern. Weitere Informationen finden Sie unter Dokumente parsen und in Chunks aufteilen.

Wenn Sie Vertex AI Search für Retrieval Augmented Generation (RAG) verwenden möchten, aktivieren Sie das Aufteilen von Dokumenten in Chunks, wenn Sie Ihren Datenspeicher erstellen. Weitere Informationen finden Sie unter Dokumente parsen und in Chunks aufteilen.

Sie können unstrukturierte Daten aus den folgenden Quellen importieren:

Cloud Storage

Sie können Daten mit oder ohne Metadaten aus Cloud Storage importieren.

Der Datenimport ist nicht rekursiv. Wenn sich also Ordner im Bucket oder Ordner befinden, den Sie angeben, werden Dateien in diesen Ordnern nicht importiert.

Wenn Sie Dokumente ohne Metadaten aus Cloud Storage importieren möchten, legen Sie die Dokumente direkt in einem Cloud Storage-Bucket ab. Die Dokument-ID ist ein Beispiel für Metadaten.

Zum Testen können Sie die folgenden öffentlich verfügbaren Cloud Storage-Ordner mit PDFs verwenden:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Wenn Sie Daten mit Metadaten aus Cloud Storage importieren möchten, legen Sie eine JSON-Datei mit den Metadaten in einen Cloud Storage-Bucket, dessen Speicherort Sie beim Import angeben.

Ihre unstrukturierten Dokumente können sich im selben Cloud Storage-Bucket wie Ihre Metadaten oder in einem anderen befinden.

Die Metadatendatei muss eine JSON Lines- oder NDJSON-Datei sein. Die Dokument-ID ist ein Beispiel für Metadaten. Jede Zeile der Metadatendatei muss einem der folgenden JSON-Formate entsprechen:

  • Mit jsonData:
    • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  • Mit structData:
    • { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Verwenden Sie das Feld uri in jeder Zeile, um auf den Cloud Storage-Speicherort des Dokuments zu verweisen.

Hier sehen Sie ein Beispiel für eine NDJSON-Metadatendatei für ein unstrukturiertes Dokument. In diesem Beispiel verweist jede Zeile der Metadatendatei auf ein PDF-Dokument und enthält die Metadaten für dieses Dokument. In den ersten beiden Zeilen wird jsonData und in den zweiten beiden Zeilen structData verwendet. Bei structData müssen Sie Anführungszeichen, die innerhalb von Anführungszeichen stehen, nicht maskieren.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen.

BigQuery

Wenn Sie Metadaten aus BigQuery importieren möchten, erstellen Sie eine BigQuery-Tabelle, die Metadaten enthält. Die Dokument-ID ist ein Beispiel für Metadaten.

Legen Sie Ihre unstrukturierten Dokumente in einen Cloud Storage-Bucket.

Verwenden Sie das folgende BigQuery-Schema. Verwenden Sie das Feld uri in jedem Datensatz, um auf den Cloud Storage-Speicherort des Dokuments zu verweisen.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Weitere Informationen finden Sie in der BigQuery-Dokumentation unter Tabellen erstellen und verwenden.

Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen.

Google Drive

Die Synchronisierung von Daten aus Google Drive wird für die benutzerdefinierte Suche unterstützt.

Wenn Sie Daten aus Google Drive importieren möchten, müssen Sie Google Identity als Identitätsanbieter in AI Applications einrichten. Informationen zum Einrichten der Zugriffssteuerung finden Sie unter Zugriffssteuerung für Datenquellen verwenden.

Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen.

Strukturierte Daten

Bereiten Sie Ihre Daten entsprechend der Importmethode vor, die Sie verwenden möchten. Wenn Sie Mediendaten erfassen möchten, lesen Sie auch den Abschnitt Strukturierte Mediendaten.

Sie können strukturierte Daten aus den folgenden Quellen importieren:

Wenn Sie strukturierte Daten aus BigQuery oder Cloud Storage importieren, haben Sie die Möglichkeit, die Daten mit Metadaten zu importieren. (Strukturierte Daten mit Metadaten werden auch als erweiterte strukturierte Daten bezeichnet.)

BigQuery

Sie können strukturierte Daten aus BigQuery-Datasets importieren.

Das Schema wird automatisch erkannt. Nach dem Importieren empfiehlt Google, das automatisch erkannte Schema zu bearbeiten, um wichtige Attribute wie Titel zuzuordnen. Wenn Sie die API anstelle der Google Cloud Konsole zum Importieren verwenden, können Sie Ihr eigenes Schema als JSON-Objekt bereitstellen. Weitere Informationen finden Sie unter Schema bereitstellen oder automatisch erkennen lassen.

Beispiele für öffentlich verfügbare strukturierte Daten finden Sie unter Öffentliche BigQuery-Datasets.

Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Abschnitt Benutzerdefinierte Einbettungen verwenden.

Wenn Sie strukturierte Daten mit Metadaten importieren möchten, müssen Sie zwei Felder in Ihre BigQuery-Tabellen aufnehmen:

  • Ein id-Feld zur Identifizierung des Dokuments. Wenn Sie strukturierte Daten ohne Metadaten importieren, wird die id für Sie generiert. Wenn Sie Metadaten einfügen, können Sie den Wert von id angeben.

  • Ein jsonData-Feld, das die Daten enthält. Beispiele für jsonData-Strings finden Sie im vorherigen Abschnitt Cloud Storage.

Verwenden Sie das folgende BigQuery-Schema für den Import strukturierter Daten mit Metadaten:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Eine Anleitung zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Datenspeicher für Empfehlungen erstellen.

Cloud Storage

Strukturierte Daten in Cloud Storage müssen entweder im JSON Lines- oder im NDJSON-Format vorliegen. Jede Datei darf maximal 2 GB groß sein. Sie können jeweils bis zu 100 Dateien importieren.

Beispiele für öffentlich verfügbare strukturierte Daten finden Sie in den folgenden Ordnern in Cloud Storage, die NDJSON-Dateien enthalten:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Abschnitt Benutzerdefinierte Einbettungen verwenden.

Hier sehen Sie ein Beispiel für eine NDJSON-Metadatendatei mit strukturierten Daten. Jede Zeile der Datei stellt ein Dokument dar und besteht aus einer Reihe von Feldern.

{"id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.

Lokale JSON-Daten

Sie können ein JSON-Dokument oder -Objekt direkt über die API hochladen.

Google empfiehlt, Ihr eigenes Schema als JSON-Objekt bereitzustellen, um bessere Ergebnisse zu erzielen. Wenn Sie kein eigenes Schema angeben, wird das Schema automatisch erkannt. Nach dem Import empfehlen wir, das automatisch erkannte Schema zu bearbeiten, um wichtige Eigenschaften wie Titel zuzuordnen. Weitere Informationen finden Sie unter Schema bereitstellen oder automatisch erkennen lassen.

Wenn Sie Einbettungen in Ihre strukturierten Daten einfügen möchten, lesen Sie den Abschnitt Benutzerdefinierte Einbettungen verwenden.

Informationen zum Erstellen eines Datenspeichers finden Sie unter Suchdatenspeicher erstellen oder Empfehlungsdatenspeicher erstellen.

Strukturierte Media-Daten

Wenn Sie strukturierte Mediendaten wie Videos, Nachrichten oder Musik aufnehmen möchten, sollten Sie Folgendes beachten:

FHIR-Gesundheitsdaten

Wenn Sie FHIR-Daten aus der Cloud Healthcare API aufnehmen möchten, müssen Sie Folgendes beachten:

  • Standort: Der FHIR-Quellspeicher muss sich in einem Cloud Healthcare API-Dataset am Standort us-central1, us oder eu befinden. Weitere Informationen finden Sie unter Datasets in der Cloud Healthcare API erstellen und verwalten.
  • FHIR-Speichertyp: Der FHIR-Quellspeicher muss ein R4-Datenspeicher sein. Sie können die Versionen Ihrer FHIR-Speicher auflisten. Informationen zum Erstellen eines FHIR R4-Speichers finden Sie unter FHIR-Speicher erstellen.
  • Importkontingent: Der FHIR-Quellspeicher darf weniger als 1 Million FHIR-Ressourcen enthalten. Wenn es mehr als 1 Million FHIR-Ressourcen gibt, wird der Importvorgang beendet, sobald dieses Limit erreicht ist. Weitere Informationen finden Sie unter Kontingente und Limits.
  • Die in einer DocumentReference-Ressource referenzierten Dateien müssen PDF-, RTF- oder Bilddateien sein, die in Cloud Storage gespeichert sind. Der Link zu den referenzierten Dateien muss im Feld content[].attachment.url der Ressource im standardmäßigen Cloud Storage-Pfadformat gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE angegeben werden.
  • Sehen Sie sich die Liste der FHIR R4-Ressourcen an, die von Vertex AI Search unterstützt werden. Weitere Informationen finden Sie in der Referenz zum FHIR R4-Datenschema für das Gesundheitswesen.
  • Ressourcenreferenzen: Achten Sie darauf, dass relative Ressourcenreferenzen das Format Resource/resourceId haben. subject.reference muss beispielsweise den Wert Patient/034AB16 haben. Weitere Informationen zur Unterstützung von FHIR-Ressourcenreferenzen in der Cloud Healthcare API finden Sie unter FHIR-Ressourcenreferenzen.