Mediendatenspeicher erstellen

Auf dieser Seite wird beschrieben, wie Sie einen Datenspeicher für Medien erstellen und Daten in diesen importieren.

Hinweise

Achten Sie auf Folgendes:

  • Sehen Sie sich die Konzepte zu Mediendaten und Schemas an:

  • Entscheiden Sie, ob Sie das vordefinierte Google-Schema für Ihre Mediendaten oder Ihr eigenes Schema verwenden.

  • Wenn du ein eigenes Schema verwendest, achte darauf, dass es Felder enthält, die gut zu den Mediaschlüssel-Properties passen: title, url, category usw.

  • Fügen Sie Ihre Mediendokumente in das JSON-Schema ein und laden Sie die Daten in BigQuery oder Cloud Storage hoch.

  • Lesen Sie den Hilfeartikel Nutzerereignisse und bereiten Sie Ihre Nutzerereignisse für den Import vor. Nutzerereignisse sind für Medienempfehlungen erforderlich und werden für die Mediensuche empfohlen.

Verfahren entsprechend der Datenquelle auswählen

Wenn Sie einen Mediendatenspeicher erstellen und Dokumente importieren möchten, rufen Sie den Abschnitt für die Quelle auf, die Sie verwenden möchten:

Aus BigQuery importieren

Console

So erstellen Sie mit der Google Cloud Console einen Mediendatenspeicher und importieren Dokumente und Nutzerereignisse aus BigQuery:

  1. Rufen Sie in der Google Cloud Console die Seite Agent Builder auf.

    Zum Agent Builder

  2. Rufen Sie die Seite Datenspeicher auf.

  3. Klicken Sie auf Datenspeicher erstellen.

  4. Wählen Sie auf der Seite Quelle die Option BigQuery aus.

  5. Wählen Sie als Datentyp für den Import Medien – BigQuery-Tabelle mit strukturierten Mediendaten aus.

  6. Klicken Sie im Feld BigQuery-Pfad auf Durchsuchen, wählen Sie die BigQuery-Daten aus, die Sie für die Datenaufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Speicherort direkt in das Feld BigQuery-Pfad eingeben.

  7. Wenn sich Ihre Daten im vordefinierten Google-Schema befinden, wählen Sie Vordefiniertes Google-Schema aus, klicken Sie auf Weiter und fahren Sie mit Schritt 11 fort.

  8. Wenn sich Ihre Daten in einem eigenen Schema befinden, wählen Sie Benutzerdefiniertes Schema aus und klicken Sie auf Weiter.

  9. Überprüfen Sie das erkannte Schema und weisen Sie Ihren Schemafeldern über das Menü Schlüsselattribute Eigenschaften zu.

  10. Klicken Sie auf Weiter.

    Sie können erst fortfahren, wenn die erforderlichen Schlüsseleigenschaften zugeordnet sind. Sie werden durch grüne Häkchen  anstelle von orangen Warnhinweisen  angezeigt.

  11. Geben Sie einen Namen für den Datenspeicher ein und klicken Sie auf Erstellen.

Aus Cloud Storage importieren

Console

So erstellen Sie mit der Google Cloud Console einen Mediendatenspeicher und importieren Dokumente aus Cloud Storage:

  1. Rufen Sie in der Google Cloud Console die Seite Agent Builder auf.

    Zum Agent Builder

  2. Rufen Sie die Seite Datenspeicher auf.

  3. Klicken Sie auf Datenspeicher erstellen.

  4. Wählen Sie auf der Seite Quelle die Option Cloud Storage aus.

  5. Wählen Sie als Datentyp Strukturierte Mediendaten (JSONL mit Mediendateien) aus.

  6. Wählen Sie im Bereich Zu importierenden Ordner oder zu importierende Datei auswählen die Option Ordner oder Datei aus.

  7. Klicken Sie auf Durchsuchen, wählen Sie die Daten aus, die Sie für die Datenaufnahme vorbereitet haben, und klicken Sie dann auf Auswählen. Alternativ können Sie den Standort direkt in das Feld gs:// eingeben.

  8. Wenn sich Ihre Daten im vordefinierten Google-Schema befinden, wählen Sie Vordefiniertes Google-Schema aus, klicken Sie auf Weiter und fahren Sie mit Schritt 11 fort.

  9. Wenn sich Ihre Daten in einem eigenen Schema befinden, wählen Sie Benutzerdefiniertes Schema aus und klicken Sie auf Weiter.

  10. Überprüfen Sie das erkannte Schema und weisen Sie Ihren Schemafeldern über das Menü Schlüsselattribute Eigenschaften zu.

  11. Klicken Sie auf Weiter.

    Sie können erst fortfahren, wenn die erforderlichen Schlüsseleigenschaften zugeordnet sind. Sie werden durch grüne Häkchen  anstelle von orangen Warnhinweisen  angezeigt.

  12. Geben Sie einen Namen für den Datenspeicher ein und klicken Sie auf Erstellen.

Dokumente mit der API importieren

Wenn Sie das von Google vordefinierte Schema verwenden, können Sie Ihre Dokumente importieren, indem Sie eine POST-Anfrage an die REST-Methode Documents:import stellen und das Objekt InlineSource verwenden, um Ihre Daten anzugeben.

Ein Beispiel für das JSON-Dokumentformat finden Sie unter JSON-Dokumentformat.

Anforderungen an den Import

Folgende Anforderungen gelten für den Import von Mediendokumenten über die API:

  • Jedes Dokument muss in einer eigenen Zeile stehen.

  • Pro Import können maximal 100 Dokumente hochgeladen werden.

Prozedur

So importierst du Mediendokumente über die API:

  1. Erstellen Sie einen Datenspeicher.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \
    -d '{
      "displayName": "DATA_STORE_DISPLAY_NAME",
      "industryVertical": "MEDIA"
    }'
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID ist die ID Ihres Google Cloud-Projekts.
    • DATA_STORE_ID: Die ID des Vertex AI Search-Datenspeichers, den Sie erstellen möchten. Die ID darf nur Kleinbuchstaben, Ziffern, Unterstriche und Bindestriche enthalten.
    • DATA_STORE_DISPLAY_NAME: Der Anzeigename des Vertex AI Search-Datenspeichers, den Sie erstellen möchten.
  2. Erstellen Sie die JSON-Datei für Ihr Dokument und nennen Sie sie ./data.json:

    {
    "inlineSource": {
    "documents": [
      { DOCUMENT_1 },
      { DOCUMENT_2 }
    ]
    }
    }
    
  3. Rufen Sie die Methode POST auf:

    curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     --data @./data.json \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/branches/0/documents:import"
    • PROJECT_ID: Die ID Ihres Projekts.
    • DATA_STORE_ID: Die ID Ihres Datenspeichers.

JSON-Dokumentformat

Die folgenden Beispiele zeigen Document-Einträge im JSON-Format.

Geben Sie ein ganzes Dokument in einer einzigen Zeile an. Jedes Dokument sollte in einer eigenen Zeile stehen.

Pflichtfelder:

{
   "id": "sample-01",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"media_type\":\"sports-game\",\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Vollständiges Objekt:

{
   "id": "child-sample-0",
   "schemaId": "default_schema",
   "jsonData": "{\"title\":\"Test document title\",\"description\":\"Test document description\",\"language_code\":\"en-US\",\"categories\":[\"sports > clip\",\"sports > highlight\"],\"uri\":\"http://www.example.com\",\"images\":[{\"uri\":\"http://example.com/img1\",\"name\":\"image_1\"}],\"media_type\":\"sports-game\",\"in_languages\":[\"en-US\"],\"country_of_origin\":\"US\",\"content_index\":0,\"persons\":[{\"name\":\"sports person\",\"role\":\"player\",\"rank\":0,\"uri\":\"http://example.com/person\"},],\"organizations \":[{\"name\":\"sports team\",\"role\":\"team\",\"rank\":0,\"uri\":\"http://example.com/team\"},],\"hash_tags\":[\"tag1\"],\"filter_tags\":[\"filter_tag\"],\"production_year\":1900,\"duration\":\"100s\",\"content_rating\":[\"PG-13\"],\"aggregate_ratings\":[{\"rating_source\":\"imdb\",\"rating_score\":4.5,\"rating_count\":1250}],\"available_time\":\"2022-08-26T23:00:17Z\"}"
}

Import überwachen und Daten ansehen

  1. Den Status der Datenaufnahme können Sie auf der Seite Datenspeicher prüfen. Klicken Sie dazu auf den Namen des Datenspeichers, um auf der Seite Daten Details dazu aufzurufen.

  2. Klicken Sie auf den Tab Aktivitäten.

    Wenn sich der Status in der Spalte „Status“ auf dem Tab Aktivität von In Bearbeitung zu Import abgeschlossen ändert, ist die Datenaufnahme abgeschlossen.

    Je nach Größe der Daten kann die Datenaufnahme einige Minuten bis mehrere Stunden dauern.

  3. Klicken Sie auf Dokumente, um die importierten Daten aufzurufen.

Nutzerereignisse importieren

Nutzerereignisse sind erforderlich, wenn Sie Ihren Datenspeicher mit einer Anwendung für Medienempfehlungen verwenden möchten.

Nutzerereignisse sind für Apps für Mediensuchen zwar nicht erforderlich, sie können aber die Qualität der Suchergebnisse verbessern.

So importierst du Nutzerereignisse in deinen Mediendatenspeicher:

Nächste Schritte

  • Erstellen Sie eine App für Medienempfehlungen oder eine App für die Mediensuche.

  • Halten Sie Ihre Dokumentdaten auf dem neuesten Stand.

    Idealerweise sollten Sie Ihren Datenspeicher täglich aktualisieren, indem Sie aktuelle Daten importieren. Durch die Planung regelmäßiger Importe wird verhindert, dass die Modellqualität im Laufe der Zeit sinkt. Sie können Google Cloud Scheduler verwenden, um Importe zu automatisieren.

    Sie können nur neue oder geänderte Dokumente aktualisieren oder den gesamten Datenspeicher importieren. Wenn Sie Dokumente importieren, die sich bereits in Ihrem Datenspeicher befinden, werden sie nicht noch einmal hinzugefügt. Jedes geänderte Dokument wird aktualisiert.

  • Halten Sie Ihre Nutzerereignisdaten auf dem neuesten Stand.

    Es ist besonders wichtig, dass Sie Ihre Nutzerereignisse auf dem neuesten Stand halten. Die Empfehlungs-App funktioniert nicht mehr, wenn nicht genügend neue Nutzerereignisse vorliegen, um die Datenanforderungen zu erfüllen.

    Informationen zum Importieren von Nutzerereignisdaten in Echtzeit finden Sie unter Nutzerereignisse in Echtzeit aufzeichnen.

    Informationen zum Überwachen der Anforderungen an Nutzerereignisse finden Sie unter Datenqualität für Medienempfehlungen prüfen.