Data Catalog può importare e mantenere aggiornati i metadati di diverse origini dati Google Cloud, nonché di una serie di origini dati on-premise di uso comune.
Una volta importati i metadati, Data Catalog esegue le seguenti operazioni:
- Rende rilevabili i metadati esistenti tramite la ricerca. Per ulteriori informazioni, consulta la sezione Come eseguire ricerche.
- Consente ai membri della tua organizzazione di arricchire i dati con metadati aziendali aggiuntivi tramite i tag. Per saperne di più, consulta Tag e modelli di tag.
Sebbene l'integrazione con le origini Google Cloud sia automatica, per integrarti con le origini on-premise personalizzate utilizzate dalla tua organizzazione puoi scegliere una delle seguenti opzioni:
- Configura e utilizza i connettori corrispondente forniti dalla community.
- Utilizza l'API Data Catalog per le voci personalizzate.
Prima di iniziare
Se utilizzi già Data Catalog, devi già avere un progetto con l'API Data Catalog abilitata. Per ulteriori informazioni sul metodo consigliato per utilizzare più progetti con Data Catalog, consulta Utilizzare i modelli di tag in più progetti.
Se è la prima volta che interagisci con Data Catalog, procedi nel seguente modo:
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Data Catalog API.
Integrare le origini dati Google Cloud
Analytics Hub
Quando ti abboni a una scheda in Analytics Hub, nel tuo progetto viene creato un set di dati collegato. Data Catalog genera automaticamente le voci dei metadati per il set di dati collegato e per tutte le tabelle contenuti al suo interno. Per saperne di più sui set di dati collegati e su altre funzionalità di Analytics Hub, consulta Introduzione ad Analytics Hub.
Nella ricerca di Data Catalog, i set di dati collegati vengono visualizzati come set di dati BigQuery standard, ma puoi filtrarli utilizzando il predicato type=dataset.linked
. Per ulteriori dettagli, consulta Cercare asset di dati.
BigQuery e Pub/Sub
Se la tua organizzazione utilizza già BigQuery e Pub/Sub, a seconda delle tue autorizzazioni, puoi cercare i metadati da queste origini immediatamente. Se non riesci a vedere le voci corrispondenti nei risultati di ricerca, cerca i ruoli IAM di cui tu e gli utenti del tuo progetto potreste aver bisogno in Identity and Access Management.
Bigtable
Quando archivi i dati in Bigtable, i metadati vengono sincronizzati automaticamente con Data Catalog per le seguenti risorse Bigtable:
- Istanze
- Tabelle, inclusi i dettagli della famiglia di colonne
Per indicazioni sull'utilizzo di Data Catalog per il tagging e il rilevamento dei dati, consulta Gestire gli asset di dati utilizzando Data Catalog nella documentazione di Bigtable.
Cloud SQL
Cloud SQL non si integra con Data Catalog, ma si integra con Dataplex Catalog. Per saperne di più, consulta Integrare le origini dati con Dataplex Catalog.
Dataproc Metastore
Per l'integrazione con Dataproc Metastore, attiva la sincronizzazione con Data Catalog per i servizi nuovi o esistenti come descritto in Attivare la sincronizzazione di Data Catalog.
Sensitive Data Protection
Inoltre, Data Catalog si integra con Sensitive Data Protection, che consente di eseguire la scansione di risorse Google Cloud specifiche per rilevare i dati sensibili e inviare i risultati a Data Catalog sotto forma di tag.
Per ulteriori informazioni, consulta la sezione Invio dei risultati della scansione di Sensitive Data Protection al Catalogo dati.
Spanner
Quando archivi i dati in Spanner, i metadati per le seguenti risorse Spanner vengono sincronizzati con Data Catalog:
- Istanze
- Database
- Tabelle e viste con schema delle colonne
Per indicazioni sull'utilizzo di Data Catalog per il tagging e l'individuazione dei dati, consulta Gestire gli asset di dati utilizzando Data Catalog.
Vertex AI
Vertex AI sincronizza i metadati delle seguenti risorse con Data Catalog:
- Modelli del Registro dei modelli
- Set di dati
- Istanze del negozio online
- Viste delle funzionalità
- Gruppi di funzionalità
Integrare le origini dati on-premise
Per integrare le origini dati on-premise, puoi utilizzare i connettori Python corrispondenti forniti dalla community:
- Individua l'origine dati nella tabella seguente.
- Apri il relativo repository GitHub.
- Segui le istruzioni di configurazione nel file readme.
Categoria | Componente | Descrizione | Repository |
---|---|---|---|
RDBMS | mysql-connector | Codice di esempio per l'origine dati MySQL. | google-datacatalog-mysql-connector |
postgresql-connector | Codice di esempio per l'origine dati PostgreSQL. | google-datacatalog-postgresql-connector | |
sqlserver-connector | Codice di esempio per l'origine dati SQL Server. | google-datacatalog-sqlserver-connector | |
redshift-connector | Codice di esempio per l'origine dati Redshift. | google-datacatalog-redshift-connector | |
oracle-connector | Codice di esempio per l'origine dati Oracle. | google-datacatalog-oracle-connector | |
teradata-connector | Codice di esempio per l'origine dati Teradata. | google-datacatalog-teradata-connector | |
vertica-connector | Codice di esempio per l'origine dati Vertica. | google-datacatalog-vertica-connector | |
greenplum-connector | Codice di esempio per l'origine dati Greenplum. | google-datacatalog-greenplum-connector | |
rdbmscsv-connector | Codice di esempio per l'importazione di file CSV RDBMS generici. | google-datacatalog-rdbmscsv-connector | |
saphana-connector | Codice di esempio per l'origine dati SAP Hana. | google-datacatalog-saphana-connector | |
BI | looker-connector | Codice di esempio per l'origine dati di Looker. | google-datacatalog-looker-connector |
qlik-connector | Codice di esempio per l'origine dati Qlik Sense. | google-datacatalog-qlik-connector | |
tableau-connector | Codice di esempio per l'origine dati Tableau. | google-datacatalog-tableau-connector | |
Hive | hive-connector | Codice campione per l'origine dati Hive. | google-datacatalog-hive-connector |
apache-atlas-connector | Codice di esempio per l'origine dati Apache Atlas. | google-datacatalog-apache-atlas-connector |
Integrare origini dati non supportate
Se non riesci a trovare un connettore per la tua origine dati, puoi comunque integrarla manualmente creando gruppi di voci e voci personalizzate. Per farlo, puoi:
- Utilizza una delle librerie client di Data Catalog in uno dei seguenti linguaggi: C#, Go, Java, Node.js, PHP, Python o Ruby.
- In alternativa, esegui la compilazione manuale sull'API Data Catalog.
Per integrare le origini, innanzitutto scopri di più su Voci e gruppi di voci, poi segui le istruzioni riportate in Creare voci di Data Catalog personalizzate per le origini dati.
Passaggi successivi
- Scopri di più su Identity and Access Management.
- Scopri come eseguire ricerche.
- Consulta la guida rapida sulle tabelle di tagging.