Menggunakan Agen Ilmu Data Colab Enterprise dengan BigQuery

Agen Data Science (DSA) untuk Colab Enterprise dan BigQuery memungkinkan Anda mengotomatiskan analisis eksplorasi data, melakukan tugas machine learning, dan memberikan insight, semuanya dalam notebook Colab Enterprise.

Sebelum memulai

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  8. Jika Anda baru menggunakan Colab Enterprise di BigQuery, lihat langkah-langkah penyiapan di halaman Membuat notebook.

    Batasan

    • Agen Ilmu Data mendukung sumber data berikut:
      • File CSV
      • Tabel BigQuery
    • Kode yang dihasilkan oleh Agen Data Science hanya berjalan di runtime notebook Anda.
    • Agen Data Science tidak didukung di project yang telah mengaktifkan Kontrol Layanan VPC.
    • Saat pertama kali menjalankan Agen Data Science, Anda mungkin mengalami beberapa latensi sekitar lima hingga sepuluh menit. Hal ini hanya terjadi sekali per project selama penyiapan awal.

    Kapan harus menggunakan Agen Data Science

    Agen Data Science membantu Anda dalam berbagai tugas, mulai dari analisis data eksploratif hingga menghasilkan prediksi dan perkiraan machine learning. Anda dapat menggunakan DSA untuk:

    • Buat rencana: Buat dan ubah rencana untuk menyelesaikan tugas tertentu.
    • Eksplorasi data: Jelajahi set data untuk memahami struktur, mengidentifikasi potensi masalah seperti nilai yang hilang dan pencilan, serta memeriksa distribusi variabel utama.
    • Pembersihan data: Bersihkan data Anda. Misalnya, hapus titik data yang merupakan pencilan.
    • Penyiapan data: Mengonversi fitur kategoris menjadi representasi numerik menggunakan teknik seperti encoding one-hot atau encoding label. Buat fitur baru untuk analisis.
    • Analisis data: Menganalisis hubungan antara berbagai variabel. Menghitung korelasi antara fitur numerik dan menjelajahi distribusi fitur kategoris. Cari pola dan tren dalam data.
    • Visualisasi data: Buat visualisasi seperti histogram, diagram kotak, diagram sebar, dan diagram batang yang merepresentasikan distribusi setiap variabel dan hubungan di antara variabel tersebut.
    • Rekayasa fitur: Merekayasa fitur baru dari set data yang sudah dibersihkan.
    • Pemisahan data: Memisahkan set data yang telah direkayasa menjadi set data pelatihan, validasi, dan pengujian.
    • Pelatihan model: Melatih model menggunakan data pelatihan (X_train, y_train).
    • Pengoptimalan model: Mengoptimalkan model menggunakan set validasi. Pelajari model alternatif seperti DecisionTreeRegressor dan RandomForestRegressor serta bandingkan performanya.
    • Evaluasi model: Mengevaluasi model dengan performa terbaik pada set data pengujian (X_test_imputed, y_test).

    Menggunakan Agen Ilmu Data di BigQuery

    Langkah-langkah berikut menunjukkan cara menggunakan Agen Ilmu Data di BigQuery.

    1. Buat atau buka notebook Colab Enterprise.
    2. Upload file CSV, pilih satu atau beberapa tabel BigQuery dari pemilih tabel, atau rujuk tabel BigQuery dalam perintah Anda.
    3. Masukkan perintah yang menjelaskan analisis data yang ingin Anda lakukan atau prototipe yang ingin Anda buat. Untuk mendapatkan bantuan, lihat contoh perintah.
    4. Periksa hasilnya.

    Menganalisis file CSV

    Untuk menganalisis CSV menggunakan Agen Ilmu Data di BigQuery, ikuti langkah-langkah berikut.

    1. Buka halaman BigQuery.

      Buka BigQuery

    2. Di halaman selamat datang BigQuery Studio, di bagian Create new, klik Notebook.

      Atau, di panel tab, klik panah drop-down di samping ikon +, lalu klik Notebook > Notebook kosong.

    3. Di toolbar, klik tombol spark Toggle Gemini untuk membuka dialog chat.

    4. Upload file CSV Anda.

      1. Di dialog chat, klik Tambahkan file.

      2. Jika perlu, beri otorisasi Akun Google Anda.

      3. Di panel tindakan, klik Upload file.

      4. Jelajahi lokasi file CSV, lalu klik Buka.

      5. Di samping nama file, klik ikon Tindakan lainnya, lalu pilih Tambahkan ke Gemini.

    5. Masukkan perintah Anda di jendela chat. Contoh: Identify trends and anomalies in this file.

    6. Klik Kirim.

      Hasilnya akan muncul di jendela chat.

      Rencana analisis data yang dibuat oleh DSA

    7. Anda dapat meminta agen untuk mengubah rencana, atau Anda dapat menjalankannya dengan mengklik Terima & jalankan. Saat rencana berjalan, kode dan teks yang dihasilkan akan muncul di notebook. Klik Batalkan untuk menghentikan.

    Menganalisis tabel BigQuery

    Untuk menganalisis tabel BigQuery, pilih satu atau beberapa tabel di pemilih tabel, atau berikan referensi ke tabel dalam perintah Anda.

    1. Buka halaman BigQuery.

      Buka BigQuery

    2. Di halaman selamat datang BigQuery Studio, di bagian Create new, klik Notebook.

      Atau, di panel tab, klik panah drop-down di samping ikon +, lalu klik Notebook > Notebook kosong.

    3. Di toolbar, klik tombol spark Toggle Gemini untuk membuka dialog chat.

    4. Masukkan perintah Anda di jendela chat.

    5. Pilih satu atau beberapa tabel menggunakan pemilih tabel:

      1. Klik Tambahkan konteks > Tabel BigQuery.

      2. Di jendela BigQuery tables, pilih satu atau beberapa tabel di project Anda. Anda dapat menelusuri tabel di seluruh project dan memfilter tabel menggunakan kotak penelusuran.

    6. Anda juga dapat mereferensikan tabel BigQuery secara langsung dalam perintah. Misalnya: "Bantu saya melakukan analisis data eksploratif dan mendapatkan insight tentang data dalam tabel ini: project_id:dataset.table."

      Ganti kode berikut:

      • project_id: project ID Anda
      • dataset: nama set data yang berisi tabel yang Anda analisis
      • table: nama tabel yang Anda analisis
    7. Klik Kirim.

      Hasilnya akan muncul di jendela chat.

    8. Anda dapat meminta agen untuk mengubah rencana, atau Anda dapat menjalankannya dengan mengklik Terima & jalankan. Saat rencana berjalan, kode dan teks yang dihasilkan akan muncul di notebook. Klik Batalkan untuk menghentikan.

    Contoh perintah

    Terlepas dari kompleksitas perintah yang Anda gunakan, Agen Data Science akan membuat rencana yang dapat Anda sesuaikan untuk memenuhi kebutuhan Anda.

    Contoh berikut menunjukkan jenis perintah yang dapat Anda gunakan dengan DSA.

    • Selidiki dan isi nilai yang hilang menggunakan algoritma machine learning k-Nearest Neighbors (KNN).
    • Buat plot gaji menurut tingkat pengalaman. Gunakan kolom experience_level untuk mengelompokkan gaji, dan buat diagram kotak untuk setiap grup yang menampilkan nilai dari kolom salary_in_usd.
    • Gunakan algoritma XGBoost untuk membuat model guna menentukan variabel class dari buah tertentu. Membagi data menjadi set data pelatihan dan pengujian untuk membuat model dan menentukan akurasi model. Buat matriks konfusi untuk menampilkan prediksi di antara setiap class, termasuk semua prediksi yang benar dan salah.
    • Buat dataframe pandas untuk data saya. Analisis data untuk nilai null, lalu buat grafik distribusi setiap kolom menggunakan jenis grafik. Gunakan diagram biola untuk nilai terukur dan diagram batang untuk kategori.
    • Baca csv untuk set data dan buat DataFrame, jalankan analisis pada DataFrame untuk menentukan apa yang perlu dilakukan dengan nilai (ganti atau hapus nilai yang hilang, perbaiki baris duplikat), dan tentukan distribusi jumlah uang yang diinvestasikan dalam USD per lokasi kota. Tampilkan hasil grafik pada grafik batang dalam urutan menurun sebagai Lokasi versus Jumlah Rata-Rata Investasi (USD), hanya menampilkan 20 hasil teratas.
    • Perkirakan target_variable dari filename.csv selama enam bulan ke depan.
    • Membangun dan mengevaluasi model klasifikasi pada filename.csv untuk target_variable.

    Menonaktifkan Gemini di BigQuery

    Untuk menonaktifkan Gemini di BigQuery untuk project Google Cloud , administrator harus menonaktifkan Gemini API untuk Google Cloud. Lihat Menonaktifkan layanan.

    Untuk menonaktifkan Gemini di BigQuery bagi pengguna tertentu, administrator harus mencabut peran Pengguna Gemini untuk Google Cloud (roles/cloudaicompanion.user) bagi pengguna tersebut. Lihat Mencabut satu peran IAM.

    Harga

    Selama Pratinjau, Anda hanya ditagih untuk menjalankan kode di runtime notebook. Untuk mengetahui informasi selengkapnya, lihat Harga Colab Enterprise.

    Region yang didukung

    Untuk melihat region yang didukung untuk Agen Ilmu Data Colab Enterprise, lihat Lokasi.