Halaman ini diterjemahkan oleh Cloud Translation API.

Menganalisis data di GKE menggunakan BigQuery, Cloud Run, dan Gemma

Tutorial ini menunjukkan cara mendapatkan insight dari set data besar menggunakan BigQuery, Cloud Run, dan LLM Gemma. Dalam tutorial ini, Anda akan men-deploy aplikasi contoh ke Google Kubernetes Engine (GKE). Aplikasi contoh ini memanfaatkan BigQuery untuk penyimpanan dan pemrosesan data, Cloud Run untuk penanganan permintaan, dan LLM Gemma untuk menganalisis data dan membuat prediksi berdasarkan perintah yang masuk.

Tutorial ini ditujukan untuk administrator dan arsitek platform cloud, spesialis Data dan AI, engineer ML, dan profesional MLOps (DevOps). Sebelum membaca halaman ini, pastikan Anda sudah memahami Kubernetes dan lingkungan notebook seperti Jupyter.

Sebagai prasyarat untuk tutorial ini, Anda harus menyelesaikan tutorial Menyajikan model terbuka Gemma menggunakan GPU di GKE dengan Hugging Face TGI. Framework TGI memfasilitasi proses penayangan model.

Alasan menggunakan GKE dan BigQuery

BigQuery adalah data warehouse Platform as a Service (PaaS) tanpa server yang terkelola sepenuhnya dan memungkinkan analisis yang dapat diskalakan pada data berukuran petabyte. Dengan BigQuery, Anda dapat berfokus pada analisis data untuk menemukan insight yang bermakna sambil menggunakan SQL yang sudah dikenal dan machine learning bawaan.

Dengan menggunakan GPU di GKE dengan TGI, Anda dapat men-deploy model bahasa Gemma untuk menganalisis dan meringkas interaksi pengguna dalam bahasa alami. Selanjutnya, dengan mengintegrasikan BigQuery dengan GKE, Anda dapat menggunakan BigQuery untuk menangani set data besar (seperti Google Analytics) secara efisien dan kemampuan pemahaman bahasa alami model untuk menghasilkan insight yang bermakna.

Misalnya, sebagai ilmuwan atau analis data, atau pengambil keputusan bisnis di perusahaan e-commerce, Anda mungkin ingin memahami perilaku pengguna di situs atau aplikasi Anda. Insight ini dapat membantu Anda mengoptimalkan dan mempersonalisasi perjalanan pengguna serta membuat keputusan bisnis yang tepat untuk meningkatkan penjualan.

Dalam skenario ini, Anda dapat mengambil data mentah Google Analytics dari BigQuery, memasukkannya ke model Gemma, dan menerima ringkasan serta insight kunjungan halaman dalam bahasa alami. Model Gemma, yang berjalan di infrastruktur yang skalabel dengan akselerasi GPU dari GKE, memproses data perjalanan pengguna dengan cepat, mengidentifikasi pola dan tren. Anda dapat memperoleh insight untuk menentukan kombinasi produk populer, mengungkap titik keluar umum dalam proses checkout, dan menyoroti kampanye pemasaran yang berhasil mendorong traffic ke halaman landing tertentu.

Manfaat

Solusi ini menawarkan alur kerja yang disederhanakan dengan keuntungan berikut:

Integrasi BigQuery: gunakan BigQuery untuk menyimpan dan memproses set data besar (seperti data Google Analytics dalam tutorial ini). Tindakan ini memungkinkan Anda mengkueri dan menggabungkan data yang diperlukan untuk analisis model.
Akselerasi GPU: jalankan model Gemma di cluster GKE dengan dukungan GPU untuk mempercepat proses inferensi, sehingga menghasilkan prediksi jauh lebih cepat daripada dengan prosesor berbasis CPU.
Mengurangi biaya dan waktu: hemat waktu dan resource dengan menggunakan model bahasa Gemma terlatih dan open source, sehingga Anda tidak perlu membangun model kustom dari awal.

Menyajikan model Gemma

Buka tutorial Menyajikan model terbuka Gemma menggunakan GPU di GKE dengan Hugging Face TGI dan ikuti petunjuk mulai dari Sebelum memulai hingga Berinteraksi dengan model menggunakan curl untuk memastikan model Gemma Anda berhasil di-deploy dan Anda dapat berinteraksi dengannya.

Untuk tujuan tutorial ini, deploy model Gemma 2B-it.

Menyiapkan jaringan VPC

Buat atau gunakan jaringan VPC di region us-central1 agar fungsi jarak jauh Anda dapat terhubung ke cluster GKE. Dalam tutorial ini, gunakan VPC Default.

Untuk memastikan set data BigQuery, fungsi jarak jauh, dan fungsi Cloud Run yang mendasarinya di-deploy di lokasi yang kompatibel, jaringan VPC harus berada di region yang sama dengan fungsi jarak jauh BigQuery Anda. Dalam tutorial ini, saat menetapkan opsi DataFrame BigQuery saat membuat fungsi jarak jauh, Anda menentukan US sebagai lokasi untuk set data, yang secara default adalah region us-central1 untuk fungsi Cloud Run. Oleh karena itu, buat atau gunakan VPC di region us-central1.

Membuat load balancer

Ikuti petunjuk berikut untuk membuat load balancer internal di cluster GKE Anda:

Buat manifes tgi-2b-lb-service.yaml berikut:

apiVersion: v1
kind: Service
metadata:
name: llm-lb-service
annotations:
    networking.gke.io/load-balancer-type: "Internal"
spec:
selector:
  app: gemma-server
type: LoadBalancer
ports:
- protocol: TCP
  port: 8000
  targetPort: 8000

Buka terminal Cloud Shell baru dan jalankan perintah berikut untuk menerapkan manifes:
```
kubectl apply -f tgi-2b-lb-service.yaml
```
Dapatkan alamat IP load balancer. Anda mungkin perlu menunggu selama 1-2 menit sebelum alamat IP ini dapat diambil:
```
kubectl get service llm-lb-service --output yaml | grep ip:
```

Anda akan menggunakan alamat IP ini untuk berkomunikasi dengan aplikasi gemma-server yang berjalan di balik load balancer.

Buat konektor

Anda menggunakan konektor Akses VPC Serverless untuk mengirim dan menerima permintaan melalui jaringan VPC tanpa menggunakan internet publik. Untuk mengetahui informasi selengkapnya, lihat Akses VPC Serverless.

Dalam tutorial ini, Anda akan membuat konektor dengan subnet khusus yang baru untuk menghindari konflik alamat IP dengan resource yang ada di VPC. Untuk mengetahui petunjuknya, lihat bagian Membuat konektor dan ikuti petunjuk gcloud untuk bagian Membuat konektor dan subnet baru.

Atau, jika Anda ingin menggunakan subnet yang ada, ikuti petunjuk di bagian Membuat konektor menggunakan subnet yang ada.

Untuk mengetahui informasi selengkapnya, lihat Persyaratan subnet konektor.

Membuat notebook

Dalam tutorial ini, Anda akan menggunakan notebook Colab Enterprise untuk menjalankan semua kode Anda dalam menentukan fungsi jarak jauh BigQuery dan melakukan analisis.

Untuk membuat notebook Colab Enterprise menggunakan Google Cloud konsol:

Di Google Cloud konsol, buka halaman Colab Enterprise Notebooks:

Buka Notebooks
Di menu Region, pilih us-central1. Ini adalah region yang sama tempat Anda membuat semua layanan dalam tutorial ini.
Di samping File, klik Buat notebook.

Notebook baru Anda akan muncul di tab Notebook saya.

Untuk menjalankan kode di notebook baru, sisipkan sel kode baru di notebook untuk setiap perintah atau cuplikan kode yang ingin Anda jalankan.

Membuat fungsi jarak jauh BigQuery

Salah satu cara Anda dapat menentukan fungsi jarak jauh BigQuery adalah dengan menggunakan library bigframes. Di bagian ini, gunakan bigframes untuk membuat fungsi jarak jauh yang disebut process_incoming. Fungsi jarak jauh ini menggunakan data Google Analytics sebagai input, membuat perintah, dan mengirimkannya ke model Gemma Anda untuk dianalisis.

Di notebook Colab Enterprise yang Anda buat:

Klik + Kode untuk menyisipkan sel kode baru.

Salin kode berikut di sel kode baru:

# Install the necessary packages on the notebook runtime
%pip install --upgrade bigframes --quiet

import bigframes.pandas as bpd
import os
import ast
import requests

# Replace the following  variables
# Use the format ip:port
# For example, "10.128.05:8000"
lb_url = "LOADBALANCER_IP_ADDRESS:8000"

# Set BigQuery DataFrames options
bpd.options.bigquery.project = "PROJECT_ID"
bpd.options.bigquery.location = "US"
# Update the VPC connector name with the one you created
vpc_connector_name = "VPC_CONNECTOR_NAME"

# Create a remote function using bigframes
# https://cloud.google.com/bigquery/docs/remote-functions#bigquery-dataframes

@bpd.remote_function(
  dataset="ga_demo",
  name="ga_explain_example",
  bigquery_connection="bigframes-rf-conn",
  reuse=True,
  packages=["requests"],
  cloud_function_vpc_connector=VPC_CONNECTOR_NAME,
  cloud_function_service_account="default",
)
def process_incoming(data: str) -> str:
  ga_data = ast.literal_eval(data)
  USER_PROMPT = """
      'The following are the results from Google Analytics.
      They are reverse ranked.
      reverse_event_number 1 is the last page visited.
      reverse_event_number 2 is the second last page visited.
      You are given the following data.
      {}
      Can you summarize what was the most popular page people landed on and what page they came from?
  """.format(ga_data)

  url = 'http://{}/generate'.format(lb_url)

  myobj = {
      "inputs": USER_PROMPT,
      "temperature": 0.90,
      "top_p": 0.95,
      "max_tokens": 2048
  }
  x = requests.post(url, json=myobj)
  result = x.text
  return (result)

function_name = process_incoming.bigframes_remote_function
print (f"The function name is: {function_name}")

Ganti kode berikut:

LOADBALANCER_IP_ADDRESS: alamat IP dan port load balancer internal yang Anda buat sebelumnya--misalnya, 10.128.05:8000.
PROJECT_ID: project ID Anda.
VPC_CONNECTOR_NAME: nama konektor Akses VPC Serverless yang Anda buat sebelumnya.

Dalam tutorial ini, lokasi set data BigQuery Anda ditetapkan ke US, yang secara default ditetapkan ke region us-central1.

Klik Run cell.

Output menampilkan nama fungsi yang mirip dengan berikut ini:

The function name is: PROJECT_ID.ga_demo.ga_explain_example

Menganalisis perilaku pengguna

Di bagian ini, Anda akan menganalisis perilaku pengguna di situs menggunakan fungsi jarak jauh process_incoming dengan salah satu dari dua cara berikut:

menggunakan BigQuery DataFrames
menggunakan alat command line bq untuk menjalankan kueri secara langsung di SQL.

Menggunakan BigQuery DataFrames

Untuk menjalankan fungsi jarak jauh menggunakan DataFrame BigQuery di notebook Colab Enterprise yang Anda buat:

Klik + Kode untuk menyisipkan sel kode baru.
Salin kode berikut di sel kode baru, lalu klik Run cell.

# Generate a list of all matchups and their histories as a JSON

grouping_sql = """
with
data_table as (
 SELECT
 distinct
   user_pseudo_id,
   events.value.string_value,
   event_timestamp,
   rank() over (partition by user_pseudo_id order by event_timestamp desc) as reverse_event_number
 FROM
   `bigquery-public-data.ga4_obfuscated_sample_ecommerce.events_20210131` as events20210131,
   unnest (events20210131.event_params) as events
 where events.key = 'page_location'
 qualify reverse_event_number < 3
)
select
*,TO_JSON_STRING (data_table) as ga_history
from data_table
limit 10;

"""

ga_df = bpd.read_gbq(grouping_sql)
post_processed = ga_df.assign(results=ga_df['ga_history'].apply(process_incoming),axis=1)
post_processed.head(10)

Output berikut menunjukkan contoh hasil kueri:

user_pseudo_id	string_value	event_timestamp	reverse_event_number	ga_history	hasil	sumbu
0	2342103247.0307162928	https://shop.googlemerchandisestore.com/Google...	1612096237169825	2	{"user_pseudo_id":"2342103247.0307162928","str...	{"generated_text":"\n 'Berikut adalah...
1	48976087.6959390698	https://www.googlemerchandisestore.com/	1612056537823270	2	{"user_pseudo_id":"48976087.6959390698","strin...	{"generated_text":"\n \n ```python\n imp...

Menggunakan alat command line `bq`

Atau, Anda dapat menggunakan alat command line bq untuk melakukan analisis secara langsung menggunakan SQL.

Untuk menjalankan fungsi jarak jauh menggunakan alat command line bq di notebook Colab Enterprise yang Anda buat:

Klik + Kode untuk menyisipkan sel kode baru.

Salin kode berikut di sel kode baru, dan ganti PROJECT_ID dengan project ID Anda.

# Update with your PROJECT_ID

function_name = 'PROJECT_ID.ga_demo.ga_explain_example'

new_sql = """'with \
data_table as ( \
SELECT \
distinct \
  user_pseudo_id, \
  events.value.string_value, \
  event_timestamp, \
  rank() over (partition by user_pseudo_id order by event_timestamp desc) as reverse_event_number \
FROM \
  `bigquery-public-data.ga4_obfuscated_sample_ecommerce.events_20210131` as events20210131, \
  unnest (events20210131.event_params) as events \
where events.key = "page_location" \
qualify reverse_event_number < 3 \
) \
select \
*, `{}`(TO_JSON_STRING (data_table)) as result \
from data_table \
limit 10;' \
""".format(function_name)

# Run query using bq cli directly in a notebook cell

!bq query --use_legacy_sql=false \
{new_sql}

Klik Run cell.