Untuk men-deploy model menggunakan gcloud CLI atau Vertex AI API, Anda harus membuat endpoint publik terlebih dahulu.
Jika sudah memiliki endpoint publik, Anda dapat melewati langkah ini dan melanjutkan ke Men-deploy model menggunakan gcloud CLI atau Vertex AI API.
Dokumen ini menjelaskan proses pembuatan endpoint publik baru.
Membuat endpoint publik khusus (direkomendasikan)
Waktu tunggu permintaan default untuk endpoint publik khusus adalah 10 menit.
Di Vertex AI API dan Vertex AI SDK untuk Python, Anda dapat secara opsional
menentukan waktu tunggu permintaan yang berbeda dengan
menambahkan objek clientConnectionConfig
yang berisi nilai
inferenceTimeout
baru, seperti yang ditunjukkan dalam contoh berikut. Nilai waktu tunggu maksimum adalah
3.600 detik (1 jam).
Google Cloud console
-
Di konsol Google Cloud , di bagian Vertex AI, buka
halaman Online prediction.
Buka halaman Prediksi online - Klik Create.
- Di panel Endpoint baru:
- Masukkan Nama endpoint.
- Pilih Standar untuk jenis akses.
- Centang kotak Enable dedicated DNS.
- Klik Lanjutkan.
- Klik Selesai.
REST
Sebelum menggunakan data permintaan mana pun, lakukan penggantian berikut:
- LOCATION_ID: Region Anda.
- PROJECT_ID: Project ID Anda.
- ENDPOINT_NAME: Nama tampilan endpoint.
- INFERENCE_TIMEOUT_SECS: (Opsional) Jumlah detik dalam kolom
inferenceTimeout
opsional.
Metode HTTP dan URL:
POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints
Meminta isi JSON:
{ "display_name": "ENDPOINT_NAME" "dedicatedEndpointEnabled": true, "clientConnectionConfig": { "inferenceTimeout": { "seconds": INFERENCE_TIMEOUT_SECS } } }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/endpoints/ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateEndpointOperationMetadata", "genericMetadata": { "createTime": "2020-11-05T17:45:42.812656Z", "updateTime": "2020-11-05T17:45:42.812656Z" } } }
"done":
true
.
Python
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Python di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Python Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Ganti kode berikut:
- PROJECT_ID: Project ID Anda.
- LOCATION_ID: Region tempat Anda menggunakan Vertex AI.
- ENDPOINT_NAME: Nama tampilan endpoint.
- INFERENCE_TIMEOUT_SECS: (Opsional) Jumlah detik dalam nilai
inference_timeout
opsional.
from google.cloud import aiplatform
PROJECT_ID = "PROJECT_ID"
LOCATION = "LOCATION_ID"
ENDPOINT_NAME = "ENDPOINT_NAME"
INFERENCE_TIMEOUT_SECS = "INFERENCE_TIMEOUT_SECS"
aiplatform.init(
project=PROJECT_ID,
location=LOCATION,
api_endpoint=ENDPOINT_NAME,
)
dedicated_endpoint = aiplatform.Endpoint.create(
display_name=DISPLAY_NAME,
dedicated_endpoint_enabled=True,
sync=True,
inference_timeout=INFERENCE_TIMEOUT_SECS,
)
Konfigurasi waktu tunggu inferensi
Durasi waktu tunggu default untuk permintaan inferensi adalah 600 detik (10 menit). Waktu tunggu ini akan diterapkan jika waktu tunggu inferensi eksplisit tidak ditentukan selama pembuatan endpoint. Nilai waktu tunggu maksimum yang diizinkan adalah satu jam.
Untuk mengonfigurasi waktu tunggu inferensi selama pembuatan endpoint, gunakan parameter inference_timeout
seperti yang ditunjukkan dalam cuplikan kode berikut:
timeout_endpoint = aiplatform.Endpoint.create(
display_name="dedicated-endpoint-with-timeout",
dedicated_endpoint_enabled=True,
inference_timeout=1800, # Unit: Seconds
)
Perubahan pada setelan waktu tunggu inferensi setelah pembuatan endpoint dapat
dilakukan menggunakan metode EndpointService.UpdateEndpointLongRunning
. Metode
EndpointService.UpdateEndpoint
tidak mendukung modifikasi ini.
Logging Permintaan-respons
Fitur logging permintaan-respons menangkap interaksi API. Namun, untuk mematuhi batasan BigQuery, payload yang berukuran lebih dari 10 MB akan dikecualikan dari log.
Untuk mengaktifkan dan mengonfigurasi logging permintaan-respons selama pembuatan endpoint, gunakan parameter berikut seperti yang diilustrasikan dalam cuplikan kode berikutnya:
logging_endpoint = aiplatform.Endpoint.create(
display_name="dedicated-endpoint-with-logging",
dedicated_endpoint_enabled=True,
enable_request_response_logging=True,
request_response_logging_sampling_rate=1.0, # Default: 0.0
request_response_logging_bq_destination_table="bq://test_logging",
# If not set, a new BigQuery table will be created with the name:
# bq://{project_id}.logging_{endpoint_display_name}_{endpoint_id}.request_response_logging
)
Modifikasi pada setelan logging permintaan-respons setelah pembuatan endpoint dapat dilakukan menggunakan metode EndpointService.UpdateEndpointLongRunning
. Metode EndpointService.UpdateEndpoint
tidak mendukung
perubahan ini.
Membuat endpoint publik bersama
Google Cloud console
-
Di konsol Google Cloud , di bagian Vertex AI, buka
halaman Online prediction.
Buka halaman Prediksi online - Klik Create.
- Di panel Endpoint baru:
- Masukkan Nama endpoint.
- Pilih Standar untuk jenis akses.
- Klik Lanjutkan.
- Klik Selesai.
gcloud
Contoh berikut menggunakan perintah
gcloud ai endpoints create
:
gcloud ai endpoints create \
--region=LOCATION_ID \
--display-name=ENDPOINT_NAME
Ganti kode berikut:
- LOCATION_ID: Region tempat Anda menggunakan Vertex AI.
- ENDPOINT_NAME: Nama tampilan endpoint.
Alat Google Cloud CLI mungkin memerlukan waktu beberapa detik untuk membuat endpoint.
REST
Sebelum menggunakan data permintaan mana pun, lakukan penggantian berikut:
- LOCATION_ID: Region Anda.
- PROJECT_ID: Project ID Anda.
- ENDPOINT_NAME: Nama tampilan endpoint.
Metode HTTP dan URL:
POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/endpoints
Meminta isi JSON:
{ "display_name": "ENDPOINT_NAME" }
Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:
Anda akan melihat respons JSON seperti berikut:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION_ID/endpoints/ENDPOINT_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateEndpointOperationMetadata", "genericMetadata": { "createTime": "2020-11-05T17:45:42.812656Z", "updateTime": "2020-11-05T17:45:42.812656Z" } } }
"done":
true
.
Terraform
Contoh berikut menggunakan resource Terraform google_vertex_ai_endpoint
untuk membuat endpoint.
Untuk mempelajari cara menerapkan atau menghapus konfigurasi Terraform, lihat Perintah dasar Terraform.
Java
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Java di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Java Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Sebelum mencoba contoh ini, ikuti petunjuk penyiapan Node.js di Panduan memulai Vertex AI menggunakan library klien. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Node.js Vertex AI.
Untuk melakukan autentikasi ke Vertex AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Vertex AI SDK untuk Python
Untuk mempelajari cara menginstal atau mengupdate Vertex AI SDK untuk Python, lihat Menginstal Vertex AI SDK untuk Python. Untuk mengetahui informasi selengkapnya, lihat Dokumentasi referensi API Vertex AI SDK untuk Python.