이 페이지는 Cloud Translation API를 통해 번역되었습니다.

온라인 추론에 Private Service Connect를 기반으로 하는 전용 비공개 엔드포인트 사용

Private Service Connect를 사용하면 공개 IP 주소, 공개 인터넷 액세스 또는 명시적으로 피어링된 내부 IP 주소 범위를 사용하지 않고도 여러 소비자 프로젝트와 VPC 네트워크에서 Vertex AI 온라인 추론에 안전하게 액세스할 수 있습니다.

다음 요구사항이 있는 온라인 추론 사용 사례에 Private Service Connect를 사용하는 것이 좋습니다.

비공개 및 보안 연결 필요
짧은 지연 시간 필요
공개적으로 액세스할 필요 없음

Private Service Connect는 VPC 네트워크에서 전달 규칙을 사용하여 트래픽을 단방향으로 Vertex AI 온라인 추론 서비스에 전송합니다. 전달 규칙은 Vertex AI 서비스를 VPC 네트워크에 노출하는 서비스 연결에 연결됩니다. 자세한 내용은 Private Service Connect를 통해 Vertex AI 서비스 액세스를 참조하세요. Private Service Connect 설정에 대한 자세한 내용은 Virtual Private Cloud(VPC) 문서의 Private Service Connect 개요를 참조하세요.

전용 비공개 엔드포인트는 HTTP 및 gRPC 통신 프로토콜 모두 지원합니다. gRPC 요청의 경우 엔드포인트를 올바르게 식별할 수 있도록 x-vertex-ai-endpoint-id 헤더가 포함되어야 합니다. 지원되는 API는 다음과 같습니다.

예측
RawPredict
StreamRawPredict
채팅 완성(Model Garden만 해당)

Vertex AI SDK for Python을 사용하여 온라인 추론 요청을 전용 비공개 엔드포인트로 보낼 수 있습니다. 자세한 내용은 온라인 추론 수행을 참조하세요.

필요한 역할

Private Service Connect 엔드포인트를 만드는 데 필요한 권한을 얻으려면 관리자에게 프로젝트에 대한 Vertex AI 사용자(roles/aiplatform.user) IAM 역할을 부여해 달라고 요청하세요. 역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

이 사전 정의된 역할에는 Private Service Connect 엔드포인트를 만드는 데 필요한 aiplatform.endpoints.create 권한이 포함되어 있습니다.

커스텀 역할이나 다른 사전 정의된 역할을 사용하여 이 권한을 부여받을 수도 있습니다.

Vertex AI 역할과 권한에 대한 자세한 내용은 IAM을 사용한 Vertex AI 액세스 제어 및 Vertex AI IAM 권한을 참조하세요.

온라인 추론 엔드포인트 만들기

다음 방법 중 하나를 사용하여 Private Service Connect가 사용 설정된 온라인 추론 엔드포인트를 만듭니다.

Private Service Connect 엔드포인트의 기본 요청 제한 시간은 10분입니다. Vertex AI SDK for Python에서는 다음 예와 같이 새 inference_timeout 값을 지정하여 원하는 경우 다른 요청 시간 제한을 지정할 수 있습니다. 최대 제한 시간 값은 3,600초(1시간)입니다.

콘솔

Google Cloud 콘솔의 Vertex AI에서 온라인 예측 페이지로 이동합니다.

온라인 예측으로 이동
만들기를 클릭합니다.
엔드포인트 표시 이름을 제공합니다.
비공개를 선택합니다.
Private Service Connect를 선택합니다.
프로젝트 ID 선택을 클릭합니다.
엔드포인트 허용 목록에 추가할 프로젝트를 선택합니다.
계속을 클릭합니다.
모델 사양을 선택합니다. 자세한 내용은 엔드포인트에 모델 배포를 참조하세요.
만들기를 클릭하여 엔드포인트를 만들고 모델을 배포합니다.
응답의 엔드포인트 ID를 기록해 둡니다.

API

REST

요청 데이터를 사용하기 전에 다음을 바꿉니다.

VERTEX_AI_PROJECT_ID: 온라인 예측 엔드포인트를 만드는 Google Cloud 프로젝트의 ID
REGION: Vertex AI를 사용하는 리전
VERTEX_AI_ENDPOINT_NAME: 온라인 예측 엔드포인트의 표시 이름
ALLOWED_PROJECTS: 쉼표로 구분된 Google Cloud 프로젝트 ID 목록으로 각각 따옴표로 묶음(예: ["PROJECTID1", "PROJECTID2"]). 프로젝트가 이 목록에 없으면 해당 프로젝트에서 Vertex AI 엔드포인트로 예측 요청을 보낼 수 없습니다. 같은 프로젝트에서 엔드포인트를 호출할 수 있도록 이 목록에 VERTEX_AI_PROJECT_ID를 포함해야 합니다.
INFERENCE_TIMEOUT_SECS: (선택사항) 선택적 inferenceTimeout 필드의 시간(초)

HTTP 메서드 및 URL:

POST https://REGION-aiplatform.googleapis.com/v1/projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints

JSON 요청 본문:

{
  "displayName": "VERTEX_AI_ENDPOINT_NAME",
  "privateServiceConnectConfig": {
    "enablePrivateServiceConnect": true,
    "projectAllowlist": ["ALLOWED_PROJECTS"],
    "clientConnectionConfig": {
      "inferenceTimeout": {
        "seconds": INFERENCE_TIMEOUT_SECS
      }
    }
  }
}

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://REGION-aiplatform.googleapis.com/v1/projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints"

PowerShell(Windows)

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://REGION-aiplatform.googleapis.com/v1/projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/VERTEX_AI_PROJECT_NUMBER/locations/REGION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateEndpointOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-11-05T17:45:42.812656Z",
      "updateTime": "2020-11-05T17:45:42.812656Z"
    }
  }
}

ENDPOINT_ID를 기록해 둡니다.

Python

이 샘플을 사용해 보기 전에 Vertex AI 빠른 시작: 클라이언트 라이브러리 사용의 Python 설정 안내를 따르세요. 자세한 내용은 Vertex AI Python API 참고 문서를 참조하세요.

Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.

다음을 바꿉니다.

VERTEX_AI_PROJECT_ID: 온라인 추론 엔드포인트를 만드는 Google Cloud 프로젝트의 ID
REGION: Vertex AI를 사용하는 리전
VERTEX_AI_ENDPOINT_NAME: 온라인 추론 엔드포인트 표시 이름
ALLOWED_PROJECTS: 각각 따옴표로 묶인 쉼표로 구분된 Google Cloud프로젝트 ID 목록. 예를 들면 ["PROJECTID1", "PROJECTID2"]입니다. 프로젝트가 이 목록에 없으면 해당 프로젝트에서 Vertex AI 엔드포인트로 추론 요청을 보낼 수 없습니다. 엔드포인트가 속한 동일한 프로젝트에서 엔드포인트를 호출할 수 있도록 이 목록에 VERTEX_AI_PROJECT_ID를 포함해야 합니다.
INFERENCE_TIMEOUT_SECS: (선택사항) 선택적 inference_timeout 값의 시간(초)

PROJECT_ID = "VERTEX_AI_PROJECT_ID"
REGION = "REGION"
VERTEX_AI_ENDPOINT_NAME = "VERTEX_AI_ENDPOINT_NAME"
INFERENCE_TIMEOUT_SECS = "INFERENCE_TIMEOUT_SECS"

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=REGION)

# Create the forwarding rule in the consumer project
psc_endpoint = aiplatform.PrivateEndpoint.create(
display_name=VERTEX_AI_ENDPOINT_NAME,
project=PROJECT_ID,
location=REGION,
private_service_connect_config=aiplatform.PrivateEndpoint.PrivateServiceConnectConfig(
    project_allowlist=["ALLOWED_PROJECTS"],
    ),
inference_timeout=INFERENCE_TIMEOUT_SECS,
)

반환된 엔드포인트 URI 끝에 있는 ENDPOINT_ID를 기록해 둡니다.

INFO:google.cloud.aiplatform.models:To use this PrivateEndpoint in another session:
INFO:google.cloud.aiplatform.models:endpoint = aiplatform.PrivateEndpoint('projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints/ENDPOINT_ID')

PSC 자동화로 온라인 추론 엔드포인트 만들기(프리뷰)

온라인 추론은 서비스 연결 자동화와 통합되므로 PSC 자동화로 추론 엔드포인트를 구성할 수 있습니다. 이렇게 하면 PSC 엔드포인트가 자동으로 생성되어 프로세스가 간소화되며 특히 프로젝트 내 전달 규칙과 같은 네트워크 리소스를 만들 수 있는 권한이 없는 ML 개발자에게 유용합니다.

시작하려면 네트워크 관리자가 서비스 연결 정책을 설정해야 합니다. 이 정책은 프로젝트와 네트워크당 일회성 구성으로, Vertex AI(서비스 클래스 gcp-vertexai)에서 프로젝트와 네트워크 내에 PSC 엔드포인트를 생성할 수 있습니다.

그런 다음 PSC 자동화 구성을 사용하여 엔드포인트를 만든 후 모델을 배포할 수 있습니다. 배포가 완료되면 엔드포인트 내에서 관련 PSC 엔드포인트 정보에 액세스할 수 있습니다.

제한사항

VPC 서비스 제어는 지원되지 않습니다.
PSC 자동화 구성에는 리전별 엔드포인트 한도(500개)가 적용됩니다.
모델이 배포되지 않았거나 엔드포인트에 배포되는 중이면 PSC 자동화 결과가 삭제됩니다. 정리 및 후속 모델 배포 시 새 자동화 결과에는 고유한 IP 주소와 전달 규칙이 포함됩니다.

서비스 연결 정책 만들기

서비스 연결 정책을 만들려면 네트워크 관리자여야 합니다. Vertex AI가 네트워크에 PSC 엔드포인트를 만들 수 있게 하려면 서비스 연결 정책이 필요합니다. 유효한 정책이 없으면 CONNECTION_POLICY_MISSING 오류가 표시되면서 자동화가 실패합니다.

서비스 연결 정책을 만듭니다.
- POLICY_NAME: 사용자가 지정한 정책 이름입니다.
- PROJECT_ID: Vertex AI 리소스를 만드는 서비스 프로젝트의 ID입니다.
- VPC_PROJECT: 클라이언트 VPC가 있는 프로젝트 ID입니다. 단일 VPC 설정의 경우 $PROJECT와 동일합니다. 공유 VPC 설정의 경우에는 VPC 호스트 프로젝트입니다.
- NETWORK_NAME: 배포할 네트워크의 이름입니다.
- REGION: 네트워크 리전입니다.
- PSC_SUBNETS: 사용할 Private Service Connect 서브넷입니다.
```
gcloud network-connectivity service-connection-policies create POLICY_NAME \
    --project=VPC_PROJECT \
    --network=projects/PROJECT_ID/global/networks/NETWORK_NAME \
    --service-class=gcp-vertexai --region=REGION --subnets=PSC_SUBNETS
```

서비스 연결 정책을 확인합니다.

gcloud network-connectivity service-connection-policies list \
    --project=VPC_PROJECT -–region=REGION

단일 VPC 설정의 경우 샘플은 다음과 같습니다.

    gcloud network-connectivity service-connection-policies create test-policy \
        --network=default \
        --project=YOUR_PROJECT_ID \
        --region=us-central1 \
        --service-class=gcp-vertexai \
        --subnets=default \
        --psc-connection-limit=500 \
        --description=test

PSC 자동화 구성으로 온라인 추론 엔드포인트 만들기

PSCAutomationConfig에서 projectId가 허용 목록에 있는지 확인합니다.

REST

요청 데이터를 사용하기 전에 다음을 바꿉니다.

REGION: Vertex AI를 사용하는 리전입니다.
VERTEX_AI_PROJECT_ID: 온라인 추론 엔드포인트를 만드는 Google Cloud 프로젝트의 ID입니다.
VERTEX_AI_ENDPOINT_NAME: 온라인 예측 엔드포인트 표시 이름입니다.
NETWORK_NAME: 프로젝트 번호가 아닌 프로젝트 ID가 포함된 전체 리소스 이름입니다.

HTTP 메서드 및 URL:

POST https://REGION-aiplatform.googleapis.com/v1/projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints

JSON 요청 본문:

{
  {
    displayName: "VERTEX_AI_ENDPOINT_NAME",
    privateServiceConnectConfig: {
      enablePrivateServiceConnect: true,
      projectAllowlist: ["VERTEX_AI_PROJECT_ID"],
      pscAutomationConfigs: [
        { "project_id": "VERTEX_AI_PROJECT_ID", "network": "projects/VERTEX_AI_PROJECT_ID/global/networks/NETWORK_NAME" },
      ],
    },
  },

요청을 보내려면 다음 옵션 중 하나를 펼칩니다.

cURL(Linux, macOS, Cloud Shell)

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://REGION-aiplatform.googleapis.com/v1/projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints"

PowerShell(Windows)

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://REGION-aiplatform.googleapis.com/v1/projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 표시됩니다.

{
  "name": "projects/VERTEX_AI_PROJECT_NUMBER/locations/REGION/endpoints/ENDPOINT_ID/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateEndpointOperationMetadata",
    "genericMetadata": {
      "createTime": "2020-11-05T17:45:42.812656Z",
      "updateTime": "2020-11-05T17:45:42.812656Z"
    }
  }
}

ENDPOINT_ID를 기록해 둡니다.

Python

Vertex AI에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.

다음을 바꿉니다.

VERTEX_AI_PROJECT_ID: 온라인 추론 엔드포인트를 만드는 Google Cloud 프로젝트의 ID
REGION: Vertex AI를 사용하는 리전
VERTEX_AI_ENDPOINT_NAME: 온라인 추론 엔드포인트 표시 이름
NETWORK_NAME: 프로젝트 번호가 아닌 프로젝트 ID가 포함된 전체 리소스 이름

PROJECT_ID = "VERTEX_AI_PROJECT_ID"
REGION = "REGION"
VERTEX_AI_ENDPOINT_NAME = "VERTEX_AI_ENDPOINT_NAME"

from google.cloud import aiplatform

aiplatform.init(project=PROJECT_ID, location=REGION)

config =
aiplatform.compat.types.service_networking.PrivateServiceConnectConfig(
        enable_private_service_connect=True,
        project_allowlist="VERTEX_AI_PROJECT_ID"
        psc_automation_configs=[
            aiplatform.compat.types.service_networking.PSCAutomationConfig(
                project_id="VERTEX_AI_PROJECT_ID"
network=projects/"VERTEX_AI_PROJECT_ID"/global/networks/"NETWORK_NAME",
            )
        ]
    )
psc_endpoint = aiplatform.PrivateEndpoint.create(
     display_name="VERTEX_AI_ENDPOINT_NAME"
     private_service_connect_config=config,
)

모델 배포

Private Service Connect를 사용 설정한 온라인 추론 엔드포인트를 만든 후 엔드포인트에 모델 배포에 설명된 단계를 수행하여 모델을 배포합니다.

수동으로 PSC 엔드포인트 만들기

서비스 연결 URI 가져오기

모델을 배포하면 온라인 추론 엔드포인트에 서비스 연결이 생성됩니다. 이 서비스 연결은 VPC 네트워크에 노출되는 Vertex AI 온라인 추론 서비스를 나타냅니다. gcloud ai endpoints describe 명령어를 실행하여 서비스 연결 URI를 가져옵니다.

엔드포인트 세부정보에서 serviceAttachment 값만 나열합니다.
```
gcloud ai endpoints describe ENDPOINT_ID \
--project=VERTEX_AI_PROJECT_ID \
--region=REGION \
| grep -i serviceAttachment
```
다음을 바꿉니다.
- ENDPOINT_ID: 온라인 추론 엔드포인트 ID
- VERTEX_AI_PROJECT_ID: 온라인 추론 엔드포인트를 만든 Google Cloud 프로젝트의 ID
- REGION: 이 요청의 리전
출력은 다음과 비슷합니다.
```
serviceAttachment: projects/ac74a9f84c2e5f2a1-tp/regions/us-central1/serviceAttachments/gkedpm-c6e6a854a634dc99472bb802f503c1
```
serviceAttachment 필드의 전체 문자열을 기록해 둡니다. 서비스 연결 URI입니다.

전달 규칙 만들기

내부 IP 주소를 예약하고 이 주소로 전달 규칙을 생성할 수 있습니다. 전달 규칙을 만들려면 이전 단계의 서비스 연결 URI가 필요합니다.

전달 규칙의 내부 IP 주소를 예약하려면 gcloud compute addresses create 명령어를 사용합니다.
```
gcloud compute addresses create ADDRESS_NAME \
--project=VPC_PROJECT_ID \
--region=REGION \
--subnet=SUBNETWORK \
--addresses=INTERNAL_IP_ADDRESS
```
다음을 바꿉니다.
- ADDRESS_NAME: 내부 IP 주소 이름
- VPC_PROJECT_ID: Google Cloud 네트워크를 호스팅하는 프로젝트의 ID. 온라인 추론 엔드포인트와 Private Service Connect 전달 규칙이 같은 프로젝트에서 호스팅되면 이 파라미터의 VERTEX_AI_PROJECT_ID를 사용합니다.
- REGION: Private Service Connect 전달 규칙을 만들 Google Cloud 리전
- SUBNETWORK: IP 주소가 포함된 VPC 서브넷의 이름
- INTERNAL_IP_ADDRESS: 예약할 내부 IP 주소. 이 파라미터는 선택사항입니다.
  - 이 파라미터를 지정하면 IP 주소가 서브넷의 기본 IP 주소 범위에 속해야 합니다. IP 주소는 RFC 1918 주소이거나 비 RFC 범위가 있는 서브넷일 수 있습니다.
  - 이 파라미터를 생략하면 내부 IP 주소가 자동으로 할당됩니다.
  - 자세한 내용은 새 고정 내부 IPv4 또는 IPv6 주소 예약을 참조하세요.
IP 주소가 예약되어 있는지 확인하려면 gcloud compute addresses list 명령어를 사용합니다.
```
gcloud compute addresses list --filter="name=(ADDRESS_NAME)" \
--project=VPC_PROJECT_ID
```
응답에서 IP 주소에 대해 RESERVED 상태가 표시되는지 확인합니다.
전달 규칙을 만들고 온라인 추론 서비스 연결을 가리키게 하려면 gcloud compute forwarding-rules create 명령어를 사용합니다.
```
gcloud compute forwarding-rules create PSC_FORWARDING_RULE_NAME \
    --address=ADDRESS_NAME \
    --project=VPC_PROJECT_ID \
    --region=REGION \
    --network=VPC_NETWORK_NAME \
    --target-service-attachment=SERVICE_ATTACHMENT_URI
```
다음을 바꿉니다.
- PSC_FORWARDING_RULE_NAME: 전달 규칙의 이름
- VPC_NETWORK_NAME: 엔드포인트를 만들 VPC 네트워크의 이름
- SERVICE_ATTACHMENT_URI: 앞에서 기록한 서비스 연결
서비스 연결에서 엔드포인트를 수락하는지 확인하려면 gcloud compute forwarding-rules describe 명령어를 사용합니다.
```
gcloud compute forwarding-rules describe PSC_FORWARDING_RULE_NAME \
--project=VPC_PROJECT_ID \
--region=REGION
```
응답의 pscConnectionStatus 필드에 ACCEPTED 상태가 표시되는지 확인합니다.

선택사항: 내부 IP 주소 가져오기

전달 규칙을 만들 때 INTERNAL_IP_ADDRESS 값을 지정하지 않았으면 gcloud compute forwarding-rules describe 명령어를 통해 자동으로 할당된 주소를 가져올 수 있습니다.

gcloud compute forwarding-rules describe PSC_FORWARDING_RULE_NAME \
--project=VERTEX_AI_PROJECT_ID \
--region=REGION \
| grep -i IPAddress

다음을 바꿉니다.

VERTEX_AI_PROJECT_ID: 프로젝트 ID
REGION: 이 요청의 리전 이름

선택사항: PSC 자동화 결과에서 PSC 엔드포인트 가져오기

추론 엔드포인트에서 생성된 IP 주소와 전달 규칙을 가져올 수 있습니다. 예를 들면 다음과 같습니다.

"privateServiceConnectConfig": {
  "enablePrivateServiceConnect": true,
  "projectAllowlist": [
    "your-project-id",
  ],
  "pscAutomationConfigs": [
    {
      "projectId": "your-project-id",
      "network": "projects/your-project-id/global/networks/default",
      "ipAddress": "10.128.15.209",
      "forwardingRule": "https://www.googleapis.com/compute/v1/projects/your-project-id/regions/us-central1/forwardingRules/sca-auto-fr-47b0d6a4-eaff-444b-95e6-e4dc1d10101e",
      "state": "PSC_AUTOMATION_STATE_SUCCESSFUL"
    },
  ]
}

다음은 몇 가지 오류 처리 세부정보입니다.

자동화가 실패해도 모델 배포 결과는 영향을 받지 않습니다.
작업의 성공 또는 실패는 상태에 표시됩니다.
- 성공하면 IP 주소와 전달 규칙이 표시됩니다.
- 실패하면 오류 메시지가 표시됩니다.
모델이 엔드포인트에 배포되지 않았거나 배포 중이면 자동화 구성이 삭제됩니다. 따라서 나중에 모델을 배포하면 IP 주소와 전달 규칙이 변경됩니다.
실패한 자동화는 복구되지 않습니다. 실패한 경우에도 여전히 PSC 엔드포인트를 수동으로 만들 수 있습니다. 수동으로 PSC 엔드포인트 만들기를 참조하세요.

온라인 추론 수행

Private Service Connect를 사용하여 엔드포인트에서 온라인 추론 수행은 다음 고려사항을 제외하고 공개 엔드포인트에서 온라인 추론 수행과 비슷합니다.

온라인 추론 엔드포인트를 만들 때 projectAllowlist에 지정한 프로젝트에서 요청을 보내야 합니다.
전역 액세스가 사용 설정되지 않은 경우에는 같은 리전에서 요청을 보내야 합니다.
자체 서명 인증서를 사용하는 TLS가 적용된 443 및 TLS가 적용되지 않는 80 등 포트 2개가 열립니다. 두 포트 모두 HTTP 및 GRPC를 지원합니다. 모든 트래픽은 비공개 네트워크에 있으며 공개 인터넷을 통해 전송되지 않습니다.
내부 IP 주소에 대한 DNS 레코드가 생성되지 않은 경우 추론을 얻으려면 엔드포인트의 고정 IP 주소를 사용하여 연결을 설정해야 합니다. 예를 들어 predict 요청을 다음 엔드포인트에 보냅니다.
```
https://INTERNAL_IP_ADDRESS/v1/projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints/ENDPOINT_ID:predict
```
INTERNAL_IP_ADDRESS를 앞에서 예약한 내부 IP 주소로 바꿉니다.
gRPC 요청의 경우: gRPC 요청의 올바른 엔드포인트 식별을 보장하려면 x-vertex-ai-endpoint-id 헤더를 포함해야 합니다. 엔드포인트 정보는 gRPC 통신의 요청 경로 내에 전달되지 않으므로 이 작업이 필요합니다.
보안 연결(포트 443): 포트 443을 사용하여 보안 연결을 설정할 경우 서버는 자체 서명 인증서를 사용합니다. 연결을 진행하려면 다음 방식 중 하나를 사용하는 것이 좋습니다.
- 옵션 1: 인증서 유효성 검사 우회: 클라이언트가 인증서 유효성 검사를 무시하고 서버 IP 주소나 기본 DNS 변환 방법을 사용하여 연결을 설정하도록 구성합니다.
- 옵션 2: 트러스트 저장소 통합: 서버의 자체 서명 인증서를 가져와 클라이언트 시스템의 로컬 트러스트 저장소에 추가하고 *.prediction.p.vertexai.goog 형식의 DNS 이름을 사용하여 연결을 설정합니다. 이 방법은 인증서 유효성 검사를 통해 통신을 보호합니다. 서버의 인증서는 다음 명령어를 사용하여 PSC_CERTIFICATE_FILE.pem에 쓸 수 있습니다.
```
openssl s_client -showcerts -connect INTERNAL_IP_ADDRESS:443 \
  -servername *.prediction.p.vertexai.goog \
  </dev/null 2>/dev/null | sed -n \
  '/-----BEGIN CERTIFICATE-----/,/-----END CERTIFICATE-----/p' >  PSC_CERTIFICATE_FILE.pem
```

다음 섹션에서는 Python을 사용하여 예측 요청을 보내는 방법의 예시를 보여줍니다.

첫 번째 예시

psc_endpoint = aiplatform.PrivateEndpoint("projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints/ENDPOINT_ID")
REQUEST_FILE = "PATH_TO_INPUT_FILE"
import json

import urllib3

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

with open(REQUEST_FILE) as json_file:
    data = json.load(json_file)
    response = psc_endpoint.predict(
        instances=data["instances"], endpoint_override=INTERNAL_IP_ADDRESS
    )
print(response)

PATH_TO_INPUT_FILE을 요청 입력이 포함된 JSON 파일의 경로로 바꿉니다.

두 번째 예시

import json
import requests
import urllib3
import google.auth.transport.requests

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

REQUEST_FILE = "PATH_TO_INPUT_FILE"

# Programmatically get credentials and generate an access token
creds, project = google.auth.default()
auth_req = google.auth.transport.requests.Request()
creds.refresh(auth_req)
access_token = creds.token
# Note: the credential lives for 1 hour by default
# After expiration, it must be refreshed
# See https://cloud.google.com/docs/authentication/token-types#access-tokens
# for token lifetimes.

with open(REQUEST_FILE) as json_file:
    data = json.load(json_file)
    url = "https://INTERNAL_IP_ADDRESS/v1/projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints/ENDPOINT_ID:predict"
    headers = {
      "Content-Type": "application/json",
      "Authorization": f"Bearer {access_token}"  # Add access token to headers
    }
    payload = {
      "instances": data["instances"],
    }

response = requests.post(url, headers=headers, json=payload, verify=False)

print(response.json())

(선택사항) 내부 IP 주소의 DNS 레코드 만들기

내부 IP 주소를 지정할 필요 없이 엔드포인트에서 온라인 추론을 수행할 수 있도록 DNS 레코드를 만드는 것이 좋습니다.

자세한 내용은 DNS를 구성하는 다른 방법을 참조하세요.

gcloud dns managed-zones create 명령어를 사용하여 비공개 DNS 영역을 만듭니다. 이 영역은 전달 규칙이 생성된 VPC 네트워크와 연결됩니다.

DNS_NAME_SUFFIX="prediction.p.vertexai.goog."  # DNS names have "." at the end.
gcloud dns managed-zones create ZONE_NAME \
--project=VPC_PROJECT_ID \
--dns-name=$DNS_NAME_SUFFIX \
--networks=VPC_NETWORK_NAME \
--visibility=private \
--description="A DNS zone for Vertex AI endpoints using Private Service Connect."

다음을 바꿉니다.

ZONE_NAME: DNS 영역의 이름

영역에 DNS 레코드를 만들려면 gcloud dns record-sets create 명령어를 사용합니다.
```
DNS_NAME=ENDPOINT_ID-REGION-VERTEX_AI_PROJECT_NUMBER.$DNS_NAME_SUFFIX
gcloud dns record-sets create $DNS_NAME \
--rrdatas=INTERNAL_IP_ADDRESS \
--zone=ZONE_NAME \
--type=A \
--ttl=60 \
--project=VPC_PROJECT_ID
```
다음을 바꿉니다.
- VERTEX_AI_PROJECT_NUMBER: 프로젝트의 VERTEX_AI_PROJECT_ID프로젝트 번호. 이 프로젝트 번호는 Google Cloud 콘솔에서 찾을 수 있습니다. 자세한 내용은 프로젝트 식별을 참조하세요.
- INTERNAL_IP_ADDRESS: 온라인 추론 엔드포인트의 내부 IP 주소
이제 predict 요청을 다음으로 보낼 수 있습니다.
```
https://ENDPOINT_ID-REGION-VERTEX_AI_PROJECT_NUMBER.prediction.p.vertexai.goog/v1/projects/VERTEX_AI_PROJECT_ID/locations/REGION/endpoints/ENDPOINT_ID:predict
```

다음은 Python을 사용하여 DNS 영역에 예측 요청을 보내는 방법의 예시입니다.

REQUEST_FILE = "PATH_TO_INPUT_FILE"
import json

import urllib3

urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

with open(REQUEST_FILE) as json_file:
    data = json.load(json_file)
    response = psc_endpoint.predict(
        instances=data["instances"], endpoint_override=DNS_NAME
    )
print(response)

DNS_NAME을 gcloud dns record-sets create 명령어에서 지정한 DNS 이름으로 바꿉니다.

제한사항

Private Service Connect가 포함된 Vertex AI 엔드포인트에는 다음과 같은 제한사항이 적용됩니다.

조정된 Gemini 모델 배포는 지원되지 않습니다.
엔드포인트 내에서의 비공개 이그레스는 지원되지 않습니다. Private Service Connect 전달 규칙은 단방향이므로 다른 비공개Google Cloud 워크로드는 컨테이너 내에서 액세스할 수 없습니다.
엔드포인트의 projectAllowlist 구성을 변경할 수 없습니다.
Vertex Explainable AI는 지원되지 않습니다.
엔드포인트를 삭제하기 전에 해당 엔드포인트에서 모델 배포를 취소해야 합니다.
모든 모델이 10분 넘게 배포 취소되면 서비스 연결이 삭제될 수 있습니다. Private Service Connect 연결 상태를 확인합니다. CLOSED이면 전달 규칙을 다시 만듭니다.
엔드포인트를 삭제한 후 최대 7일 동안 해당 엔드포인트 이름을 재사용할 수 없습니다.
프로젝트의 Private Service Connect 구성에는 서로 다른 projectAllowlist 값이 최대 10개까지 있을 수 있습니다.

온라인 추론에 Private Service Connect를 기반으로 하는 전용 비공개 엔드포인트 사용

필요한 역할

온라인 추론 엔드포인트 만들기

콘솔

API

REST

cURL(Linux, macOS, Cloud Shell)

PowerShell(Windows)

Python

PSC 자동화로 온라인 추론 엔드포인트 만들기(프리뷰)

제한사항

서비스 연결 정책 만들기

PSC 자동화 구성으로 온라인 추론 엔드포인트 만들기

REST

cURL(Linux, macOS, Cloud Shell)

PowerShell(Windows)

Python

모델 배포

수동으로 PSC 엔드포인트 만들기

서비스 연결 URI 가져오기

전달 규칙 만들기

선택사항: 내부 IP 주소 가져오기

선택사항: PSC 자동화 결과에서 PSC 엔드포인트 가져오기

온라인 추론 수행

첫 번째 예시

두 번째 예시

(선택사항) 내부 IP 주소의 DNS 레코드 만들기

제한사항

다음 단계