데이터 스토어를 만들고 일반 추천을 위해 데이터를 수집하려면 사용하려는 소스의 섹션으로 이동합니다.
BigQuery
BigQuery 테이블에서 데이터 스토어를 만드는 방법에는 두 가지가 있습니다.
일회성 수집: BigQuery 테이블에서 데이터 스토어로 데이터를 가져옵니다. 수동으로 데이터를 새로고침하지 않는 한 데이터 스토어의 데이터가 변경되지 않습니다.
주기적 수집: 하나 이상의 BigQuery 테이블에서 데이터를 가져오고 데이터 스토어가 BigQuery 데이터 세트의 최신 데이터로 업데이트되는 빈도를 결정하는 동기화 빈도를 설정합니다.
다음 표에서는 BigQuery 데이터를 Vertex AI Search 데이터 스토어로 가져오는 두 가지 방법을 비교합니다.
일회성 수집 | 주기적 수집 |
---|---|
정식 버전 (GA) | 공개 미리보기 |
데이터를 수동으로 새로고침해야 합니다. | 데이터가 1일, 3일 또는 5일마다 자동으로 업데이트됩니다. 데이터를 수동으로 새로고침할 수 없습니다. |
Vertex AI Search가 BigQuery의 한 테이블에서 단일 데이터 스토어를 만듭니다. | Vertex AI Search가 BigQuery 데이터 세트의 데이터 커넥터와 지정된 각 테이블의 데이터 스토어(항목 데이터 스토어라고 함)를 만듭니다. 각 데이터 커넥터는 테이블의 데이터 유형(예: 구조화된 데이터)이 동일해야 하며 동일한 BigQuery 데이터 세트에 있어야 합니다. |
먼저 한 테이블에서 데이터를 수집한 다음 다른 소스 또는 BigQuery 테이블에서 데이터를 추가로 수집하여 여러 테이블의 데이터를 하나의 데이터 스토어에 결합할 수 있습니다. | 수동 데이터 가져오기는 지원되지 않으므로 항목 데이터 스토어의 데이터를 한 BigQuery 테이블에서만 가져올 수 있습니다. |
데이터 소스 액세스 제어가 지원됩니다. | 데이터 소스 액세스 제어는 지원되지 않습니다. 가져온 데이터에 액세스 제어가 포함될 수 있지만 이러한 제어가 적용되지 않습니다. |
Google Cloud 콘솔 또는 API를 사용하여 데이터 스토어를 만들 수 있습니다. | 데이터 커넥터와 해당 항목 데이터 스토어를 만들려면 콘솔을 사용해야 합니다. |
CMEK 준수 | CMEK 준수 |
BigQuery에서 한 번 가져오기
BigQuery 테이블에서 데이터를 수집하려면 다음 단계를 따라 데이터 스토어를 만들고 Google Cloud 콘솔 또는 API를 사용하여 데이터를 수집합니다.
데이터를 가져오기 전에 수집할 데이터 준비를 검토하세요.
콘솔
Google Cloud 콘솔을 사용하여 BigQuery에서 데이터를 수집하려면 다음 단계를 따르세요.
Google Cloud 콘솔에서 AI 애플리케이션 페이지로 이동합니다.
데이터 스토어 페이지로 이동합니다.
데이터 스토어 만들기를 클릭합니다.
소스 페이지에서 BigQuery를 선택합니다.
가져올 데이터 유형 섹션에서 가져올 데이터 유형을 선택합니다.
동기화 빈도 섹션에서 일회성을 선택합니다.
BigQuery 경로 필드에서 찾아보기를 클릭하고 수집을 위해 준비한 테이블을 선택한 다음 선택을 클릭합니다. 또는 BigQuery 경로 필드에 테이블 위치를 직접 입력해도 됩니다.
계속을 클릭합니다.
구조화된 데이터를 일회성으로 가져오는 경우:
필드를 키 속성에 매핑합니다.
스키마에서 중요한 필드가 누락된 경우 새 필드 추가를 사용하여 필드를 추가합니다.
자세한 내용은 자동 감지 및 수정 정보를 참조하세요.
계속을 클릭합니다.
데이터 스토어의 리전을 선택합니다.
데이터 스토어 이름을 입력합니다.
만들기를 클릭합니다.
수집 상태를 확인하려면 데이터 스토어 페이지로 이동하여 데이터 스토어 이름을 클릭한 후 데이터 페이지에서 세부정보를 확인합니다. 활동 탭의 상태 열이 진행 중에서 가져오기 완료됨으로 변경되면 수집이 완료된 것입니다.
데이터 크기에 따라 수집에 몇 분부터 몇 시간까지 걸릴 수 있습니다.
REST
명령줄을 사용하여 데이터 스토어를 만들고 BigQuery에서 데이터를 가져오려면 다음 단계를 따르세요.
데이터 스토어를 만듭니다.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
다음을 바꿉니다.
PROJECT_ID
: Google Cloud 프로젝트의 IDDATA_STORE_ID
: 만들려는 Vertex AI Search 데이터 스토어의 ID입니다. 이 ID는 소문자, 숫자, 밑줄, 하이픈만 포함할 수 있습니다.DATA_STORE_DISPLAY_NAME
: 만들려는 Vertex AI Search 데이터 스토어의 표시 이름입니다.
BigQuery에서 데이터를 가져옵니다.
스키마를 정의한 경우 데이터가 해당 스키마를 준수하는지 확인합니다.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "bigquerySource": { "projectId": "PROJECT_ID", "datasetId":"DATASET_ID", "tableId": "TABLE_ID", "dataSchema": "DATA_SCHEMA", "aclEnabled": "BOOLEAN" }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
다음을 바꿉니다.
PROJECT_ID
: Google Cloud 프로젝트의 IDDATA_STORE_ID
: Vertex AI Search 데이터 스토어의 ID입니다.DATASET_ID
: BigQuery 데이터 세트의 ID입니다.TABLE_ID
: BigQuery 테이블의 ID입니다.- BigQuery 테이블이 PROJECT_ID에 없으면 서비스 계정
service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
에 BigQuery 테이블에 대한 "BigQuery 데이터 뷰어" 권한을 부여해야 합니다. 예를 들어 '123' 소스 프로젝트에서 '456' 대상 프로젝트로 BigQuery 테이블을 가져오는 경우 '123' 프로젝트의 BigQuery 테이블에 대한service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
권한을 부여합니다.
- BigQuery 테이블이 PROJECT_ID에 없으면 서비스 계정
DATA_SCHEMA
: 선택사항입니다. 값은document
및custom
입니다. 기본값은document
입니다.document
: 사용하는 BigQuery 테이블이 수집을 위한 데이터 준비에 제공된 기본 BigQuery 스키마를 준수해야 합니다. 각 문서의 ID를 정의할 수 있으며, 모든 데이터가 jsonData 문자열에 포함되어야 합니다.custom
: 모든 BigQuery 테이블 스키마가 허용되며 Vertex AI Search가 가져온 각 문서의 ID를 자동으로 생성합니다.
ERROR_DIRECTORY
: 선택사항입니다. 가져오기에 대한 오류 정보를 볼 수 있는 Cloud Storage 디렉터리입니다. 예를 들면gs://<your-gcs-bucket>/directory/import_errors
입니다. Vertex AI Search가 임시 디렉터리를 자동으로 만들도록 하려면 이 필드를 비워 두는 것이 좋습니다.RECONCILIATION_MODE
: 선택사항입니다. 값은FULL
및INCREMENTAL
입니다. 기본값은INCREMENTAL
입니다.INCREMENTAL
을 지정하면 BigQuery의 데이터가 데이터 스토어에 점진적으로 새로고침됩니다. 이 경우 새 문서를 추가하고 기존 문서를 동일한 ID의 업데이트된 문서로 대체하는 삽입/업데이트(upsert) 작업이 실행됩니다.FULL
을 지정하면 데이터 스토어에서 문서의 전체 재배치가 이루어집니다. 즉, 새 문서와 업데이트된 문서는 데이터 스토어에 추가되고 BigQuery에 없는 문서는 데이터 스토어에서 삭제됩니다.FULL
모드는 더 이상 필요하지 않은 문서를 자동으로 삭제하려는 경우에 유용합니다.AUTO_GENERATE_IDS
: 선택사항입니다. 문서 ID를 자동으로 생성할지 지정합니다.true
로 설정하면 페이로드의 해시에 따라 문서 ID가 생성됩니다. 생성된 문서 ID는 여러 가져오기에서 일관되지 않을 수 있습니다. 여러 가져오기에서 ID를 자동으로 생성하는 경우 문서 ID의 일관성을 유지하기 위해reconciliationMode
를FULL
로 설정하는 것이 좋습니다.bigquerySource.dataSchema
가custom
으로 설정된 경우에만autoGenerateIds
를 지정합니다. 그렇지 않으면INVALID_ARGUMENT
오류가 반환됩니다.autoGenerateIds
를 지정하지 않거나false
로 설정한 경우idField
를 지정해야 합니다. 그렇지 않으면 문서를 가져오지 못합니다.ID_FIELD
: 선택사항입니다. 문서 ID인 필드를 지정합니다. BigQuery 소스 파일의 경우idField
는 문서 ID가 포함된 BigQuery 테이블의 열 이름을 나타냅니다.(1)
bigquerySource.dataSchema
가custom
으로 설정되고 (2)auto_generate_ids
가false
로 설정되었거나 지정되지 않은 경우에만idField
를 지정합니다. 그렇지 않으면INVALID_ARGUMENT
오류가 반환됩니다.BigQuery 열 이름의 값은 문자열 유형이고 1~63자(영문 기준)여야 하며 RFC-1034를 준수해야 합니다. 그렇지 않으면 문서를 가져오지 못합니다.
C#
자세한 내용은 AI 애플리케이션 C# API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
Go
자세한 내용은 AI 애플리케이션 Go API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
Java
자세한 내용은 AI 애플리케이션 Java API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
Node.js
자세한 내용은 AI 애플리케이션 Node.js API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
Python
자세한 내용은 AI 애플리케이션 Python API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
Ruby
자세한 내용은 AI 애플리케이션 Ruby API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
주기적 동기화를 사용하여 BigQuery에 연결
데이터를 가져오기 전에 수집할 데이터 준비를 검토하세요.
다음 절차에서는 BigQuery 데이터 세트를 Vertex AI Search 데이터 커넥터와 연결하는 데이터 커넥터를 만드는 방법과 만들려는 각 데이터 스토어의 데이터 세트에 테이블을 지정하는 방법을 설명합니다. 데이터 커넥터의 하위 요소인 데이터 스토어를 항목 데이터 스토어라고 합니다.
데이터 세트의 데이터는 주기적으로 항목 데이터 스토어에 동기화됩니다. 매일, 3일마다 또는 5일마다 동기화를 지정할 수 있습니다.
콘솔
Google Cloud 콘솔을 사용하여 BigQuery 데이터 세트의 데이터를 Vertex AI Search와 주기적으로 동기화하는 커넥터를 만들려면 다음 단계를 따르세요.
Google Cloud 콘솔에서 AI 애플리케이션 페이지로 이동합니다.
탐색 메뉴에서 데이터 스토어를 클릭합니다.
데이터 저장소 만들기를 클릭합니다.
소스 페이지에서 BigQuery를 선택합니다.
가져올 데이터의 유형을 선택합니다.
주기적을 클릭합니다.
Vertex AI Search 커넥터가 BigQuery 데이터 세트와 동기화할 빈도인 동기화 빈도를 선택합니다. 빈도는 나중에 변경할 수 있습니다.
BigQuery 데이터 세트 경로 필드에서 찾아보기를 클릭하고 수집을 위해 준비한 테이블이 포함된 데이터 세트를 선택합니다. 또는 BigQuery 경로 필드에 테이블 위치를 직접 입력해도 됩니다. 경로의 형식은
projectname.datasetname
입니다.동기화할 테이블 필드에서 찾아보기를 클릭한 다음 데이터 스토어에 저장할 데이터가 포함된 테이블을 선택합니다.
데이터 스토어에 사용할 추가 테이블이 데이터 세트에 있는 경우 테이블 추가를 클릭하고 해당 테이블도 지정합니다.
계속을 클릭합니다.
데이터 스토어의 리전을 선택하고 데이터 커넥터의 이름을 입력한 후 만들기를 클릭합니다.
데이터를 BigQuery 데이터 세트와 주기적으로 동기화하는 데이터 커넥터를 만들었습니다. 하나 이상의 항목 데이터 스토어도 만들었습니다. 데이터 스토어의 이름은 BigQuery 테이블과 동일합니다.
수집 상태를 확인하려면 데이터 스토어 페이지로 이동하여 데이터 커넥터 이름을 클릭한 후 데이터 페이지 > 데이터 수집 활동 탭에서 세부정보를 확인합니다. 활동 탭의 상태 열이 진행 중에서 성공으로 변경되면 첫 번째 수집이 완료된 것입니다.
데이터 크기에 따라 수집에 몇 분부터 몇 시간까지 걸릴 수 있습니다.
데이터 소스를 설정하고 데이터를 처음 가져온 후에는 데이터 스토어가 설정 중에 선택한 빈도로 해당 소스의 데이터를 동기화합니다. 데이터 커넥터가 생성된 후 약 1시간 후에 첫 번째 동기화가 이루어집니다. 이후 다음 동기화가 약 24시간, 72시간 또는 120시간 후에 발생합니다.
다음 단계
데이터 스토어를 앱에 연결하려면 앱을 만들고 일반 추천 앱 만들기의 단계를 따라 데이터 스토어를 선택합니다.
앱과 데이터 스토어를 설정한 후 추천을 미리 보거나 가져오려면 추천 가져오기를 참고하세요.
Cloud Storage
Cloud Storage 테이블에서 데이터 스토어를 만드는 방법에는 두 가지가 있습니다.
일회성 수집: Cloud Storage 폴더 또는 파일에서 데이터 스토어로 데이터를 가져옵니다. 수동으로 데이터를 새로고침하지 않는 한 데이터 스토어의 데이터가 변경되지 않습니다.
주기적 수집: Cloud Storage 폴더 또는 파일에서 데이터를 가져오고 데이터 스토어가 해당 Cloud Storage 위치의 최신 데이터로 업데이트되는 빈도를 결정하는 동기화 빈도를 설정합니다.
다음 표에서는 Cloud Storage 데이터를 Vertex AI Search 데이터 스토어로 가져오는 두 가지 방법을 비교합니다.
일회성 수집 | 주기적 수집 |
---|---|
정식 버전 (GA) | 공개 미리보기 |
데이터를 수동으로 새로고침해야 합니다. | 데이터가 1일, 3일 또는 5일마다 자동으로 업데이트됩니다. 데이터를 수동으로 새로고침할 수 없습니다. |
Vertex AI Search가 Cloud Storage의 한 폴더 또는 파일에서 단일 데이터 스토어를 만듭니다. | Vertex AI Search가 데이터 커넥터를 만들고 지정된 파일 또는 폴더의 데이터 스토어(항목 데이터 스토어라고 함)를 연결합니다. 각 Cloud Storage 데이터 커넥터는 단일 항목 데이터 스토어를 보유할 수 있습니다. |
먼저 한 Cloud Storage 위치에서 데이터를 수집한 다음 다른 위치에서 더 많은 데이터를 수집하여 여러 파일, 폴더, 버킷의 데이터를 하나의 데이터 스토어에 결합할 수 있습니다. | 수동 데이터 가져오기는 지원되지 않으므로 항목 데이터 스토어의 데이터는 한 Cloud Storage 파일 또는 폴더에서만 가져올 수 있습니다. |
데이터 소스 액세스 제어가 지원됩니다. 자세한 내용은 데이터 소스 액세스 제어를 참고하세요. | 데이터 소스 액세스 제어는 지원되지 않습니다. 가져온 데이터에 액세스 제어가 포함될 수 있지만 이러한 제어가 적용되지 않습니다. |
Google Cloud 콘솔 또는 API를 사용하여 데이터 스토어를 만들 수 있습니다. | 데이터 커넥터와 해당 항목 데이터 스토어를 만들려면 콘솔을 사용해야 합니다. |
CMEK 준수 | CMEK 준수 |
Cloud Storage에서 한 번 가져오기
Cloud Storage에서 데이터를 수집하려면 다음 단계를 따라 데이터 스토어를 만들고 Google Cloud 콘솔 또는 API를 사용하여 데이터를 수집합니다.
데이터를 가져오기 전에 수집할 데이터 준비를 검토하세요.
콘솔
콘솔을 사용하여 Cloud Storage 버킷에서 데이터를 수집하려면 다음 단계를 수행합니다.
Google Cloud 콘솔에서 AI 애플리케이션 페이지로 이동합니다.
데이터 스토어 페이지로 이동합니다.
데이터 스토어 만들기를 클릭합니다.
소스 페이지에서 Cloud Storage를 선택합니다.
가져올 폴더 또는 파일 선택 섹션에서 폴더 또는 파일을 선택합니다.
찾아보기를 클릭하고 수집을 위해 준비한 데이터를 선택한 다음 선택을 클릭합니다. 또는
gs://
필드에 위치를 직접 입력해도 됩니다.가져올 데이터의 유형을 선택합니다.
계속을 클릭합니다.
구조화된 데이터를 일회성으로 가져오는 경우:
필드를 키 속성에 매핑합니다.
스키마에서 중요한 필드가 누락된 경우 새 필드 추가를 사용하여 필드를 추가합니다.
자세한 내용은 자동 감지 및 수정 정보를 참조하세요.
계속을 클릭합니다.
데이터 스토어의 리전을 선택합니다.
데이터 스토어 이름을 입력합니다.
선택사항: 구조화되지 않은 문서를 선택한 경우 문서의 파싱 및 청크 처리 옵션을 선택할 수 있습니다. 파서를 비교하려면 문서 파싱을 참고하세요. 청크 처리에 관한 자세한 내용은 RAG용 문서 청크 처리를 참고하세요.
OCR 파서와 레이아웃 파서에는 추가 비용이 발생할 수 있습니다. Document AI 기능 가격 책정을 참고하세요.
파서를 선택하려면 문서 처리 옵션을 펼치고 사용할 파서 옵션을 지정합니다.
만들기를 클릭합니다.
수집 상태를 확인하려면 데이터 스토어 페이지로 이동하여 데이터 스토어 이름을 클릭한 후 데이터 페이지에서 세부정보를 확인합니다. 활동 탭의 상태 열이 진행 중에서 가져오기 완료됨으로 변경되면 수집이 완료된 것입니다.
데이터 크기에 따라 수집에 몇 분 또는 몇 시간까지 걸릴 수 있습니다.
REST
명령줄을 사용하여 데이터 스토어를 만들고 Cloud Storage에서 데이터를 수집하려면 다음 단계를 따르세요.
데이터 스토어를 만듭니다.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
다음을 바꿉니다.
PROJECT_ID
: Google Cloud 프로젝트의 IDDATA_STORE_ID
: 만들려는 Vertex AI Search 데이터 스토어의 ID입니다. 이 ID는 소문자, 숫자, 밑줄, 하이픈만 포함할 수 있습니다.DATA_STORE_DISPLAY_NAME
: 만들려는 Vertex AI Search 데이터 스토어의 표시 이름입니다.
Cloud Storage에서 데이터를 가져옵니다.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents:import" \ -d '{ "gcsSource": { "inputUris": ["INPUT_FILE_PATTERN_1", "INPUT_FILE_PATTERN_2"], "dataSchema": "DATA_SCHEMA", }, "reconciliationMode": "RECONCILIATION_MODE", "autoGenerateIds": "AUTO_GENERATE_IDS", "idField": "ID_FIELD", "errorConfig": { "gcsPrefix": "ERROR_DIRECTORY" } }'
다음을 바꿉니다.
PROJECT_ID
: Google Cloud 프로젝트의 IDDATA_STORE_ID
: Vertex AI Search 데이터 스토어의 ID입니다.INPUT_FILE_PATTERN
: 문서가 포함된 Cloud Storage의 파일 패턴입니다.정형 데이터 또는 메타데이터가 있는 비정형 데이터의 경우 입력 파일 패턴의 예는
gs://<your-gcs-bucket>/directory/object.json
이고 하나 이상의 파일을 일치시키는 패턴의 예는gs://<your-gcs-bucket>/directory/*.json
입니다.비정형 문서의 경우 예시는
gs://<your-gcs-bucket>/directory/*.pdf
입니다. 패턴과 일치하는 각 파일은 문서가 됩니다.<your-gcs-bucket>
이 PROJECT_ID에 있지 않으면 서비스 계정service-<project number>@gcp-sa-discoveryengine.iam.gserviceaccount.com
에 Cloud Storage 버킷에 대한 '스토리지 객체 뷰어' 권한을 부여해야 합니다. 예를 들어 '123' 소스 프로젝트에서 '456' 대상 프로젝트로 Cloud Storage 버킷을 가져오는 경우 '123' 프로젝트의 Cloud Storage 버킷에 대한service-456@gcp-sa-discoveryengine.iam.gserviceaccount.com
권한을 부여합니다.DATA_SCHEMA
: 선택사항입니다. 값은document
,custom
,csv
,content
입니다. 기본값은document
입니다.document
: 비정형 문서의 메타데이터와 함께 구조화되지 않은 데이터를 업로드합니다. 파일의 각 줄은 다음 형식 중 하나를 따라야 합니다. 각 문서의 ID를 정의할 수 있습니다.{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
{ "id": "<your-id>", "structData": <JSON object>, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
custom
: 정형 문서의 JSON을 업로드합니다. 데이터는 스키마에 따라 구성됩니다. 스키마를 지정할 수 있으며, 그렇지 않으면 자동으로 감지됩니다. 문서의 JSON 문자열을 각 줄에 일관된 형식으로 직접 배치할 수 있으며 Vertex AI Search가 가져온 각 문서의 ID를 자동으로 생성합니다.content
: 구조화되지 않은 문서(PDF, HTML, DOC, TXT, PPTX)를 업로드합니다. 각 문서의 ID는 16진수 문자열로 인코딩된 SHA256(GCS_URI)의 처음 128비트로 자동으로 생성됩니다. 일치하는 파일이 파일 한도인 10만 개를 초과하지 않는 한 입력 파일 패턴을 여러 개 지정할 수 있습니다.csv
: 각 헤더가 문서 필드에 매핑되도록 헤더 행을 CSV 파일에 포함합니다.inputUris
필드를 사용하여 CSV 파일의 경로를 지정합니다.
ERROR_DIRECTORY
: 선택사항입니다. 가져오기에 대한 오류 정보를 볼 수 있는 Cloud Storage 디렉터리입니다. 예를 들면gs://<your-gcs-bucket>/directory/import_errors
입니다. Vertex AI Search가 임시 디렉터리를 자동으로 만들도록 하려면 이 필드를 비워 두는 것이 좋습니다.RECONCILIATION_MODE
: 선택사항입니다. 값은FULL
및INCREMENTAL
입니다. 기본값은INCREMENTAL
입니다.INCREMENTAL
을 지정하면 Cloud Storage의 데이터가 데이터 스토어에 점진적으로 새로고침됩니다. 이 경우 새 문서를 추가하고 기존 문서를 동일한 ID의 업데이트된 문서로 대체하는 삽입/업데이트(upsert) 작업이 실행됩니다.FULL
을 지정하면 데이터 스토어에서 문서의 전체 재배치가 이루어집니다. 즉, 새 문서와 업데이트된 문서는 데이터 스토어에 추가되고 Cloud Storage에 없는 문서는 데이터 스토어에서 삭제됩니다.FULL
모드는 더 이상 필요하지 않은 문서를 자동으로 삭제하려는 경우에 유용합니다.AUTO_GENERATE_IDS
: 선택사항입니다. 문서 ID를 자동으로 생성할지 지정합니다.true
로 설정하면 페이로드의 해시에 따라 문서 ID가 생성됩니다. 생성된 문서 ID는 여러 가져오기에서 일관되지 않을 수 있습니다. 여러 가져오기에서 ID를 자동으로 생성하는 경우 문서 ID의 일관성을 유지하기 위해reconciliationMode
를FULL
로 설정하는 것이 좋습니다.gcsSource.dataSchema
가custom
또는csv
로 설정된 경우에만autoGenerateIds
를 지정합니다. 그렇지 않으면INVALID_ARGUMENT
오류가 반환됩니다.autoGenerateIds
를 지정하지 않거나false
로 설정한 경우idField
를 지정해야 합니다. 그렇지 않으면 문서를 가져오지 못합니다.ID_FIELD
: 선택사항입니다. 문서 ID인 필드를 지정합니다. Cloud Storage 소스 문서의 경우idField
는 문서 ID인 JSON 필드의 이름을 지정합니다. 예를 들어{"my_id":"some_uuid"}
가 문서 중 하나에서 문서 ID 필드이면"idField":"my_id"
를 지정합니다. 그러면 이름이"my_id"
인 모든 JSON 필드가 문서 ID로 식별됩니다.이 필드는 (1)
gcsSource.dataSchema
가custom
또는csv
로 설정되었고 (2)auto_generate_ids
가false
로 설정되었거나 지정되지 않은 경우에만 지정합니다. 그렇지 않으면INVALID_ARGUMENT
오류가 반환됩니다.Cloud Storage JSON 필드의 값은 문자열 유형이고 1~63자(영문 기준)여야 하며 RFC-1034를 준수해야 합니다. 그렇지 않으면 문서를 가져오지 못합니다.
id_field
로 지정된 JSON 필드 이름은 문자열 유형이고 1~63자(영문 기준)여야 하고 RFC-1034를 준수해야 합니다. 그렇지 않으면 문서를 가져오지 못합니다.
C#
자세한 내용은 AI 애플리케이션 C# API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
Go
자세한 내용은 AI 애플리케이션 Go API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
Java
자세한 내용은 AI 애플리케이션 Java API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
Node.js
자세한 내용은 AI 애플리케이션 Node.js API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
Python
자세한 내용은 AI 애플리케이션 Python API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
Ruby
자세한 내용은 AI 애플리케이션 Ruby API 참조 문서를 참고하세요.
AI 애플리케이션에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
데이터 스토어 만들기
문서 가져오기
주기적 동기화를 사용하여 Cloud Storage에 연결
데이터를 가져오기 전에 수집할 데이터 준비를 검토하세요.
다음 절차에서는 Cloud Storage 위치를 Vertex AI Search 데이터 커넥터와 연결하는 데이터 커넥터를 만드는 방법과 만들려는 데이터 스토어의 해당 위치에 폴더 또는 파일을 지정하는 방법을 설명합니다. 데이터 커넥터의 하위 요소인 데이터 스토어를 항목 데이터 스토어라고 합니다.
데이터는 주기적으로 항목 데이터 스토어에 동기화됩니다. 매일, 3일마다 또는 5일마다 동기화를 지정할 수 있습니다.
콘솔
Google Cloud 콘솔에서 AI 애플리케이션 페이지로 이동합니다.
데이터 스토어 페이지로 이동합니다.
데이터 저장소 만들기를 클릭합니다.
소스 페이지에서 Cloud Storage를 선택합니다.
가져올 데이터의 유형을 선택합니다.
주기적을 클릭합니다.
Vertex AI Search 커넥터가 Cloud Storage 위치와 동기화할 빈도인 동기화 빈도를 선택합니다. 빈도는 나중에 변경할 수 있습니다.
가져올 폴더 또는 파일 선택 섹션에서 폴더 또는 파일을 선택합니다.
찾아보기를 클릭하고 수집을 위해 준비한 데이터를 선택한 다음 선택을 클릭합니다. 또는
gs://
필드에 위치를 직접 입력해도 됩니다.계속을 클릭합니다.
데이터 커넥터의 리전을 선택합니다.
데이터 커넥터의 이름을 입력합니다.
선택사항: 구조화되지 않은 문서를 선택한 경우 문서의 파싱 및 청크 처리 옵션을 선택할 수 있습니다. 파서를 비교하려면 문서 파싱을 참고하세요. 청크 처리에 관한 자세한 내용은 RAG용 문서 청크 처리를 참고하세요.
OCR 파서와 레이아웃 파서에는 추가 비용이 발생할 수 있습니다. Document AI 기능 가격 책정을 참고하세요.
파서를 선택하려면 문서 처리 옵션을 펼치고 사용할 파서 옵션을 지정합니다.
만들기를 클릭합니다.
데이터를 Cloud Storage 위치와 주기적으로 동기화하는 데이터 커넥터를 만들었습니다.
gcs_store
라는 항목 데이터 스토어도 만들었습니다.수집 상태를 확인하려면 데이터 스토어 페이지로 이동하여 데이터 커넥터 이름을 클릭한 후 데이터 페이지에서 세부정보를 확인합니다.
데이터 수집 활동 탭. 데이터 수집 활동 탭의 상태 열이 진행 중에서 성공으로 변경되면 첫 번째 수집이 완료된 것입니다.
데이터 크기에 따라 수집에 몇 분부터 몇 시간까지 걸릴 수 있습니다.
데이터 소스를 설정하고 데이터를 처음 가져온 후에는 설정 중에 선택한 빈도로 해당 소스의 데이터가 동기화됩니다. 데이터 커넥터가 생성된 후 약 1시간 후에 첫 번째 동기화가 이루어집니다. 이후 다음 동기화가 약 24시간, 72시간 또는 120시간 후에 발생합니다.
다음 단계
데이터 스토어를 앱에 연결하려면 앱을 만들고 일반 추천 앱 만들기의 단계를 따라 데이터 스토어를 선택합니다.
앱과 데이터 스토어를 설정한 후 추천을 미리 보거나 가져오려면 추천 가져오기를 참고하세요.
API를 사용하여 구조화된 JSON 데이터 업로드
API를 사용하여 JSON 문서 또는 객체를 직접 업로드하려면 다음 단계를 수행합니다.
데이터를 가져오기 전에 수집할 데이터 준비를 수행합니다.
REST
명령줄을 사용하여 데이터 스토어를 만들고 구조화된 JSON 데이터를 가져오려면 다음 단계를 수행합니다.
데이터 스토어를 만듭니다.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -H "X-Goog-User-Project: PROJECT_ID" \ "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID" \ -d '{ "displayName": "DATA_STORE_DISPLAY_NAME", "industryVertical": "GENERIC", "solutionTypes": ["SOLUTION_TYPE_RECOMMENDATION"] }'
다음을 바꿉니다.
PROJECT_ID
: Google Cloud 프로젝트의 IDDATA_STORE_ID
: 만들려는 추천 데이터 스토어의 ID입니다. 이 ID는 소문자, 숫자, 밑줄, 하이픈만 포함할 수 있습니다.DATA_STORE_DISPLAY_NAME
: 만들려는 추천 데이터 스토어의 표시 이름입니다.
선택사항: 자체 스키마를 제공합니다. 스키마를 제공하면 일반적으로 더 나은 결과를 얻을 수 있습니다. 자세한 내용은 스키마 제공 또는 자동 감지를 참조하세요.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/schemas/default_schema" \ -d '{ "structSchema": JSON_SCHEMA_OBJECT }'
다음을 바꿉니다.
PROJECT_ID
: Google Cloud 프로젝트의 IDDATA_STORE_ID
: 추천 데이터 스토어의 ID입니다.JSON_SCHEMA_OBJECT
: JSON 객체로 된 JSON 스키마입니다. 예를 들면 다음과 같습니다.{ "$schema": "https://json-schema.org/draft/2020-12/schema", "type": "object", "properties": { "title": { "type": "string", "keyPropertyMapping": "title" }, "categories": { "type": "array", "items": { "type": "string", "keyPropertyMapping": "category" } }, "uri": { "type": "string", "keyPropertyMapping": "uri" } } }
정의된 스키마를 준수하는 구조화된 데이터를 가져옵니다.
데이터를 업로드할 때 사용할 수 있는 몇 가지 방법이 있습니다.
JSON 문서를 업로드합니다.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
JSON_DOCUMENT_STRING
을 단일 문자열 형식으로 지정된 JSON 문서로 바꿉니다. 이전 단계에서 제공한 JSON 스키마를 준수해야 합니다. 예를 들면 다음과 같습니다.```none { \"title\": \"test title\", \"categories\": [\"cat_1\", \"cat_2\"], \"uri\": \"test uri\"} ```
JSON 객체를 업로드합니다.
curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents?documentId=DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
JSON_DOCUMENT_OBJECT
를 JSON 객체 형식으로 지정된 JSON 문서로 바꿉니다. 이전 단계에서 제공한 JSON 스키마를 준수해야 합니다. 예를 들면 다음과 같습니다.```json { "title": "test title", "categories": [ "cat_1", "cat_2" ], "uri": "test uri" } ```
JSON 문서로 업데이트합니다.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "jsonData": "JSON_DOCUMENT_STRING" }'
JSON 객체로 업데이트합니다.
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://discoveryengine.googleapis.com/v1beta/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/branches/0/documents/DOCUMENT_ID" \ -d '{ "structData": JSON_DOCUMENT_OBJECT }'
다음 단계
데이터 스토어를 앱에 연결하려면 앱을 만들고 일반 추천 앱 만들기의 단계를 따라 데이터 스토어를 선택합니다.
앱 및 데이터 스토어를 설정한 후 추천이 표시되는 방식을 미리보려면 추천 가져오기를 참조하세요.
Terraform을 사용하여 데이터 스토어 만들기
Terraform을 사용하여 빈 데이터 스토어를 만들 수 있습니다. 빈 데이터 스토어를 만든 후 Google Cloud 콘솔 또는 API 명령어를 사용하여 데이터 스토어에 데이터를 수집할 수 있습니다.
Terraform 구성을 적용하거나 삭제하는 방법은 기본 Terraform 명령어를 참조하세요.
Terraform을 사용하여 빈 데이터 스토어를 만들려면
google_discovery_engine_data_store
를 참조하세요.