이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Vertex AI RAG 엔진에서 데이터 커넥터 사용
컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

이 페이지에서는 지원되는 데이터 소스의 목록을 제공하고, 데이터 커넥터를 사용하여 Cloud Storage, Google Drive, Slack, Jira, SharePoint와 같은 데이터 소스에 액세스하는 방법과 Vertex AI RAG 엔진에서 이 데이터를 사용하는 방법을 보여줍니다. Rag 파일 가져오기 API는 이러한 데이터 소스에 대한 데이터 커넥터를 제공합니다.

RAG에 지원되는 데이터 소스

다음 데이터 소스가 지원됩니다.

로컬 파일 업로드: 동기 호출인 upload_file(최대 25MB)을 사용한 단일 파일 업로드입니다.
Cloud Storage: Cloud Storage에서 파일을 가져옵니다.
Google Drive: Google Drive에서 디렉터리를 가져옵니다.

서비스 계정에 파일을 가져올 수 있는 올바른 권한을 부여해야 합니다. 그렇지 않으면 파일을 가져오지 않고 오류 메시지가 표시되지 않습니다. 파일 크기 제한에 대한 자세한 내용은 지원되는 문서 유형을 참조하세요.

인증하고 권한을 부여하려면 다음을 수행합니다.
1. Google Cloud 프로젝트의 IAM 페이지로 이동합니다.
2. Google 제공 역할 부여 포함을 선택합니다.
3. Vertex AI RAG 데이터 서비스 에이전트 서비스 계정을 검색합니다.
4. 드라이브 폴더에서 공유를 클릭하고 서비스 계정과 공유합니다.
5. Google Drive 폴더 또는 파일의 서비스 계정에 Viewer 권한을 부여합니다. Google Drive 리소스 ID는 웹 URL에서 확인할 수 있습니다.
Slack: 데이터 커넥터를 사용하여 Slack에서 파일을 가져옵니다.
Jira: 데이터 커넥터를 사용하여 Jira에서 파일을 가져옵니다.

자세한 내용은 RAG API 참조를 확인하세요.

Cloud Storage 또는 Google Drive에서 파일 가져오기

Cloud Storage 또는 Google Drive에서 코퍼스로 파일을 가져오려면 다음을 수행합니다.

RAG 코퍼스 만들기의 안내에 따라 코퍼스를 만듭니다.
템플릿을 사용하여 Cloud Storage 또는 Google Drive에서 파일을 가져옵니다.

시스템은 파일의 경로, 파일 이름, version_id를 자동으로 확인합니다. version_id는 파일 콘텐츠를 사용하여 계산된 파일 해시로, 파일의 색인이 다시 생성되는 것을 방지합니다.
파일 이름과 경로가 동일한 파일의 콘텐츠가 업데이트되면 파일의 색인이 다시 생성됩니다.

Slack에서 파일 가져오기

Slack에서 코퍼스로 파일을 가져오려면 다음을 수행합니다.

검색용으로 데이터를 구조화하고 최적화하는 색인인 코퍼스를 만듭니다. RAG 코퍼스 만들기의 안내를 따릅니다.
Slack 채널 ID에서 CHANNEL_ID를 가져옵니다.
Vertex AI RAG 엔진과 함께 사용할 앱을 만들고 설정합니다.
1. Slack UI의 특성 및 기능 추가 섹션에서 권한을 클릭합니다.
2. 다음 권한을 추가합니다.
  - channels:history
  - groups:history
  - im:history
  - mpim:history
3. 작업공간에 설치를 클릭하여 Slack 작업공간에 앱을 설치합니다.
복사를 클릭하여 ID를 인증하고 API에 대해 액세스 권한을 부여하는 API 토큰을 가져옵니다.
Secret Manager에 API 토큰을 추가합니다.
저장된 보안 비밀을 보려면 프로젝트의 Vertex AI RAG Engine 서비스 계정에 Secret Manager 보안 비밀 접근자 역할을 부여합니다.

다음 curl 및 Python 코드 샘플은 Slack 리소스에서 파일을 가져오는 방법을 보여줍니다.

curl

특정 채널에서 메시지를 가져오려면 CHANNEL_ID를 변경합니다.

API_KEY_SECRET_VERSION=SLACK_API_KEY_SECRET_VERSION
CHANNEL_ID=SLACK_CHANNEL_ID
PROJECT_ID=us-central1

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${ ENDPOINT }/v1beta1/projects/${ PROJECT_ID }/locations/${ PROJECT_ID }/ragCorpora/${ RAG_CORPUS_ID }/ragFiles:import \
-d '{
  "import_rag_files_config": {
    "slack_source": {
      "channels": [
        {
          "apiKeyConfig": {
            "apiKeySecretVersion": "'"${ API_KEY_SECRET_VERSION }"'"
          },
          "channels": [
            {
              "channel_id": "'"${ CHANNEL_ID }"'"
            }
          ]
        }
      ]
    }
  }
}'

Python

지정된 시간 범위에 대해 또는 특정 채널에서 메시지를 가져오려면 다음 필드를 변경합니다.

START_TIME
END_TIME
CHANNEL1 또는 CHANNEL2

    # Slack example
    start_time = protobuf.timestamp_pb2.Timestamp()
    start_time.GetCurrentTime()
    end_time = protobuf.timestamp_pb2.Timestamp()
    end_time.GetCurrentTime()
    source = rag.SlackChannelsSource(
        channels = [
            SlackChannel("CHANNEL1", "api_key1"),
            SlackChannel("CHANNEL2", "api_key2", START_TIME, END_TIME)
        ],
    )

    response = rag.import_files(
        corpus_name="projects/my-project/locations/us-central1/ragCorpora/my-corpus-1",
        source=source,
        chunk_size=512,
        chunk_overlap=100,
    )

Jira에서 파일 가져오기

Jira에서 코퍼스로 파일을 가져오려면 다음을 수행합니다.

검색용으로 데이터를 구조화하고 최적화하는 색인인 코퍼스를 만듭니다. RAG 코퍼스 만들기의 안내를 따릅니다.
API 토큰을 만들려면 Atlassian 사이트에 로그인합니다.
요청에서 SERVER_URI로 {YOUR_ORG_ID}.atlassian.net을 사용합니다.
요청에서 EMAIL로 Atlassian 이메일을 사용합니다.
요청에 projects 또는 customQueries를 제공합니다. 커스텀 쿼리에 대한 자세한 내용은 Jira 쿼리 언어(JQL)에 고급 검색 사용을 참조하세요.
projects를 가져오면 전체 프로젝트를 가져오기 위해 projects가 해당 쿼리로 확장됩니다. 예를 들어 MyProject는 project = MyProject로 확장됩니다.
복사를 클릭하여 ID를 인증하고 API에 대해 액세스 권한을 부여하는 API 토큰을 가져옵니다.
Secret Manager에 API 토큰을 추가합니다.
프로젝트의 Vertex AI RAG Engine 서비스 계정에 Secret Manager 보안 비밀 접근자 역할을 부여합니다.

curl

EMAIL=JIRA_EMAIL
API_KEY_SECRET_VERSION=JIRA_API_KEY_SECRET_VERSION
SERVER_URI=JIRA_SERVER_URI
CUSTOM_QUERY=JIRA_CUSTOM_QUERY
PROJECT_ID=JIRA_PROJECT
REGION= "us-central1"

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${ ENDPOINT }/v1beta1/projects/${ PROJECT_ID }/locations/REGION>/ragCorpora/${ RAG_CORPUS_ID }/ragFiles:import \
-d '{
  "import_rag_files_config": {
    "jiraSource": {
      "jiraQueries": [{
        "projects": ["'"${ PROJECT_ID }"'"],
        "customQueries": ["'"${ CUSTOM_QUERY }"'"],
        "email": "'"${ EMAIL }"'",
        "serverUri": "'"${ SERVER_URI }"'",
        "apiKeyConfig": {
          "apiKeySecretVersion": "'"${ API_KEY_SECRET_VERSION }"'"
        }
      }]
    }
  }
}'

Python

    # Jira Example
    jira_query = rag.JiraQuery(
        email="xxx@yyy.com",
        jira_projects=["project1", "project2"],
        custom_queries=["query1", "query2"],
        api_key="api_key",
        server_uri="server.atlassian.net"
    )
    source = rag.JiraSource(
        queries=[jira_query],
    )

    response = rag.import_files(
        corpus_name="projects/my-project/locations/REGION/ragCorpora/my-corpus-1",
        source=source,
        chunk_size=512,
        chunk_overlap=100,
    )

SharePoint에서 파일 가져오기

SharePoint 사이트에서 코퍼스로 파일을 가져오려면 다음 단계를 따르세요.

검색용으로 데이터를 구조화하고 최적화하는 색인인 코퍼스를 만듭니다. RAG 코퍼스 만들기의 안내를 따릅니다.
SharePoint 사이트에 액세스할 Azure 앱을 만듭니다.
1. 등록을 만들려면 앱 등록으로 이동합니다.
  1. 애플리케이션의 이름을 입력합니다.
  2. 이 조직 디렉터리의 계정만 옵션을 선택합니다.
  3. 리디렉션 URI가 비어 있는지 확인합니다.
2. 개요 섹션에서 애플리케이션 (클라이언트) ID를 CLIENT_ID로 사용하고 '디렉터리 (테넌트) ID'를 TENANT_ID로 사용합니다.
3. 관리 섹션에서 다음을 수행하여 API 권한을 업데이트합니다.
  1. SharePoint Sites.Read.All 권한을 추가합니다.
  2. Microsoft Graph Files.Read.All 및 Browser SiteLists.Read.All 권한을 추가합니다.
  3. 이러한 권한 변경사항이 적용되도록 관리자 동의를 부여합니다.
4. 관리 섹션에서 다음을 수행합니다.
  1. 새 클라이언트 보안 비밀로 인증서 및 보안 비밀을 업데이트합니다.
  2. API_KEY_SECRET_VERSION를 사용하여 Secret Manager에 보안 비밀 값을 추가합니다.
프로젝트의 Vertex AI RAG Engine 서비스 계정에 Secret Manager 보안 비밀 접근자 역할을 부여합니다.
SHAREPOINT_SITE_NAME로 {YOUR_ORG_ID}.sharepoint.com을 사용합니다.
요청에 SharePoint 사이트의 드라이브 이름 또는 드라이브 ID를 지정해야 합니다.
선택사항: 드라이브의 폴더 경로 또는 폴더 ID를 지정할 수 있습니다. 폴더 경로 또는 폴더 ID를 지정하지 않으면 드라이브의 모든 폴더와 파일이 가져옵니다.

curl

CLIENT_ID=SHAREPOINT_CLIENT_ID
API_KEY_SECRET_VERSION=SHAREPOINT_API_KEY_SECRET_VERSION
TENANT_ID=SHAREPOINT_TENANT_ID
SITE_NAME=SHAREPOINT_SITE_NAME
FOLDER_PATH=SHAREPOINT_FOLDER_PATH
DRIVE_NAME=SHAREPOINT_DRIVE_NAME

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${ ENDPOINT }/v1beta1/projects/${ PROJECT_ID }/locations/REGION>/ragCorpora/${ RAG_CORPUS_ID }/ragFiles:import \
-d '{
  "import_rag_files_config": {
    "sharePointSources": {
      "sharePointSource": [{
        "clientId": "'"${ CLIENT_ID }"'",
        "apiKeyConfig": {
          "apiKeySecretVersion": "'"${ API_KEY_SECRET_VERSION }"'"
        },
        "tenantId": "'"${ TENANT_ID }"'",
        "sharepointSiteName": "'"${ SITE_NAME }"'",
        "sharepointFolderPath": "'"${ FOLDER_PATH }"'",
        "driveName": "'"${ DRIVE_NAME }"'"
      }]
    }
  }
}'

Python

    from vertexai.preview import rag
    from vertexai.preview.rag.utils import resources

    CLIENT_ID="SHAREPOINT_CLIENT_ID"
    API_KEY_SECRET_VERSION="SHAREPOINT_API_KEY_SECRET_VERSION"
    TENANT_ID="SHAREPOINT_TENANT_ID"
    SITE_NAME="SHAREPOINT_SITE_NAME"
    FOLDER_PATH="SHAREPOINT_FOLDER_PATH"
    DRIVE_NAME="SHAREPOINT_DRIVE_NAME"

    # SharePoint Example.
    source = resources.SharePointSources(
        share_point_sources=[
            resources.SharePointSource(
                client_id=CLIENT_ID,
                client_secret=API_KEY_SECRET_VERSION,
                tenant_id=TENANT_ID,
                sharepoint_site_name=SITE_NAME,
                folder_path=FOLDER_PATH,
                drive_id=DRIVE_ID,
            )
        ]
    )

    response = rag.import_files(
        corpus_name="projects/my-project/locations/REGION/ragCorpora/my-corpus-1",
        source=source,
        chunk_size=512,
        chunk_overlap=100,
    )

다음 단계

Vertex AI RAG 엔진의 벡터 데이터베이스 선택

Vertex AI RAG 엔진에서 데이터 커넥터 사용 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

RAG에 지원되는 데이터 소스

Cloud Storage 또는 Google Drive에서 파일 가져오기

Slack에서 파일 가져오기

curl

Python

Jira에서 파일 가져오기

curl

Python

SharePoint에서 파일 가져오기

curl

Python

다음 단계

Vertex AI RAG 엔진에서 데이터 커넥터 사용
컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.