이 페이지는 다음과 같은 AI 사용 사례의 호스팅 플랫폼으로 Cloud Run을 사용하는 몇 가지 사용 사례를 강조합니다.
Cloud Run에서 AI 애플리케이션 호스팅
AI 애플리케이션은 AI 모델을 사용하여 특정 작업을 실행하거나 수행합니다. 예를 들어 AI 애플리케이션은 AI 모델을 사용하여 문서를 요약하거나 벡터 데이터베이스를 사용하여 더 많은 컨텍스트를 가져오는 채팅 인터페이스일 수 있습니다.
Cloud Run은 AI 애플리케이션 워크로드에 완전 관리형 환경을 제공하는 애플리케이션 호스팅 인프라 중 하나입니다.
Cloud Run은 Gemini API, Vertex AI 엔드포인트 또는 GPU 지원 Cloud Run 서비스에서 호스팅되는 모델과 같은 AI 모델과 통합됩니다.
Cloud Run은 검색 증강 생성(RAG)을 위한 pgvector
확장 프로그램을 제공하는 두 데이터베이스인 PostgreSQL용 Cloud SQL 및 PostgreSQL용 AlloyDB와도 통합됩니다.
Cloud Run에서 AI 에이전트 호스팅
AI 에이전트는 고급 AI 모델의 인텔리전스와 도구 액세스를 결합하여 사용자를 대신해 사용자의 제어 하에 작업을 수행합니다.
비동기 작업 집합을 조정하고 여러 요청-응답 상호작용을 통해 사용자에게 정보를 제공하기 위해 AI 에이전트를 Cloud Run 서비스로 구현할 수 있습니다.
Cloud Run 기반 AI 에이전트 아키텍처
Cloud Run에 배포된 일반적인 AI 에이전트 아키텍처에는 Google Cloud 및 Google Cloud외부의 여러 구성요소가 포함될 수 있습니다.
서빙 및 조정: Cloud Run 서비스는 확장 가능한 API 엔드포인트 역할을 하며 인스턴스의 자동, 주문형, 신속한 확장을 통해 여러 동시 사용자를 처리할 수 있습니다. 이 서비스는 LangGraph 또는 에이전트 개발 키트(ADK)와 같은 AI 조정 프레임워크를 사용하여 핵심 에이전트 로직을 실행합니다. 이 레이어는 다른 구성요소에 대한 호출을 조정합니다. Cloud Run은 WebSockets를 사용하여 사용자에게 다시 HTTP 응답 스트리밍을 지원합니다. Cloud Run의 기본 제공 서비스 ID는 API 키를 관리하지 않고도 Google Cloud API를 호출할 수 있는 안전한 자동 사용자 인증 정보를 제공합니다.
AI 모델: 조정 레이어는 추론 기능을 위해 모델을 호출합니다. 여기에는 다음이 포함됩니다.
- Gemini API
- Vertex AI 엔드포인트에 배포된 커스텀 모델 또는 기타 파운데이션 모델
- 별도의 GPU 지원 Cloud Run 서비스에서 서빙되는 자체 미세 조정 모델
메모리: 에이전트는 컨텍스트를 유지하고 과거 상호작용에서 학습하기 위해 메모리가 필요한 경우가 많습니다.
- 단기 기억은 Cloud Run을 Memorystore for Redis에 연결하여 구현할 수 있습니다.
- 대화 기록을 저장하거나 사용자의 환경설정을 기억하는 장기 기억은 Cloud Run을 확장 가능한 서버리스 NoSQL 데이터베이스인 Firestore에 연결하여 구현할 수 있습니다.
데이터베이스 및 검색: 검색 증강 생성(RAG) 또는 구조화된 데이터 가져오기:
pgvector
확장 프로그램이 있는 PostgreSQL용 Cloud SQL 또는 PostgreSQL용 AlloyDB와 같은 벡터 데이터베이스에 Cloud Run을 연결하여 특정 항목 정보를 쿼리하거나 임베딩에 대한 유사성 검색을 실행합니다.
도구: 조정자는 모델에 적합하지 않은 특정 작업을 수행하거나 외부 서비스, API 또는 웹사이트와 상호작용하기 위해 도구를 사용합니다. 여기에는 다음이 포함될 수 있습니다.
- 기본 유틸리티: 정확한 수학 계산, 시간 변환 또는 기타 유사한 유틸리티는 조정 Cloud Run 서비스에서 실행할 수 있습니다.
- API 호출: 다른 내부 또는 서드 파티 API를 호출합니다(읽기 또는 쓰기 액세스).
- 이미지 또는 차트 생성: 이미지 생성 모델을 사용하거나 차트 라이브러리를 실행하여 시각적 콘텐츠를 빠르고 효과적으로 만듭니다.
- 브라우저 및 OS 자동화: 컨테이너 인스턴스 내에서 헤드리스 또는 전체 그래픽 운영체제를 실행하여 에이전트가 웹을 탐색하고, 웹사이트에서 정보를 추출하거나, 클릭 및 키보드 입력을 사용하여 작업을 실행할 수 있습니다. Cloud Run 서비스는 화면의 픽셀을 반환합니다. Puppeteer와 같은 라이브러리를 사용하여 브라우저를 제어합니다.
- 코드 실행: Cloud Run은 다중 레이어 샌드박스가 있는 보안 환경을 제공하며 IAM 권한이 없거나 최소한의 권한으로 코드 실행 서비스에 구성할 수 있습니다. Cloud Run 작업은 코드를 비동기적으로 실행하는 데 사용할 수 있으며 동시 실행 수 1의 Cloud Run 서비스는 동기 실행에 사용할 수 있습니다.
다음 단계
- Cloud Run에서 AI 에이전트 빌드 시청하기
- codelab을 통해 LangChain 앱을 빌드하고 Cloud Run에 배포하는 방법 알아보기
- 에이전트 개발 키트(ADK)를 Cloud Run에 배포하는 방법 알아보기
- Cloud Run에서 Model Context Protocol(MCP) 서버 호스팅