애플리케이션 템플릿 맞춤설정

애플리케이션 개발에서는 애플리케이션 개발을 위해 사전 빌드된 템플릿(예: reasoning_engines.LangchainAgent)을 사용했습니다. 이 섹션에서는 자체 애플리케이션 템플릿을 맞춤설정하는 단계를 살펴봅니다. 사전 빌드된 템플릿이 제공하는 것 이상의 요구사항이 있는 경우에 유용할 수 있습니다.

추론 엔진의 애플리케이션 템플릿은 Python 클래스로 정의됩니다. 예를 들어 다음 Python 코드는 Vertex AI에 배포할 수 있는 LangChain 애플리케이션의 예시입니다. CLASS_NAME 변수에 MyAgent와 같은 값을 지정할 수 있습니다.

from typing import Any, Callable, Iterable, Sequence

class CLASS_NAME:
    def __init__(
            self,
            model: str,
            tools: Sequence[Callable],
            project: str,
            location: str,
        ):
        self.model_name = model
        self.tools = tools
        self.project = project
        self.location = location

    def set_up(self):
        """All unpickle-able logic should go here.

        The .set_up() method should not be called for an object that is being
        prepared for deployment.
        """
        import vertexai
        from langchain_google_vertexai import ChatVertexAI
        from langchain.agents import AgentExecutor
        from langchain.agents.format_scratchpad.tools import format_to_tool_messages
        from langchain.agents.output_parsers.tools import ToolsAgentOutputParser
        from langchain.tools.base import StructuredTool
        from langchain_core import prompts

        vertexai.init(project=self.project, location=self.location)

        prompt = {
            "input": lambda x: x["input"],
            "agent_scratchpad": (
                lambda x: format_to_tool_messages(x["intermediate_steps"])
            ),
        } | prompts.ChatPromptTemplate.from_messages([
            ("user", "{input}"),
            prompts.MessagesPlaceholder(variable_name="agent_scratchpad"),
        ])

        llm = ChatVertexAI(model_name=self.model_name)
        if self.tools:
            llm = llm.bind_tools(tools=self.tools)

        self.agent_executor = AgentExecutor(
            agent=prompt | llm | ToolsAgentOutputParser(),
            tools=[StructuredTool.from_function(tool) for tool in self.tools],
        )

    def query(self, input: str):
        """Query the application.

        Args:
            input: The user prompt.

        Returns:
            The output of querying the application with the given input.
        """
        return self.agent_executor.invoke(input={"input": input})

    def stream_query(self, input: str) -> Iterable[Any]:
        """Query the application and stream the output.

        Args:
            input: The user prompt.

        Yields:
            Chunks of the response as they become available.
        """
        for chunk in self.agent_executor.stream(input={"input": input}):
            yield chunk

Python 클래스를 작성할 때는 다음 세 가지 메서드가 추론 엔진에 중요합니다.

  1. __init__():
    • 애플리케이션 구성 매개변수에만 이 메서드를 사용하세요. 예를 들어 이 메서드를 사용하여 모델 매개변수와 안전 속성을 사용자의 입력 인수로 수집할 수 있습니다. 이 메서드를 사용하여 프로젝트 ID, 리전, 애플리케이션 사용자 인증 정보, API 키와 같은 매개변수를 수집할 수도 있습니다.
    • 생성자는 추론 엔진에 배포할 수 있도록 '피클링 가능한' 객체를 반환합니다. 따라서 서비스 클라이언트를 초기화하고 데이터베이스 연결을 설정할 때 __init__ 메서드 대신 .set_up 메서드를 사용해야 합니다.
    • 이 메서드는 선택사항입니다. 지정하지 않으면 Vertex AI에서 클래스에 기본 Python 생성자를 사용합니다.
  2. set_up():
    • 애플리케이션 초기화 논리를 정의하려면 이 메서드를 사용해야 합니다. 예를 들어 이 메서드를 사용하여 데이터베이스나 종속 서비스에 대한 연결을 설정하거나 종속 패키지를 가져오거나 쿼리를 처리하는 데 사용되는 데이터를 미리 계산할 수 있습니다.
    • 이 메서드는 선택사항입니다. 지정하지 않으면 Vertex AI는 사용자 쿼리를 처리하기 전에 애플리케이션에서 .set_up 메서드를 호출할 필요가 없다고 가정합니다.
  3. query()/stream_query():
    • query()를 사용하여 전체 응답을 단일 결과로 반환합니다.
    • stream_query()를 사용하여 사용 가능해질 때마다 응답을 청크로 반환하여 스트리밍 환경을 지원합니다. 스트리밍을 사용 설정하려면 stream_query 메서드가 반복 가능한 객체 (예: 생성자)를 반환해야 합니다.
    • 애플리케이션과의 단일 응답 및 스트리밍 상호작용을 모두 지원하려면 두 메서드를 모두 구현할 수 있습니다.
    • 이 메서드에는 기능을 정의하고 속성을 문서화하고 입력에 대한 유형 주석을 제공하는 명확한 docstring을 제공해야 합니다. querystream_query 메서드에서 변수 인수를 사용하지 마세요.

로컬로 애플리케이션 테스트

다음 코드를 사용하여 로컬 메모리에서 애플리케이션을 인스턴스화합니다.

agent = CLASS_NAME(
    model=model,  # Required.
    tools=[get_exchange_rate],  # Optional.
    project=PROJECT_ID,
    location=LOCATION,
)
agent.set_up()

query 메서드 테스트

테스트 쿼리를 로컬 인스턴스에 전송하여 애플리케이션을 테스트할 수 있습니다.

response = agent.query(
    input="What is the exchange rate from US dollars to Swedish currency?"
)

응답은 다음과 유사한 딕셔너리입니다.

{"input": "What is the exchange rate from US dollars to Swedish currency?",
 # ...
 "output": "For 1 US dollar you will get 10.7345 Swedish Krona."}

stream_query 메서드 테스트

stream_query 메서드를 호출하고 결과를 반복하여 스트리밍 쿼리를 로컬에서 테스트할 수 있습니다. 예를 들면 다음과 같습니다.

import pprint

for chunk in agent.stream_query(
    input="What is the exchange rate from US dollars to Swedish currency?"
):
    # Use pprint with depth=1 for a more concise, high-level view of the
    # streamed output.
    # To see the full content of the chunk, use:
    # print(chunk)
    pprint.pprint(chunk, depth=1)

이 코드는 응답의 각 청크가 생성될 때마다 인쇄합니다. 출력은 다음과 같이 표시될 수 있습니다.

{'actions': [...], 'messages': [...]}
{'messages': [...], 'steps': [...]}
{'messages': [...],
 'output': 'The exchange rate from US dollars to Swedish currency is 1 USD to '
           '10.5751 SEK. \n'}

이 예에서 각 청크에는 상담사가 취한 조치, 교환된 메시지, 최종 출력과 같은 응답에 관한 다양한 정보가 포함됩니다.

스트리밍 API

다음은 스트리밍 API를 사용할 때 유의해야 할 몇 가지 주요 사항입니다.

  • 최대 제한 시간: 스트리밍 응답의 최대 제한 시간은 10분입니다. 애플리케이션에 더 긴 처리 시간이 필요한 경우 작업을 더 작은 청크로 분할하는 것이 좋습니다.
  • 모델 및 체인 스트리밍: LangChain의 Runnable 인터페이스는 스트리밍을 지원하므로 상담사뿐만 아니라 모델 및 체인의 응답을 스트리밍할 수 있습니다.
  • LangChain 호환성: LangChain의 astream_event 메서드는 지원되지 않습니다.
  • 콘텐츠 생성 제한: 백프레셔 문제 (생산자가 소비자가 처리할 수 있는 것보다 더 빠르게 데이터를 생성하는 경우)가 발생하면 콘텐츠 생성 속도를 제한합니다. 이렇게 하면 버퍼 오버플로를 방지하고 원활한 스트리밍 환경을 보장할 수 있습니다.

메서드 이름 맞춤설정

기본적으로 querystream_query 메서드는 배포된 애플리케이션에서 작업으로 등록됩니다. register_operations 메서드를 사용하여 기본 동작을 재정의하고 등록할 작업 집합을 정의할 수 있습니다. 작업은 표준 (빈 문자열 ""로 표시됨) 또는 스트리밍 ("stream") 호출 모드로 등록할 수 있습니다.

다음 코드 예에서 register_operations 메서드를 사용하면 배포된 애플리케이션이 custom_method_1custom_method_2를 표준 호출의 작업으로, custom_stream_method_1custom_stream_method_2를 스트리밍 호출의 작업으로 제공합니다. 이러한 작업은 기본 querystream_query 작업을 대체합니다.

from typing import Dict, List, Any, Iterable

class CLASS_NAME:
    # ... other methods ...

    def custom_method_1(...):
        # ...

    def custom_method_2(...):
        # ...

    def custom_stream_method_1(...) -> Iterable[Any]:
        # ...

    def custom_stream_method_2(...) -> Iterable[Any]:
        # ...

    def register_operations(self) -> Dict[str, List[str]]:
        return {
            "": [
                "custom_method_1", "custom_method_2",
            ],
            "stream": [
                "custom_stream_method_1", "custom_stream_method_2",
            ],
        }

다음과 같이 인스턴스에 테스트 쿼리를 전송하여 애플리케이션을 테스트할 수 있습니다.

response = agent.custom_method_1(
    input="What is the exchange rate from US dollars to Swedish currency?"
)

for chunk in agent.custom_stream_method_1(
    input="What is the exchange rate from US dollars to Swedish currency?"
):
    # Use pprint with depth=1 for a more concise, high-level view of the
    # streamed output.
    # To see the full content of the chunk, use:
    # print(chunk)
    pprint.pprint(chunk, depth=1)

두 호출 유형 모두에 메서드를 등록할 필요는 없습니다. 예를 들어 표준 호출만 지원하려면 다음을 실행하면 됩니다.

from typing import Dict, List, Any

class CLASS_NAME:
    # ... other methods ...

    def custom_method_1(...):
        # ...

    def custom_method_2(...):
        # ...

    def custom_stream_method_1(...) -> Iterable[Any]:
        # ...

    def custom_stream_method_2(...) -> Iterable[Any]:
        # ...

    def register_operations(self) -> Dict[str, List[str]]:
        return {
            # The list of synchronous methods to be registered as operations.
            "": [
                "custom_method_1", "custom_method_2",
            ],
        }

이 예에서는 custom_method_1custom_method_2만 배포된 애플리케이션에서 작업으로 노출됩니다.

다음 단계