양식 파서로 문서 처리

양식 파서는 키-값 쌍 (KVP), 표, 선택 표시 (예: 체크박스), 일반 필드, 텍스트를 추출하여 문서 처리를 보강하고 자동화합니다.

사용 사례에 다음이 포함되는 경우 다른 파서보다 Form Parser를 고려할 수 있습니다.

  • 구조화된 양식 처리: 라벨이 지정된 빈칸을 채우는 기존 양식과 유사한 잘 정의된 양식(예: name: __)에서 KVP를 추출하는 데 탁월합니다. 양식 파서의 사전 학습된 모델은 이름, 날짜, 주소와 같은 일반적인 필드에 대해 높은 정확도를 제공합니다.
  • 유연한 표 추출이 필요함: 양식 파서는 표처럼 보이는 간단한(행이나 열에 걸쳐 있는 셀이 없는) 표에서 추출합니다. 학습이 필요하지도 않고 가능하지도 않습니다. 학습된 표 추출의 경우 맞춤 추출기를 열 (셀) 하위 필드가 포함된 상위 필드와 함께 사용할 수 있습니다.
  • 효율성 필요: 특히 대량의 다양한 추출 작업 양식의 경우 추출 파서를 빌드하고 유지관리하지 마세요.

데이터 추출 기능

양식 파서 기능에는 다음이 포함됩니다.

  • KVP: 문서 내 두 항목의 집합입니다. 라벨 또는 키와 해당 데이터 (값)가 있습니다. 키가 일관된 경우 KVP를 직접 사용하거나 다양한 키를 일관된 구조화된 정보로 변환하는 맞춤 로직을 빌드할 수 있습니다.

  • 일반 항목: 기본적으로 문서에서 11개의 다양한 필드를 파싱합니다. 예를 들면 다음과 같습니다.

    • email
    • phone
    • url
    • date_time
    • address
    • person
    • organization
    • quantity
    • price
    • id
    • page_number
  • 텍스트 및 레이아웃: 최신 OCR 엔진을 사용하여 텍스트 및 레이아웃 정보를 추출합니다. 여기에는 디지털 PDF의 삽입된 텍스트 (v2.1만 해당) 또는 이미지의 텍스트가 포함됩니다.

  • 표: 이미지와 PDF에서 표를 감지하고 추출합니다.

  • 체크박스: 체크박스에 가장 가까운 텍스트를 사용하여 이미지를 비롯한 PDF 출력에서 체크박스를 KVP로 추출하는 고품질 선택 표시 감지기입니다. valueType는 체크박스가 채워져 있는지 여부를 나타냅니다.

언어 및 지역

모델 버전

다음 프로세서 버전은 이 기능과 호환됩니다. 자세한 내용은 프로세서 버전 관리를 참고하세요.

제한사항

  • TIFF의 이전 JPEG 압축은 지원되지 않습니다. TIFF 버전 6.0 사양에 정의된 JPEG 캡슐화 유형입니다.

  • 체크박스 모델은 라디오 버튼 파싱을 지원하지 않습니다. 감지된 일부 체크박스에 해당하는 키가 없을 수 있습니다.

  • 모델이 빈 양식과 같이 값이 입력되지 않은 KVP를 안정적으로 파싱하지 않습니다.

  • 특정 언어로 된 문서의 KVP 파싱 품질이 라틴어보다 낮을 수 있습니다.

양식 파서로 문서 처리

이 빠른 시작에서는 Document AI의 양식 파서 기능을 소개합니다. 이 빠른 시작에서는 Google Cloud 콘솔을 사용하여 Google Cloud 프로젝트와 승인을 설정하고 양식 파서를 만든 후 Document AI에 PDF 양식을 처리하도록 요청합니다.

학습 내용:

  1. Google Cloud 프로젝트에서 Document AI 사용 설정

  2. 다양한 유형의 문서에서 텍스트, 키-값 쌍, 테이블, 일반 항목을 식별하고 추출할 수 있는 양식 파서 프로세서 만들기

  3. 프로세서를 사용하여 샘플 문서에 주석 추가하기


Google Cloud 콘솔에서 이 태스크에 대한 단계별 안내를 직접 수행하려면 둘러보기를 클릭합니다.

둘러보기


  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Document AI API.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Document AI API.

    Enable the API

  8. 양식 파서 프로세서 만들기

    Google Cloud 콘솔을 사용하여 양식 파서 프로세서를 만듭니다. 자세한 내용은 프로세서 생성 및 관리를 참조하세요.

    1. Google Cloud 콘솔 탐색 메뉴에서 Document AI를 클릭하고 프로세서 갤러리를 선택합니다.

      프로세서 갤러리

    2. 프로세서 갤러리에서 양식 파서검색하고 만들기를 선택합니다.

      UI의 양식 파서 옵션

    3. 측면 창에 프로세서 이름(예: quickstart-form-processor)을 입력합니다.

    4. 가장 가까운 리전을 선택합니다.

    5. 만들기 버튼을 클릭합니다.

    새 양식 파서 프로세서의 프로세서 세부정보 페이지로 이동합니다.

    프로세서 테스트

    프로세서를 만든 후 프로세서에 주석 요청을 보낼 수 있습니다.

    1. 샘플 문서 다운로드

      수기로 작성된 샘플 의료 접수 양식이 포함된 PDF 파일입니다. 이 문서는 공개적으로 액세스 가능한 Cloud Storage 버킷에 저장됩니다.

    2. 테스트 문서 업로드 버튼을 클릭하고 방금 다운로드한 문서를 선택합니다.

    3. 이제 인보이스 파서 분석 페이지가 표시됩니다. 문서에서 추출된 OCR로 감지된 텍스트, 키-값 쌍, 표, 일반 항목을 볼 수 있습니다.

      UI의 샘플 양식 키-값 쌍 UI의 샘플 양식 일반 항목

    삭제

    불필요한 Google Cloud 요금이 청구되지 않도록 하려면Google Cloud console 을 사용하여 필요하지 않은 프로세서와 프로젝트를 삭제합니다.

    다음 단계