利用生成式 AI 进行利用率管理

Last reviewed 2024-08-19 UTC

本文档介绍了一种参考架构,可供健康保险公司使用 Google Cloud自动处理事先授权 (PA) 请求并改进其利用率审查 (UR) 流程。它面向这些组织中的软件开发者和计划管理员。此架构有助于健康保险提供商通过自动执行数据注入和从临床表单中提取数据洞见来减少管理开销、提高效率并增强决策能力。此外,他们还可以使用 AI 模型来生成提示和推荐内容。

架构

下图描述了一种架构和方法,用于自动执行数据注入工作流并优化利用率管理 (UM) 审核流程。此方法使用 Google Cloud中的数据和 AI 服务。

数据注入和 UM 审核流程的简要概览。

上述架构包含两个数据流,由以下子系统提供支持:

  • 索赔数据激活器 (CDA),用于从表单和文档等非结构化来源提取数据,并以结构化、机器可读的格式将其提取到数据库中。CDA 实现了数据流,用于接收 PA 请求表单。
  • 利用率审核服务(UR 服务),该服务可集成 PA 请求数据、政策文档和其他护理指南,以生成建议。UR 服务使用生成式 AI 实现了审核 PA 请求的数据流。

以下部分介绍了这些数据流。

CDA 数据流

下图展示了使用 CDA 注入 PA 请求表单的数据流。

PA 客户服务人员的数据流。

如上图所示,PA 案例管理器与系统组件交互,以接收、验证和处理 PA 请求。PA 支持服务人员是业务运营团队的成员,负责接收 PA 请求。事件流程如下:

  1. 居家护理服务案例经理从医疗服务提供方接收居家护理服务申请表单 (pa_forms),并将其上传到 pa_forms_bkt Cloud Storage 存储桶。
  2. ingestion_service 服务会监听 pa_forms_bkt 存储桶的更改。ingestion_service 服务从 pa_forms_bkt 存储桶中提取 pa_forms 表单。该服务会识别预配置的 Document AI 处理器,这些处理器称为 form_processors。这些处理器旨在处理 pa_forms 表单。ingestion_service 服务使用 form_processors 处理器从表单中提取信息。从表单中提取的数据采用 JSON 格式。
  3. ingestion_service 服务会将提取的信息连同字段级置信度得分写入 Firestore 数据库集合(称为 pa_form_collection)。
  4. hitl_app 应用从 pa_form_collection 数据库中提取具有置信度得分的信息 (JSON)。该应用会根据 form_processors 机器学习 (ML) 模型在输出中提供的字段级置信度得分来计算文档级置信度得分。
  5. hitl_app 应用会向 PA 支持人员显示提取的信息以及字段级和文档级置信度得分,以便他们查看并更正提取的值(如果提取的值不准确)。PA 客户服务人员可以更新错误的值,并将文档保存在 pa_form_collection 数据库中。

UR 服务数据流

下图显示了 UR 服务的数据流。

UR 专家数据流。

如上图所示,UR 专家与系统组件互动,对 PA 请求进行临床审核。UR 专员通常是具有特定临床领域经验的护士或医生,受聘于健康保险公司。本部分介绍的工作流程不包含 PA 请求的客服请求管理和路由工作流程。

事件流程如下:

  1. ur_app 应用会向 UR 专家显示 PA 请求及其审核状态的列表。状态显示为 in_queuein_progresscompleted
  2. 该列表是通过从 pa_form_collection 数据库中提取 pa_form information 数据来创建的。UR 专家通过点击 ur_app 应用中显示的列表中的某个项目来打开请求。
  3. ur_app 应用将 pa_form information 数据提交给 prompt_model 模型。它使用 Vertex AI Gemini API 生成类似于以下内容的提示:

    Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.
    

  4. ur_app 应用会向 UR 专家显示生成的提示,以供他们审核和提供反馈。UR 专家可以在界面中更新提示,并将其发送给应用。

  5. ur_app 应用向 ur_model 模型发送提示,请求生成推荐内容。模型生成回答并返回给应用。该应用会向 UR 专家显示推荐的结果。

  6. UR 专家可以使用 ur_search_app 应用搜索 clinical documentscare guidelinesplan policy documentsclinical documentscare guidelinesplan policy documents 已预先建立索引,可供 ur_search_app 应用访问。

组件

该架构包含以下组成部分:

  • Cloud Storage 存储桶。UM 应用服务需要在您的项目中使用以下 Cloud Storage 存储桶: Google Cloud

    • pa_forms_bkt:用于提取需要审批的 PA 表单的存储桶。
    • training_forms:用于存储历史 PA 表单以训练 DocAI 表单处理器的存储桶。
    • eval_forms:用于存储 PA 表单以评估 DocAI 表单处理器准确性的存储桶。
    • tuning_dataset:存储用于调整大型语言模型 (LLM) 所需数据的存储桶。
    • eval_dataset:存储评估 LLM 所需数据的存储桶。
    • clinical_docs:存储提供方作为 PA 表单附件或之后提交的临床文件以支持 PA 案件的存储桶。这些文档会由 AI Applications 服务中的搜索应用编入索引。
    • um_policies:存储医疗必要性和护理指南、健康保险方案政策文档和保险范围指南的存储桶。这些文档会由 AI Applications 服务中的搜索应用编入索引。
  • form_processors:这些处理器经过训练,可从 pa_forms 表单中提取信息。

  • pa_form_collection:一个 Firestore 数据存储区,用于将提取的信息作为 JSON 文档存储在 NoSQL 数据库集合中。

  • ingestion_service:从存储桶中读取文档的微服务,将文档传递给 DocAI 端点进行解析,并将提取的数据存储在 Firestore 数据库集合中。

  • hitl_app:一种微服务(Web 应用),用于提取和显示从 pa_forms 中提取的数据值。它还会将表单处理器(机器学习模型)报告的置信度分数呈现给 PA 案件经理,以便他们查看、更正并将信息保存到数据存储区中。

  • ur_app:一种微服务(Web 应用),UR 专家可以使用它通过生成式 AI 审核 PA 请求。它使用名为 prompt_model 的模型来生成提示。微服务将从 pa_forms 表单中提取的数据传递给 prompt_model 模型,以生成提示。然后,它会将生成的提示传递给 ur_model 模型,以获取支持请求的建议。

  • Vertex AI 经过医学调优的 LLM:Vertex AI 具有各种生成式 AI 基础模型,这些模型经过调优可降低成本和延迟时间。此架构中使用的模型如下:

    • prompt_model:LLM 上经过调优的适配器,用于根据从 pa_forms 中提取的数据生成提示。
    • ur_model:LLM 上的一个适配器,经过调整可根据输入提示生成推荐草稿。
  • ur_search_app:一款利用 AI 应用构建的搜索应用,可从临床文档、UM 政策和保险范围指南中查找与 UR 专家相关的个性化信息。

使用的产品

此参考架构使用以下 Google Cloud 产品:

  • Vertex AI:一个机器学习平台,用于训练和部署机器学习模型和 AI 应用以及自定义 LLM,以在依托 AI 技术的应用中使用。
  • AI 应用:一个平台,可让开发者创建和部署企业级 AI 赋能的代理和应用。
  • Document AI:一个文档处理平台,可从文档中获取非结构化数据并将其转换为结构化数据。
  • Firestore:一个 NoSQL 文档数据库,能够自动扩缩、具备出色的性能,并且易于进行应用开发。
  • Cloud Run:一个无服务器计算平台,可让您直接在 Google 可伸缩的基础设施之上运行容器。
  • Cloud Storage:适用于各种数据类型的费用低廉且不受限制的对象存储。数据可从 Google Cloud内部和外部访问,并且跨位置进行复制以实现冗余。
  • Cloud Logging:具有存储、搜索、分析和提醒功能的实时日志管理系统。
  • Cloud Monitoring:可帮助您了解您的应用和基础设施的性能、可用性和健康状况的服务。

使用场景

UM 是健康保险公司(主要在美国)使用的一种流程,但类似流程(稍作修改)已在全球医疗保险市场中使用。UM 的目标是帮助确保患者在适当的时间以尽可能低的成本在正确的环境中获得适当的护理。UM 还有助于确保医疗护理有效、高效,并符合循证护理标准。PA 是一种 UM 工具,需要获得保险公司的批准后,患者才能接受医疗护理。

许多公司使用的 UM 流程会阻碍及时提供和接收护理服务。这种方法成本高昂、耗时且过于繁琐。 而且这种方法复杂、手动且缓慢。此流程会显著影响健康保险计划有效管理护理质量的能力,并改善提供方和会员的体验。不过,如果这些公司修改其 UM 流程,则有助于确保患者获得高质量、经济实惠的治疗。 通过优化 UR 流程,健康保险计划可以加快 PA 请求的处理速度,从而降低成本和拒绝率,进而改善患者和提供方的体验。这种方法有助于减轻医疗服务提供方的管理负担。

当健康保险计划收到 PA 申请时,PA 案例经理会在案例管理系统中创建案例,以跟踪、管理和处理申请。其中很大一部分请求是通过传真和信件提交的,并附有临床文件。不过,健康保险公司很难访问这些表单和文档中的信息,以进行数据分析和商业智能。目前,将这些文件中的信息手动输入到支持服务请求管理系统中的流程效率低下、耗时,并且可能会导致错误。

通过自动化数据注入流程,健康保险计划可以降低成本、减少数据输入错误,并减轻员工的行政负担。从临床表单和文档中提取有价值的信息,有助于健康保险公司加快 UR 流程。

设计考虑事项

本部分提供的指导可帮助您使用此参考架构开发一个或多个架构,以满足您在安全性、可靠性、运营效率、费用和性能方面的特定要求。

安全性、隐私权和合规性

本部分介绍在使用此参考架构在Google Cloud 中设计和构建有助于满足安全性、隐私权和合规性要求的架构时应考虑的因素。

在美国,《健康保险流通与责任法案》(修订版,简称 HIPAA,包括依据《卫生信息技术促进经济和临床健康 [HITECH] 法案》修订的内容)要求遵守 HIPAA 的安全规则隐私规则违规通知规则Google Cloud 提供 HIPAA 合规性支持,但您最终需要负责评估自身的 HIPAA 合规性。 遵守 HIPAA 是您与 Google 共同承担的责任。如果您的组织需要遵从 HIPAA,并且您希望将任何 Google Cloud产品用于受保护健康信息 (PHI),那么您必须查看并接受 Google 的《业务伙伴协议》(BAA)。需要遵守 BAA 的 Google 产品符合 HIPAA 的要求,且具有我们的 ISO/IEC 27001、27017 和 27018 证书以及 SOC 2 报告

Vertex AI Model Garden 中托管的并非所有 LLM 都支持 HIPAA。评估和使用支持 HIPAA 的 LLM。

如需评估 Google 产品如何满足您的 HIPAA 法规遵从需求,您可以参考合规性资源中心中的第三方审核报告。

我们建议客户在选择 AI 用例时考虑以下因素,并在设计时考虑到这些因素:

Google 的产品遵循 Responsible AI 原则

如需了解专门针对 AI 和机器学习工作负载的安全原则和建议,请参阅 Well-Architected Framework 中的 AI 和机器学习视角:安全性

可靠性

本部分介绍在构建和运营可靠的基础设施以自动处理 PA 请求时应考虑的设计因素。

Document AI form_processors 是一种区域级服务。数据跨一个区域内的多个可用区同步存储。流量在可用区之间自动进行负载均衡。如果发生可用区服务中断,数据不会丢失1。如果发生区域服务中断,则除非 Google 解决服务中断问题,否则该服务将无法使用。

您可以使用 pa_forms_bkttraining_formseval_formstuning_dataseteval_datasetclinical_docsum_policies 存储桶,在以下三种位置之一创建 Cloud Storage 存储桶:单区域、双区域或多区域。存储在区域级存储桶中的数据会跨一个区域内的多个可用区同步复制。为了获得更高的可用性,您可以使用双区域或多区域存储桶,其中数据会跨区域异步复制。

Firestore 中,从 pa_form_collection 数据库提取的信息可以分布在多个数据中心,从而有助于确保全球可伸缩性和可靠性。

Cloud Run 服务 ingestion_servicehitl_appur_app 均为区域级服务。数据跨一个区域内的多个可用区同步存储。流量在可用区之间自动进行负载均衡。如果可用区服务中断,Cloud Run 作业将继续运行,并且数据不会丢失。如果区域服务中断,Cloud Run 作业将停止运行,直到 Google 解决服务中断问题。 个别 Cloud Run 作业或任务可能会失败。如需处理此类失败,您可以使用任务重试和检查点。如需了解详情,请参阅作业重试和检查点最佳做法Cloud Run 常规开发技巧介绍了使用 Cloud Run 的一些最佳实践。

Vertex AI 是一个全面且易于使用的机器学习平台,可为机器学习生命周期提供统一的环境,从数据准备到模型部署和监控。

如需了解针对 AI 和机器学习工作负载的可靠性原则和建议,请参阅 Well-Architected Framework 中的 AI 和机器学习视角:可靠性

费用优化

本部分提供指导,以优化创建和运行架构的费用,从而自动化处理 PA 请求并改进 UR 流程。仔细管理资源用量并选择合适的服务层级可以显著影响总体费用。

Cloud Storage 存储类别:根据数据访问频率使用不同的存储类别(Standard、Nearline、Coldline 或 Archive)。对于访问频率较低的数据,Nearline、Coldline 和 Archive 具有更高的成本效益。

Cloud Storage 生命周期政策:实施生命周期政策,根据对象的存储时间和访问模式,自动将对象转换为费用较低的存储类别或删除对象。

Document AI 的价格取决于部署的处理器的数量以及 Document AI 处理器处理的页面数量。请考虑以下事项:

  • 处理器优化:分析工作负载模式,以确定要部署的最佳 Document AI 处理器数量。避免过度配置资源。
  • 页面数量管理:预处理文档以移除不必要的页面或优化分辨率有助于降低处理费用。

Firestore 的价格基于与文档、索引条目、数据库使用的存储空间以及网络带宽量相关的活动。请考虑以下事项:

  • 数据建模:设计数据模型,以尽可能减少索引条目数量并优化查询模式,从而提高效率。
  • 网络带宽:监控和优化网络使用情况,避免产生过高的费用。考虑缓存经常访问的数据。

Cloud Run 费用根据按需 CPU 用量、内存和请求数量计算。 请仔细考虑资源分配。根据工作负载特征分配 CPU 和内存资源。使用自动扩缩功能按需动态调整资源。

Vertex AI LLM 通常根据文本或媒体的输入和输出来收费。输入和输出 token 数会直接影响 LLM 成本。优化提示和回答生成,以提高效率。

AI 应用搜索引擎的费用取决于您使用的功能。为帮助您管理费用,您可以从以下三个选项中进行选择:

  • Search Standard Edition,它提供非结构化搜索功能。
  • Search 企业版,该版本提供非结构化搜索和网站搜索功能。
  • 搜索 LLM 加购项,可提供总结和多轮搜索功能。

您还可以考虑以下其他事项,以帮助优化费用:

  • 监控和提醒:设置 Cloud Monitoring 和结算提醒,以跟踪费用并在用量超出阈值时接收通知。
  • 费用报告:定期查看Google Cloud 控制台中的费用报告,以发现趋势并优化资源使用情况。
  • 考虑承诺使用折扣:如果您有可预测的工作负载,请考虑承诺在指定期限内使用这些资源,以获得折扣价格。

仔细考虑这些因素并实施建议的策略,有助于您有效管理和优化在 Google Cloud上运行 PA 和 UR 自动化架构的费用。

如需了解专门针对 AI 和机器学习工作负载的费用优化原则和建议,请参阅 Well-Architected Framework 中的 AI 和机器学习视角:费用优化

部署

此架构的参考实现代码以开源许可形式提供。此代码实现的架构是一个原型,可能不包含生产部署所需的所有功能和强化措施。如需实施并扩展此参考架构以更贴近您的需求,建议您与 Google Cloud 咨询联系。

此参考架构的起始代码位于以下 Git 代码库中:

您可以选择以下两种方式之一,为该参考架构实现支持和服务:

后续步骤

贡献者

作者:Dharmesh Patel | 医疗保健行业解决方案架构师

其他贡献者:


  1. 如需详细了解特定于区域的注意事项,请参阅地理位置和区域。