利用生成式 AI 进行利用率管理

Last reviewed 2024-08-19 UTC

本文档介绍了一种参考架构，适用于希望使用 Google Cloud自动处理事先授权 (PA) 请求并改进其利用率审核 (UR) 流程的健康保险公司。它面向这些组织中的软件开发者和程序管理员。此架构有助于健康保险计划提供方通过自动执行数据注入和从临床表单中提取分析洞见来减少管理开销、提高效率并增强决策能力。此架构还允许将 AI 模型用于提示生成和建议。

架构

下图描述了一种用于自动执行数据注入工作流并优化利用率管理 (UM) 审核流程的架构和方法。此方法使用 Google Cloud中的数据和 AI 服务。

数据注入和 UM 审核流程的简要概览。

上述架构包含两个数据流，由以下子系统提供支持：

理赔数据激活程序 (CDA)，用于从非结构化来源（例如表单和文档）提取数据，并以机器可读的结构化格式将其注入到数据库中。CDA 实现了注入 PA 请求表单的数据流。
利用率审核服务（UR 服务），用于集成 PA 请求数据、政策文档和其他护理指南以生成建议。UR 服务实现了使用生成式 AI 审核 PA 请求的数据流。

以下部分介绍了这些数据流。

CDA 数据流

下图展示了使用 CDA 注入 PA 请求表单的数据流。

PA 案例经理数据流。

如上图所示，PA 案例经理与系统组件互动，以注入、验证和处理 PA 请求。PA 案例经理是业务运营团队中负责受理 PA 请求的人员。事件流如下所示：

居家护理服务案例经理从医疗服务提供方接收居家护理服务申请表单 (pa_forms)，并将其上传到 pa_forms_bkt Cloud Storage 存储桶。
ingestion_service 服务会监听 pa_forms_bkt 存储桶的更改。ingestion_service 服务从 pa_forms_bkt 存储桶中提取 pa_forms 表单。该服务会识别预配置的 Document AI 处理器（称为 form_processors）。这些处理器用于处理 pa_forms 表单。ingestion_service 服务使用 form_processors 处理器从表单中提取信息。从表单中提取的数据采用 JSON 格式。
ingestion_service 服务将提取的信息连同字段级置信度分数写入 Firestore 数据库集合（名为 pa_form_collection）。
hitl_app 应用从 pa_form_collection 数据库中提取带有置信度分数的信息 (JSON)。该应用会根据 form_processors 机器学习 (ML) 模型在输出中提供的字段级置信度分数来计算文档级置信度分数。
hitl_app 应用向 PA 案例经理显示提取的信息以及字段级和文档级置信度分数，以便他们可以审核并更正信息（如果提取的值不准确）。PA 案例经理可以更新不正确的值，并将文档保存在 pa_form_collection 数据库中。

UR 服务数据流

下图显示了 UR 服务的数据流。

UR 专家数据流。

如上图所示，UR 专家与系统组件互动，以对 PA 请求进行临床审核。UR 专家通常是具有特定临床领域经验的护士或医生，受聘于医疗保险公司。针对 PA 请求的案例管理和路由工作流不在本部分所述的工作流范围内。

事件流如下所示：

ur_app 应用向 UR 专家显示 PA 请求及其审核状态的列表。状态显示为 in_queue、in_progress 或 completed。
该列表是通过从 pa_form_collection 数据库中提取 pa_form information 数据来创建的。UR 专家可在 ur_app 应用中显示的列表中点击某项来打开请求。

ur_app 应用将 pa_form information 数据提交给 prompt_model 模型。它使用 Vertex AI Gemini API 生成类似于以下内容的提示：

Review a PA request for {medication|device|medical service} for our member, {Patient Name}, who is {age} old, {gender} with {medical condition}. The patient is on {current medication|treatment list}, has {symptoms}, and has been diagnosed with {diagnosis}.

ur_app 应用向 UR 专家显示生成的提示，以进行审核和提供反馈。UR 专家可以在界面中更新提示，并将其发送给应用。
ur_app 应用向 ur_model 模型发送提示，并请求生成建议。模型会生成回答并返回给该应用。该应用会向 UR 专家显示建议结果。
UR 专家可以使用 ur_search_app 应用搜索 clinical documents、care guidelines 和 plan policy documents。clinical documents、care guidelines 和 plan policy documents 已预先编制索引，可供 ur_search_app 应用访问。

组件

该架构包含以下组成部分：

Cloud Storage 存储桶。UM 应用服务需要在您的项目中使用以下 Cloud Storage 存储桶： Google Cloud
- pa_forms_bkt：用于提取需要审批的 PA 表单的存储桶。
- training_forms：用于存储历史 PA 表单以训练 DocAI 表单处理器的存储桶。
- eval_forms：用于存储 PA 表单以评估 DocAI 表单处理器准确性的存储桶。
- tuning_dataset：存储用于调整大型语言模型 (LLM) 所需数据的存储桶。
- eval_dataset：存储评估 LLM 所需数据的存储桶。
- clinical_docs：存储提供方作为 PA 表单附件或之后提交的临床文件以支持 PA 案件的存储桶。这些文档由 AI Applications 服务中的搜索应用编制索引。
- um_policies：存储医疗必要性和护理指南、健康保险方案政策文档和保险范围指南的存储桶。这些文档由 AI Applications 服务中的搜索应用编制索引。
form_processors：这些处理器经过训练，可从 pa_forms 表单中提取信息。
pa_form_collection：一个 Firestore 数据存储区，用于将提取的信息作为 JSON 文档存储在 NoSQL 数据库集合中。
ingestion_service：从存储桶中读取文档的微服务，将文档传递给 DocAI 端点进行解析，并将提取的数据存储在 Firestore 数据库集合中。
hitl_app：一种微服务（Web 应用），用于提取和显示从 pa_forms 中提取的数据值。它还会将表单处理器（机器学习模型）报告的置信度分数呈现给 PA 案例经理，以便他们可以审核、更正信息并将信息保存到数据存储区中。
ur_app：一种微服务（Web 应用），UR 专家可以使用它通过生成式 AI 审核 PA 请求。它使用名为 prompt_model 的模型生成提示。该微服务会将从 pa_forms 表单中提取的数据传递给 prompt_model 模型以生成提示。然后，它会将生成的提示传递给 ur_model 模型，以获取有关案例的建议。
Vertex AI 针对医疗领域调优的 LLM：Vertex AI 具有各种生成式 AI 基础模型，这些模型可以进行调优以减少成本和延迟时间。此架构中使用的模型如下所示：
- prompt_model：LLM 上的一个适配器，经过调优可根据从 pa_forms 中提取的数据生成提示。
- ur_model：LLM 上的一个适配器，经过调优可根据输入提示生成草稿建议。
ur_search_app：一种使用 AI Applications 构建的搜索应用，可从临床文档、UM 政策和覆盖范围指南中为 UR 专家查找个性化的相关信息。

使用的产品

此参考架构使用以下 Google Cloud 产品：

Vertex AI：一个机器学习平台，用于训练和部署机器学习模型和 AI 应用以及自定义 LLM，以在依托 AI 技术的应用中使用。
AI Applications：一个平台，可让开发者创建和部署企业级 AI 赋能的代理和应用。
Document AI：一个文档处理平台，可从文档中获取非结构化数据并将其转换为结构化数据。
Firestore：一个 NoSQL 文档数据库，能够自动扩缩、具备出色的性能，并且易于进行应用开发。
Cloud Run：一个无服务器计算平台，可让您直接在 Google 可伸缩的基础设施之上运行容器。
Cloud Storage：适用于各种数据类型的费用低廉且不受限制的对象存储。数据可从 Google Cloud内部和外部访问，并且跨位置进行复制以实现冗余。
Cloud Logging：具有存储、搜索、分析和提醒功能的实时日志管理系统。
Cloud Monitoring：可帮助您了解您的应用和基础设施的性能、可用性和健康状况的服务。

使用场景

UM 是健康保险公司主要在美国使用的一种流程，但全球医疗保险市场中也使用类似的流程（进行了少量修改）。UM 的目标是帮助确保患者在最佳时间以尽可能低的成本在合适的医疗机构获得适当的护理。UM 还有助于确保医疗护理有效、高效，并符合循证护理标准。PA 是一种 UM 工具，要求在获得保险公司的批准后，患者才能接受医疗护理。

许多公司使用的 UM 流程会阻碍及时提供和接受护理。此流程成本高昂、十分耗时且过于行政化。而且还非常复杂、需要手动进行且进展缓慢。此流程会显著影响健康保险计划有效管理护理质量以及改善提供方和成员体验的能力。不过，如果这些公司修改其 UM 流程，则有助于确保患者获得经济高效的高质量治疗。通过优化 UR 流程，健康保险计划可以加快 PA 请求的处理速度以降低成本和拒赔率，进而改善患者和提供方体验。这种方法有助于减轻医疗服务提供方的行政负担。

当健康保险计划收到 PA 请求时，PA 案例经理会在案例管理系统中创建案例，以跟踪、管理和处理这些请求。其中大量请求是通过传真和邮件接收的，并附有临床文档。不过，健康保险公司无法轻松访问这些表单和文档中的信息来用于数据分析和商业智能。目前这种将这些文档中的信息手动输入到案例管理系统中的流程效率低下且十分耗时，还可能会导致错误。

通过自动执行数据注入流程，健康保险计划可以降低成本、减少数据输入错误并减轻员工的行政负担。从临床表单和文档中提取有价值的信息有助于健康保险公司加快 UR 流程。

设计考虑事项

本部分提供的指导可帮助您使用此参考架构开发一个或多个架构，以满足您在安全性、可靠性、运营效率、费用和性能方面的特定要求。

安全性、隐私权和合规性

本部分介绍使用此参考架构在Google Cloud 中设计和构建有助于满足安全性、隐私权和合规性要求的架构时应考虑的因素。

在美国，《健康保险流通与责任法案》（简称 HIPAA，包括依据《卫生信息技术促进经济和临床健康 [HITECH] 法案》修订的内容）要求遵守 HIPAA 的安全规则、隐私权规则和违规通知规则。Google Cloud 提供 HIPAA 合规性支持，但最终，您有责任评估自己的 HIPAA 合规性。遵守 HIPAA 是客户与 Google 的共同责任。如果贵组织需要遵从 HIPAA，而且您希望将任何 Google Cloud产品用于受保护健康信息 (PHI)，那么您必须查看并接受 Google 的《业务伙伴协议》(BAA)。需要遵守 BAA 的 Google 产品符合 HIPAA 的要求，且具有我们的 ISO/IEC 27001、27017 和 27018 证书以及 SOC 2 报告。

并非所有在 Vertex AI Model Garden 中托管的 LLM 都支持健康保险流通与责任法案 (HIPAA)。请评估和使用支持 HIPAA 的 LLM。

如需评估 Google 产品如何满足您的 HIPAA 合规性需求，您可以参考合规性资源中心中的第三方审核报告。

我们建议客户在选择 AI 应用场景时考虑以下因素，并在设计时考虑到这些因素：

数据隐私权： Google Cloud Vertex AI Platform 和 Document AI 不会利用客户数据、数据使用情况、内容或文档来改进或训练基础模型。您可以使用 Google Cloud上安全租户中的数据和文档对基础模型进行调优。
Firestore 服务器客户端库使用 Identity and Access Management (IAM) 来管理对数据库的访问。如需了解 Firebase 的安全和隐私信息，请参阅 Firebase 中的隐私权和安全性。
为了帮助您存储敏感数据，ingestion_service、hitl_app 和 ur_app 服务映像可以使用客户管理的加密密钥 (CMEK) 进行加密，也可以与 Secret Manager 集成。
Vertex AI 实施了 Google Cloud 安全控制措施，可帮助保护您的模型和训练数据。Vertex AI 中的生成式 AI 功能不支持某些安全控制措施。如需了解详情，请参阅针对 Vertex AI 的安全控制措施和针对生成式 AI 的安全控制措施。
我们建议您使用 IAM 对云资源实现最小权限原则和职责分离。此控制措施可在项目级、文件夹级或数据集级限制访问权限。
Cloud Storage 会自动以加密状态存储数据。如需详细了解其他数据加密方法，请参阅数据加密选项。

Google 的产品遵循 Responsible AI 原则。

如需了解特定于 AI 和机器学习工作负载的安全原则和建议，请参阅 Well-Architected Framework 中的 AI 和机器学习视角：安全性。

可靠性

本部分介绍在构建和运营可靠的基础设施以自动处理 PA 请求时应考虑的设计因素。

Document AI form_processors 是一种区域级服务。数据跨一个区域内的多个可用区同步存储。流量在可用区之间自动进行负载均衡。如果发生可用区服务中断，数据不会丢失¹。如果发生区域服务中断，在 Google 解决服务中断问题之前，该服务将无法使用。

您可以使用 pa_forms_bkt、training_forms、eval_forms、tuning_dataset、eval_dataset、clinical_docs 或 um_policies 存储桶，在以下三种位置之一创建 Cloud Storage 存储桶：单区域、双区域或多区域。存储在区域级存储桶中的数据会跨一个区域内的多个可用区同步复制。为了获得更高的可用性，您可以使用双区域或多区域存储桶，其中数据会跨区域异步复制。

在 Firestore 中，从 pa_form_collection 数据库提取的信息可以分布在多个数据中心，从而有助于确保全球可扩缩性和可靠性。

Cloud Run 服务 ingestion_service、hitl_app 和 ur_app 是区域性服务。数据跨一个区域内的多个可用区同步存储。流量在可用区之间自动进行负载均衡。如果可用区服务中断，Cloud Run 作业将继续运行，并且数据不会丢失。如果区域服务中断，Cloud Run 作业将停止运行，直到 Google 解决服务中断问题。个别 Cloud Run 作业或任务可能会失败。如需处理此类失败，您可以使用任务重试和检查点。如需了解详情，请参阅作业重试和检查点最佳做法。 Cloud Run 常规开发技巧介绍了使用 Cloud Run 的一些最佳实践。

Vertex AI 是一个方便用户使用的全面机器学习平台，可为机器学习生命周期（从数据准备到模型部署和监控）提供统一的环境。

如需了解特定于 AI 和机器学习工作负载的可靠性原则和建议，请参阅 Well-Architected Framework 中的 AI 和机器学习视角：可靠性。

费用优化

本部分提供的指导可优化创建和运行架构以自动处理 PA 请求并改进 UR 流程的费用。仔细管理资源用量并选择合适的服务层级可以显著影响总体费用。

Cloud Storage 存储类别：根据数据访问频率使用不同的存储类别（Standard、Nearline、Coldline 或 Archive）。对于访问频率较低的数据，Nearline、Coldline 和 Archive 具有更高的成本效益。

Cloud Storage 生命周期政策：实现生命周期政策，以便根据对象的存储时长和访问模式，自动将对象转换为费用较低的存储类别或将其删除。

Document AI 的价格取决于部署的处理器数量以及 Document AI 处理器处理的页面数量。请考虑以下事项：

处理器优化：分析工作负载模式，以确定要部署的最佳 Document AI 处理器数量。请避免超额预配资源。
页面卷管理：预处理文档以移除不必要的页面或优化分辨率有助于降低处理费用。

Firestore 的价格取决于与文档、索引条目、数据库使用的存储空间以及网络带宽量相关的活动。请考虑以下事项：

数据建模：设计数据模型，以尽可能减少索引条目数量并优化查询句式，从而提高效率。
网络带宽：监控和优化网络使用情况，避免产生过高的费用。请考虑缓存经常访问的数据。

Cloud Run 费用根据按需 CPU 用量、内存和请求数量来计算。请仔细考虑资源分配。根据工作负载特征分配 CPU 和内存资源。使用自动扩缩功能按需动态调整资源。

Vertex AI LLM 的费用通常根据文本或媒体的输入和输出来计算。输入和输出 token 数会直接影响 LLM 成本。请优化提示和回答生成，以提高效率。

AI Applications 搜索引擎费用取决于您使用的功能。为帮助您管理费用，您可以从以下三个选项中进行选择：

搜索标准版，它提供非结构化搜索功能。
搜索企业版，它提供非结构化搜索和网站搜索功能。
搜索 LLM 加购项，它提供总结和多轮搜索功能。

您还可以考虑以下其他注意事项，以帮助优化费用：

监控和提醒：设置 Cloud Monitoring 和结算提醒，以跟踪费用并在用量超出阈值时接收通知。
费用报告：定期在Google Cloud 控制台中查看费用报告，以发现趋势并优化资源使用情况。
考虑承诺使用折扣：如果您的工作负载可预测，请考虑承诺在指定期限内使用这些资源，以获得折扣价格。

仔细考虑这些因素并实施建议的策略有助于您有效管理和优化在 Google Cloud上运行 PA 和 UR 自动化架构的费用。

如需了解特定于 AI 和机器学习工作负载的费用优化原则和建议，请参阅 Well-Architected Framework 中的AI 和机器学习视角：费用优化。

部署

此架构的参考实现代码通过开源许可提供。此代码实现的架构是一个原型，可能不包含生产部署所需的所有功能和安全加固。如需实现并扩展此参考架构以更加符合您的要求，建议您与 Google Cloud 咨询服务联系。

此参考架构的起始代码位于以下 Git 代码库中：

CDA Git 代码库：此代码库包含用于基础设施预配和应用代码部署的 Terraform 部署脚本。
UR 服务 Git 代码库：此代码库包含 UR 服务的代码示例。

您可以选择以下两种方法之一，为此参考架构实现支持和服务：

联系 Google Cloud 咨询服务。
联系使用本架构中所述的产品和解决方案组件构建打包产品的合作伙伴。

后续步骤

了解如何为使用 Vertex AI 和 Vector Search 且支持 RAG 的生成式 AI 应用构建基础设施。
了解如何为使用 Vertex AI 和 AlloyDB for PostgreSQL 且支持 RAG 的生成式 AI 应用构建基础设施。
使用 GKE 和 Cloud SQL 且支持 RAG 的生成式 AI 应用的基础设施
查看用于使生成式 AI 回答接地的Google Cloud 选项。
了解如何针对 Cloud Run 优化 Python 应用。
如需简要了解 Google Cloud中特定于 AI 和机器学习工作负载的架构原则和建议，请参阅 Well-Architected Framework 中的 AI 和机器学习视角。
如需查看更多参考架构、图表和最佳实践，请浏览 Cloud 架构中心。

贡献者

作者：Dharmesh Patel | 医疗保健行业解决方案架构师

其他贡献者：

Ben Swenka | 关键企业架构师
Emily Qiao | AI/机器学习客户工程师
Luis Urena | 开发者关系工程师
Praney Mittal | 组合产品经理
Lakshmanan Sethu | 技术支持客户经理

如需详细了解特定区域的注意事项，请参阅地理位置和区域。 ↩

利用生成式 AI 进行利用率管理 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

架构