使用系统数据分析提高系统性能

MySQL | PostgreSQL | SQL Server

本页面介绍了如何使用 Cloud SQL 系统数据分析信息中心。系统数据分析信息中心会显示实例所用资源的指标，并可帮助您检测和分析系统性能问题。

您可以使用 Gemini in Databases 协助功能来帮助您观察 Cloud SQL for PostgreSQL 资源并排查问题。如需了解详情，请参阅在 Gemini 的协助下进行观察并排查问题。

查看系统数据分析信息中心

要查看系统数据分析信息中心，请执行以下操作：

在 Google Cloud 控制台中，前往 Cloud SQL 实例页面。

转到“Cloud SQL 实例”
点击一个实例的名称。
从左侧的 SQL 导航面板中选择系统数据分析标签页。

系统数据分析信息中心随即打开。

显示事件时间轴和指标摘要卡的信息中心图片。 — **图 1.** 显示事件时间轴和摘要卡的信息中心图片。

系统数据分析信息中心会显示以下信息：

实例详情
事件时间轴：按时间顺序显示系统事件。此信息可帮助您评估系统事件对实例的健康状况和性能的影响。
摘要卡：通过显示 CPU 利用率、磁盘利用率和日志错误指标的最新聚合值，提供实例健康状况和性能的概览。
指标图表：显示操作系统和数据库指标的相关信息，可帮助您深入了解多个问题，例如吞吐量、延迟时间和费用。

信息中心提供以下简要选项：

如需设置每行显示一个或两个图表，点击自定义视图，选择这些图表的显示方式。您还可以使用此选项选择要在信息中心内显示的指标。

如需使信息中心保持最新，请启用 自动刷新选项。启用自动刷新后，信息中心数据会每分钟更新。此功能与自定义时间段不兼容。
时间选择器显示默认选择的 1 day。如需更改时间段，请选择其他预定义时间段之一，或点击自定义并指定开始时间和结束时间。可以获得过去 30 天的数据。
如需创建指向信息中心的绝对链接，请点击复制链接按钮。您可以与具有相同权限的其他 Cloud SQL 用户共享此链接。
如需为特定事件创建提醒，请点击通知。
如需显示特定提醒，请点击注解。

摘要卡

下表介绍了 System Insights 信息中心顶部显示的摘要卡。这些卡片提供了实例在选定时间段内的健康状况和性能的简要概览。

摘要卡	说明
CPU 利用率 - P99 \| P50	所选时间段内 P99 和 P50 CPU 利用率值。
连接数峰值	所选时间段内连接数峰值与连接数上限的比率。如果连接数上限最近发生了更改（例如由于实例扩缩或手动更改 `max_connections` 设置），则连接数峰值可能会大于连接数上限。
事务 ID 利用率	所选时间段内事务 ID 的最新利用率值。
磁盘利用率	最新的磁盘利用率值。
日志错误数	用户记录的错误数。

指标图表

示例指标的图表卡片如下所示。

显示 Cloud SQL 指标数据示例的图表。 — 显示查询延迟时间指标的指标图表。

每个图表卡片上的工具栏都提供以下标准选项集：

如需查看所选时间段内特定时刻的指标值，请将光标移到图表上。
如需放大图表，请点击图表，然后沿 x 轴水平拖动或沿 y 轴垂直拖动。如需还原缩放操作，请点击重置缩放级别。或者，点击信息中心顶部的任一预定义时间段。缩放操作会同时应用于信息中心上的所有图表。
如需查看其他选项，请点击 更多图表选项。大多数图表都提供以下选项：
- 如需以全屏模式查看图表，请点击全屏查看。如需退出全屏模式，请点击取消。
- 隐藏或收起图例。
- 下载图表的 PNG 或 CSV 文件。
- 在 Metrics Explorer 中查看。在 Metrics Explorer 中查看指标。选择 Cloud SQL 数据库资源类型后，您可以在 Metrics Explorer 中查看其他 Cloud SQL 指标。
如需创建自定义信息中心，请点击 自定义信息中心，然后为其命名。或者，展开预定义菜单，然后选择现有自定义信息中心。
如需详细查看指标图表的数据，请点击 探索数据。在这里，您可以过滤特定指标并选择图表的显示方式：

如需将此自定义视图保存为指标图表，请点击保存至信息中心。

默认指标

下表说明了 Cloud SQL 系统数据分析信息中心默认显示的 Cloud SQL 指标。

指标类型字符串具有此前缀：cloudsql.googleapis.com/database/。

如需了解以下指标的最新发布阶段可用情况，请参阅 Google Cloud 指标。

指标名称和类型	说明
每秒新的连接数 `postgresql/new_connection_count`	每秒在 Cloud SQL for PostgreSQL 实例上创建的新连接数。Cloud SQL 会为每个数据库计算并显示此指标。此指标适用于 PostgreSQL 14 及更高版本。
等待事件类型 `postgresql/backends_in_wait`	Cloud SQL for PostgreSQL 实例中每种等待事件类型的连接数。
等待事件 `postgresql/backends_in_wait`	Cloud SQL for PostgreSQL 实例中的等待事件数量。信息中心会将此指标显示为“等待事件名称：等待事件类型”。
事务计数 `postgresql/transaction_count`	Cloud SQL for PostgreSQL 实例中 `commit` 和 `rollback` 状态的事务数量。
内存组件 `memory/components`	数据库可用的内存组件。每个内存组件的值计算为数据库可用总内存的百分比。
最大复制字节延迟 `postgresql/external_sync/max_replica_byte_lag`	外部服务器 (ES) 副本上所有数据库之间的最大复制延迟（以字节为单位）。
查询延迟时间 `postgresql/insights/aggregate/latencies`	按 P99、P95 和 P50 细分的每个用户和数据库的汇总查询延迟时间分布情况。仅适用于启用了 Query Insights 的实例。
每个数据库/用户/客户端地址的数据库负载 `postgresql/insights/aggregate/execution_time`	每个数据库、用户或客户端地址的累计查询执行时间。此值等于执行查询所涉及的所有进程的 CPU 时间、I/O 等待时间、锁定等待时间、进程上下文切换时间和调度时间的总和。仅适用于启用了 Query Insights 的实例。
CPU 利用率 `cpu/utilization`	以当前正在使用的预留 CPU 的百分比表示的当前 CPU 利用率。
磁盘存储空间（按类型划分） `disk/bytes_used_by_data_type`	按数据类型（包括 `data`、`binlog` 和 `tmp_data`）细分的实例磁盘用量。此指标可帮助您了解存储费用。如需详细了解按存储使用量收取的费用，请参阅存储和网络价格。时间点恢复 (PITR) 使用预写式日志 (WAL) 归档。这些日志会定期更新并使用存储空间。系统会自动删除预写日志及其关联的自动备份（通常发生在大约 7 天后）。如果预写式日志的大小导致实例出现问题，您可以增加存储空间大小，但磁盘使用中预写式日志大小的增加可能是临时的。为避免出现意外的存储问题，Google 建议您在使用 PITR 时启用存储空间自动扩容。如需删除日志并恢复存储空间，您可以停用时间点恢复。但请注意，减少所占用的存储空间并不会缩小为实例预配的存储空间大小。临时数据包含在存储使用量指标中。临时数据在维护期间会被移除，并且可以超出用户定义的容量限制，以避免触发“磁盘已满”事件，而用户则无需为此付费。新创建的数据库的系统表和文件会使用大约 100 MB 的空间。
磁盘存储空间（按类型划分） `disk/bytes_used_by_data_type`	按数据类型（包括 `data`、`binlog` 和 `tmp_data`）细分的实例磁盘用量。此指标可帮助您了解存储费用。如需详细了解按存储使用量收取的费用，请参阅存储和网络价格。时间点恢复使用预写式日志记录 (WAL) 归档。对于启用了时间点恢复的新 Cloud SQL 实例，或在 Cloud Storage 中存储 WAL 日志的功能可用后启用时间点恢复的现有实例，日志将不再存储在磁盘上，而是存储在与实例位于同一区域的 Cloud Storage 中。如需查看实例的日志是否存储在 Cloud Storage 中，请检查实例的 bytes_used_by_data_type 指标。如果 `archived_wal_log` 数据类型的值为 `0`，则实例的日志存储在 Cloud Storage 中。所有其他启用了时间点恢复的现有实例都会继续将其日志存储在磁盘上。在 Cloud Storage 中存储日志的更改之后将生效。时间点恢复中使用的预写式日志会连同其关联的自动备份自动删除，通常是在满足为 `transactionLogRetentionDays` 设置的值后删除。这是 Cloud SQL 为进行时间点恢复而保留的事务日志的天数（1 至 7 天）。对于在 Cloud Storage 中存储预写式日志的实例，日志存储在主实例所在的区域中。此日志存储（最长 7 天，即时间点恢复时长上限）不会为每个实例产生额外费用。如果实例启用了时间点恢复，并且磁盘上的预写式日志大小导致实例出现问题，则停用时间点恢复并重新启用以确保新日志存储在与实例位于同一区域的 Cloud Storage 中。此操作会删除现有的预写式日志，因此您执行时间点恢复的时间不能早于您重新启用时间点恢复的时间。不过，虽然现有日志会被删除，但磁盘大小保持不变。为避免出现意外的存储问题，我们建议您在使用时间点恢复时为所有实例启用存储空间自动扩容。仅当实例启用了时间点恢复且日志存储在磁盘上时，此建议才适用。如需删除日志并恢复存储空间，您可以停用时间点恢复。但请注意，减少所使用的预写式日志不会缩小为实例预配的磁盘大小。临时数据包含在存储使用量指标中。临时数据在维护期间会被移除，并且可以超出用户定义的容量限制，以避免触发“磁盘已满”事件，而用户则无需为此付费。新创建的数据库的系统表和文件会使用大约 100 MB 的空间。
磁盘读取/写入操作次数 `disk/read_ops_count`, `disk/write_ops_count`	“读取次数”指标表示从磁盘（而非缓存）处理的读取操作次数。您可以使用此指标来了解实例的大小是否适合您的环境。如果需要，您可以选择资源规模更大的机器类型，以通过缓存处理更多请求，并缩短延迟时间。 “写入次数”指标表示对磁盘执行的写入操作次数。即使您的应用未处于活跃状态，也会生成写入活动，因为 Cloud SQL 实例（禁止副本）大约每秒写入系统表一次。
连接数（按状态划分） `postgresql/num_backends_by_state`	按以下状态分组的连接数：`idle`、`active`、`idle_in_transaction`、`idle_in_transaction_aborted`、`disabled` 和 `fastpath_function_call`。如需了解这些状态，请参阅 `pg_stat_activity` 文档中的 `state text` 行。
每个数据库的连接数 `postgresql/num_backends`	数据库实例占用的连接数。
入站/出站字节数 `network/received_bytes_count`, `network/sent_bytes_count`	分别以进出实例的入站流量字节数（接收的字节数）和出站流量字节数（发送的字节数）表示的网络流量。
按类型细分的 I/O 等待时间 `postgresql/insights/aggregate/io_time`	按读写类型细分的 SQL 语句的 I/O 等待时间。仅适用于启用了 Query Insights 的实例。
死锁计数（按数据库划分） `postgresql/deadlock_count`	每个数据库的死锁数量。
块读取计数 `postgresql/blocks_read_count`	每秒从磁盘和缓冲区缓存中读取的块数。
操作处理的行数 `postgresql/tuples_processed_count`	每次操作每秒处理的行数。
数据库中行数（按状态划分） `postgresql/tuple_size`	每个数据库状态的行数。如果实例中的数据库数量少于 50，则 Cloud SQL 会报告此指标。
最早事务（按存在时间划分） `postgresql/vacuum/oldest_transaction_age`	阻止清空操作的最早事务的存在时间。
WAL 归档 `replication/log_archive_success_count`, `replication/log_archive_failure_count`	每分钟已归档成功或失败的预写式日志文件的数量。
事务 ID 利用率 `postgresql/transaction_id_utilization`	实例中使用的事务 ID 的百分比。
每个应用名称的连接数 `postgresql/num_backends_by_application`	与 Cloud SQL 实例的连接数（按应用分组）。没有应用名称的连接将分组为 `Unknown`。
提取的行数、返回的行数与写入的行数提取的行数： `postgresql/tuples_fetched_count` 返回的行数： `postgresql/tuples_returned_count` 写入的行数： `postgresql/tuples_processed_count`	提取的行数是指实例中的查询结果提取的行数。返回的行数是处理实例中的查询时扫描的行数。写入的行数是执行插入、更新和删除操作时在实例中写入的行数。如果返回的行数与提取的行数之间的差异很大，以致于它们的值无法以相同表达方法显示，那么提取的行数值将显示为 0，因为与返回的行数相比，此值可以忽略不计。
临时数据大小 `postgresql/temp_bytes_written_count`	用于查询执行和执行算法（如联接和排序）的总数据量（以字节为单位）。
临时文件数 `postgresql/temp_files_written_count`	用于查询执行和执行算法（例如联接和排序）的临时文件的数量。

此外，Cloud Logging 指标“日志条目（按严重级别划分）”(logging.googleapis.com/log_entry_count) 也会显示错误和警告日志条目的总数。

这些条目是从 postgres.log（数据库日志）和 pgaudit.log（包含数据访问信息）中提取的。

如需了解详情，请参阅 Cloud SQL 指标。

事件时间轴

信息中心提供了以下事件的详细信息：

事件名称	说明	操作类型
`Instance restart`	重启 Cloud SQL 实例	`RESTART`
`Instance failover`	启动高可用性 (HA) 主实例到备用实例的手动故障转移，该实例成为主实例。	`FAILOVER`
`Instance maintenance`	表示实例当前正在维护中。维护通常会导致实例无法使用的时长为 1 到 3 分钟。	`MAINTENANCE`
`Instance backup`	执行实例备份。	`BACKUP_VOLUME`
`Instance update`	更新 Cloud SQL 实例的设置。	`UPDATE`
`Promote replica`	升级 Cloud SQL 副本实例。	`PROMOTE_REPLICA`
`Start replica`	启动 Cloud SQL 读取副本实例上的复制。	`START_REPLICA`
`Stop replica`	停止 Cloud SQL 读取副本实例上的复制。	`STOP_REPLICA`
`Recreate replica`	为 Cloud SQL 副本实例重新创建资源。	`RECREATE_REPLICA`
`Create replica`	创建 Cloud SQL 副本实例。	`CREATE_REPLICA`
`Data import`	将数据导入 Cloud SQL 实例。	`IMPORT`
`Instance export`	将数据从 Cloud SQL 实例导出到 Cloud Storage 存储桶。	`EXPORT`
`Restore backup`	恢复 Cloud SQL 实例的备份。此操作可能会导致实例重启。	`RESTORE_VOLUME`