Cómo solucionar problemas relacionados con una suscripción de extracción

En este documento, se proporcionan algunas sugerencias habituales para solucionar problemas relacionados con las suscripciones de extracción de Pub/Sub. Obtén más información sobre las suscripciones de extracción en la guía del suscriptor de extracción.

Para supervisar de manera eficaz tu suscripción a Pub/Sub, te recomendamos que primero consultes la puntuación del estado de la latencia de entrega (subscription/delivery_latency_health_score) para verificar qué factores pueden contribuir a una latencia inesperada o mayor.

La antigüedad del mensaje sin confirmar más antiguo sigue aumentando

La métrica oldest_unacked_message_age es fundamental para supervisar el estado de las suscripciones a Pub/Sub. Mide la antigüedad, en segundos, del mensaje más antiguo en el trabajo acumulado de una suscripción que aún no ha confirmado (acked) un suscriptor. Esta métrica ofrece estadísticas valiosas sobre posibles retrasos o cuellos de botella en el procesamiento.

El monitoreo de la acumulación de mensajes garantiza un procesamiento de mensajes oportuno y eficiente. Si haces un seguimiento de la antigüedad del mensaje sin confirmar más antiguo, puedes identificar de forma proactiva las situaciones en las que los consumidores se están quedando atrás. Esta práctica permite una intervención temprana para abordar posibles problemas relacionados con el rendimiento degradado.

Estos son algunos de los problemas comunes del backlog que puedes investigar:

Problemas de configuración del cliente

Cuando las métricas oldest_unacked_message_age y num_undelivered_messages aumentan de forma simultánea, podría significar que los suscriptores no le siguen el paso al volumen de mensajes. En esta situación, enfoca tu investigación en los componentes del suscriptor:

  • Estado del cliente: Analiza la utilización de recursos en las máquinas que alojan clientes suscriptores, como la CPU, la memoria y el ancho de banda de la red. Busca puntos de presión que puedan impedir la eficiencia del procesamiento.

  • Código del cliente: Revisa los cambios recientes del código y examina los registros de errores. Los errores o las ineficiencias en el código del suscriptor pueden afectar significativamente las tasas de procesamiento de mensajes. Ten en cuenta que puede haber problemas en mensajes específicos. Por ejemplo, es posible que varios mensajes necesiten acceder a la misma fila de una base de datos de forma simultánea. Este comportamiento puede generar contención y latencia alta.

  • Limitaciones de cuota: Verifica que no hayas superado ninguna cuota o limitación de Pub/Sub impuesta por tu servicio de hosting. Si los suscriptores están alojados en Google Cloud, revisa las cuotas de recursos de Compute Engine o GKE para evitar posibles cuellos de botella.

El suscriptor confirmó negativamente la recepción de los mensajes

Cuando un suscriptor envía una confirmación negativa (nack) de un mensaje, le indica a Pub/Sub que el mensaje no se pudo procesar correctamente. Luego, Pub/Sub intenta volver a enviar el mismo mensaje. Los NACK repetidos para un mensaje generan duplicados y, posiblemente, una demora alta en la entrega de mensajes.

Ten en cuenta que el envío de un NACK para un mensaje no garantiza que la próxima extracción recupere un mensaje diferente. Es posible que la política de reenvío de Pub/Sub siga reenviando mensajes con NACK antes que mensajes nuevos. Por lo tanto, no confíes en los NACK como un método para filtrar u omitir mensajes específicos. En su lugar, establece una política de reintentos, preferentemente una retirada exponencial, como una forma de retirarte de los mensajes individuales que probablemente se puedan procesar más adelante, pero que necesitan un poco más de tiempo antes de la reentrega.

Si necesitas omitir ciertos mensajes de forma intencional, el enfoque recomendado es confirmarlos, incluso si no los procesarás. Esto los quita de la suscripción, evita reenvíos innecesarios y reduce el consumo de recursos. Si dejas mensajes sin confirmar, ya sea de forma intencional o no, se generan problemas de acumulación y entregas duplicadas.

Latencia de entrega alta

La latencia de entrega en Pub/Sub es el tiempo que tarda un mensaje de un publicador en llegar a un suscriptor. En las siguientes secciones, se describen algunas posibles causas de una latencia de entrega alta.

No hay suficientes suscriptores

En el caso de los clientes que usan StreamingPull, para lograr una latencia baja constante, mantén varias conexiones de StreamingPull abiertas a tu suscripción. Sin conexiones de suscriptores activas, Pub/Sub no puede entregar mensajes con rapidez. Una sola transmisión podría ser un punto único de falla, lo que aumentaría el riesgo de retrasos. La métrica subscription/open_streaming_pulls proporciona visibilidad sobre la cantidad de conexiones de transmisión activas. Úsalo para asegurarte de tener suficientes transmisiones para controlar los mensajes entrantes.

En el caso de los clientes que usan la extracción unaria, para lograr una latencia baja constante, mantén varias solicitudes de extracción pendientes en tu suscripción. Las solicitudes poco frecuentes podrían acumular mensajes en el backlog y aumentar la latencia. Este enfoque ayuda a minimizar las brechas en la conectividad y a mejorar la latencia de entrega.

Se recomienda la biblioteca cliente de alto nivel para los casos en los que se requiere una alta capacidad de procesamiento y una baja latencia con una sobrecarga operativa y un costo de procesamiento mínimos. De forma predeterminada, la biblioteca cliente de alto nivel usa la API de StreamingPull, ya que suele ser una mejor opción para minimizar la latencia. Las bibliotecas cliente de alto nivel contienen funciones y clases prediseñadas que controlan las llamadas a la API subyacentes para la autenticación, la optimización del rendimiento y la latencia, el formato de mensajes y otras funciones.

Problemas de configuración del cliente

Consulta Problemas de configuración del cliente.

Tareas pendientes

Ten en cuenta que una acumulación de mensajes sin confirmar en una suscripción de Pub/Sub aumenta inherentemente la latencia de extremo a extremo, ya que los suscriptores no procesan los mensajes de inmediato.

Claves de ordenamiento y entrega “exactamente una vez”

Las claves de ordenamiento y la entrega exactamente una vez son funciones valiosas, pero requieren coordinación adicional dentro de Pub/Sub para garantizar la entrega correcta. Esta coordinación puede reducir la disponibilidad y aumentar la latencia. Si bien la diferencia es mínima en el estado estable, cualquier paso de coordinación necesario podría generar aumentos temporales en la latencia o un aumento en la tasa de errores. Si el ordenamiento está habilitado, los mensajes con una clave de ordenamiento no se pueden entregar hasta que se envíe el ACK de los anteriores con la misma clave de ordenamiento.

Considera si el orden de los mensajes o la entrega exactamente una vez son absolutamente esenciales para tu aplicación. Si la baja latencia es tu principal prioridad, minimizar el uso de estas funciones podría ayudar a reducir las demoras en el procesamiento de mensajes.

Aumento del tamaño del mensaje

Un aumento repentino en el tamaño del mensaje podría incrementar el tiempo de transferencia entre Pub/Sub y tu cliente, y ralentizar el tiempo de procesamiento de los mensajes en el cliente.

Si observas un aumento en la latencia de entrega, puedes verificar los tamaños de los mensajes con la métrica topic/message_sizes, agrupando por topic_id. Correlaciona cualquier aumento repentino en el tamaño de los mensajes con los problemas de rendimiento observados.

Faltan mensajes

Si sospechas que los mensajes no se entregan correctamente a tu suscriptor, uno de los siguientes motivos podría ser el factor que contribuye a este problema.

Distribución de mensajes en suscripciones de Pub/Sub con varios consumidores

En Pub/Sub, los mensajes pueden distribuirse de manera desigual entre los consumidores. Este comportamiento se produce porque Pub/Sub distribuye los mensajes entre los consumidores activos para aumentar la eficiencia. A veces, un solo consumidor puede recibir menos mensajes de lo esperado o un subconjunto diferente de mensajes que otros consumidores.

Ten en cuenta que es posible que ya haya mensajes pendientes para los clientes y que una acumulación de mensajes no confirmados no significa necesariamente que recibirás esos mensajes en tu próxima solicitud de extracción. Ten en cuenta que un consumidor puede ser alguien que usa la extracción en la consola de Google Cloud o Google Cloud CLI, o que ejecuta un suscriptor personalizado de forma local para verificar los mensajes.

En el caso de los clientes de extracción unarios, es posible que observes algunas solicitudes de extracción que devuelven cero mensajes. Como se explicó en la sección No hay suficientes suscriptores, se recomienda mantener varias solicitudes de extracción pendientes, ya que algunas solicitudes podrían devolver menos de la cantidad máxima de mensajes configurados o incluso cero mensajes.

Si sospechas que se produce alguno de estos comportamientos, investiga si hay varios consumidores conectados a la suscripción de forma simultánea y examínalos.

Filtra la suscripción

Comprueba si la suscripción tiene un filtro adjunto. Si es así, solo recibirás los mensajes que coincidan con el filtro. El servicio de Pub/Sub confirma automáticamente los mensajes que no coinciden con el filtro. Ten en cuenta cómo los filtros afectan las métricas del backlog.

Usa la opción returnImmediately

Si tu cliente usa Pull unario, verifica si el campo returnImmediately está establecido como verdadero. Este es un campo obsoleto que le indica al servicio de Pub/Sub que responda a la solicitud de extracción de inmediato, incluso si no devuelve ningún mensaje. Esto puede hacer que las solicitudes de extracción se muestren con 0 mensajes, incluso cuando hay un backlog.

Cómo abordar los duplicados

La duplicación de mensajes en Pub/Sub suele ocurrir cuando los suscriptores no pueden confirmar los mensajes dentro del plazo de confirmación. Esto hace que los mensajes se vuelvan a entregar, lo que genera la impresión de que son duplicados. Puedes medir la frecuencia con la que los suscriptores no cumplen el plazo de confirmación con la métrica subscription/expired_ack_deadlines_count. Obtén más información para supervisar el vencimiento del plazo de confirmación.

Para reducir la tasa de duplicación, extiende los plazos de los mensajes.

  • Las bibliotecas cliente manejan la extensión de plazos de forma automática, pero existen límites máximos predeterminados para la extensión que se pueden configurar.
  • Si creas tu propia biblioteca cliente, usa el método modifyAckDeadline para extender el plazo de confirmación.

Si los mensajes se extraen en el suscriptor más rápido de lo que se pueden procesar y confirmar, es posible que algunos mensajes venzan y requieran extensiones de plazo. Sin embargo, si el suscriptor sigue abrumado, las extensiones repetidas del plazo finalmente fallarán. En el peor de los casos, esto puede provocar que el suscriptor se desborde de duplicados, lo que agrava la acumulación. Luego, los duplicados que vencen generan duplicados nuevos.

Para evitar sobrecargar al suscriptor, reduce la cantidad de mensajes que extrae a la vez. De esta manera, el suscriptor tiene menos mensajes para procesar dentro de la fecha límite. Vencen menos mensajes y se vuelven a entregar menos mensajes.

Para reducir la cantidad de mensajes que el suscriptor extrae a la vez, debes reducir la configuración de la cantidad máxima de mensajes pendientes en la configuración del control de flujo de tu suscriptor. No hay un valor único que se adapte a todas las situaciones, por lo que debes ajustar el límite máximo de mensajes pendientes según tu capacidad de procesamiento y de suscriptores. Ten en cuenta que cada aplicación procesa los mensajes de manera diferente y tarda una cantidad de tiempo distinta en confirmar la recepción de un mensaje.

Cómo forzar reintentos

Para forzar a Pub/Sub a volver a enviar un mensaje, envía una solicitud nack. Si no usas las bibliotecas cliente de alto nivel, envía una solicitud modifyAckDeadline con un ackDeadlineSeconds establecido en 0.

Claves de ordenamiento

Cuando Pub/Sub vuelve a entregar un mensaje con una clave de ordenamiento, también vuelve a entregar todos los mensajes posteriores con la misma clave de ordenamiento, incluso si se confirmó su recepción anteriormente. Esto se hace para conservar el orden de la secuencia. Sin embargo, no hay una garantía estricta de que los mensajes dependientes solo se envíen después de la confirmación de recepción exitosa de los mensajes anteriores en la secuencia.

El suscriptor envía NACK a los mensajes

Consulta el suscriptor está enviando NACK a los mensajes.

Soluciona problemas relacionados con una suscripción a StreamingPull

Relación entre la métrica de latencia de la solicitud y la latencia de entrega de extremo a extremo

En el caso de StreamingPull, la métrica serviceruntime.googleapis.com/api/request_latencies representa el tiempo durante el que la transmisión está abierta. La métrica no es útil para determinar la latencia de entrega de extremo a extremo.

En lugar de usar la métrica de latencia de solicitudes, usa la puntuación de estado de la latencia de entrega para verificar qué factores contribuyen a una mayor latencia de entrega de extremo a extremo.

Las conexiones de StreamingPull se cierran con un estado que no es correcto

Las transmisiones de StreamingPull siempre se cierran con un estado que no es correcto. A diferencia de un estado de error para los RPCs unarios, este estado para StreamingPull es solo una indicación de que el flujo está desconectado. Las solicitudes no fallan. Por lo tanto, aunque la API de StreamingPull puede tener una tasa de error del 100% que parece sorprendente, así se diseñó.

Debido a que las transmisiones de StreamingPull siempre finalizan con un error, no es útil examinar las métricas de finalización de la transmisión cuando diagnosticas errores. Más bien, enfócate en la métrica de respuesta de StreamingPull subscription/streaming_pull_response_count, agrupada por response_code o response_class.

Busca estos errores:

  • Pueden producirse errores de condición previa fallida si hay mensajes en los trabajos acumulados de suscripciones que están encriptados con una clave de Cloud KMS inhabilitada. Para reanudar la extracción, restablece el acceso a la clave.

  • Los errores de no disponibilidad pueden ocurrir cuando Pub/Sub no puede procesar una solicitud. Lo más probable es que esta sea una condición transitoria y que la biblioteca cliente reintente las solicitudes. No es necesario que realices ninguna acción si usas una biblioteca cliente.

  • Los errores de no encontrado pueden ocurrir cuando se borra la suscripción o si nunca existió. Este último caso se produce si proporcionaste una ruta de acceso a la suscripción no válida.

Referencias adicionales: