CASO DE ESTUDIO
Grupo Financiero mexicano diversificado
Es un grupo líder en servicios financieros con sede en México, que ofrece una amplia cartera de productos bancarios, de seguros y de inversión. La organización opera plataformas digitales a gran escala que brindan información y servicios financieros a equipos internos, socios y consumidores externos en toda la región.
Como parte de su estrategia digital, El Grupo, ofrece widgets y servicios financieros basados en datos que requieren alta disponibilidad, precisión y fiabilidad operativa. Dada la naturaleza regulada del sector financiero y la importancia de la información oportuna del mercado, la organización prioriza la resiliencia operativa, la observabilidad y la continuidad del servicio.
Desafío del Cliente
Vista simplificada del proceso
PRINCIPAL
Planteamiento del problema
Debido a la naturaleza altamente granular y cambiante de los datos financieros, las fallas en la actualización o ingesta de datos no son fácilmente detectables mediante la observación manual. Un widget puede continuar representándose correctamente mientras los datos subyacentes dejan de actualizarse, lo que obliga a los usuarios a notar discrepancias numéricas sutiles (por ejemplo, un cambio del 4,37 % al 4,36 %) en múltiples widgets e instrumentos, un enfoque que no es viable a gran escala.
Como resultado, el cliente carecía de:
• Visibilidad clara sobre cuándo un widget dejaba de actualizarse
• Información sobre la frecuencia con la que ocurrían estos problemas
• Capacidad para identificar la causa raíz de los fallos de actualización de datos
• Un mecanismo fiable para distinguir entre problemas de procesamiento de la plataforma y retrasos en los datos ascendentes
Esta deficiencia generaba un riesgo operativo, ya que las inconsistencias en los datos no detectadas podían afectar la confianza de los usuarios y la toma de decisiones financieras.
El cliente es responsable de la configuración y presentación de los widgets, incluyendo la selección de instrumentos financieros y las fuentes de datos de BMV. Nuestra organización proporciona el mecanismo de renderizado de widgets, los servicios backend que se ejecutan en AWS (tareas ECS) y el portal administrativo utilizado para gestionar las configuraciones de los widgets. Si bien somos responsables de la disponibilidad de la plataforma y del correcto renderizado de los widgets, los datos financieros provienen de BMV y quedan fuera de nuestro alcance operativo y contractual. No estamos autorizados a acceder, modificar ni validar los datos sin procesar de BMV.
Cuando se producen problemas, se generan registros de la aplicación y se almacenan en ubicaciones restringidas a las que el cliente tiene acceso. Sin embargo, sin herramientas dedicadas, analizar estos registros para comprender el comportamiento de la ingesta de datos, identificar patrones y determinar si un problema se origina en la plataforma o en BMV es una tarea compleja y requiere mucho tiempo. Por lo tanto, el cliente necesitaba una capacidad de observabilidad de autoservicio que le permitiera analizar registros de forma independiente, detectar anomalías y comprender los problemas de actualización de datos sin necesidad de acceder a la implementación interna ni al código fuente de la plataforma de widgets.
CÓMO
se utilizó AWS como parte de la solución.
Para abordar los desafíos de visibilidad operativa del cliente, respetando al mismo tiempo los estrictos límites de propiedad y responsabilidad, el socio diseñó e implementó una solución de observabilidad centralizada mediante Amazon OpenSearch Service con el complemento Observability. Esta solución permite al cliente analizar de forma independiente el comportamiento operativo y detectar problemas relacionados con los datos sin otorgar acceso a los servicios de backend, el código fuente ni la infraestructura subyacente de AWS.
Amazon OpenSearch Service fue seleccionado como la plataforma principal de análisis y visualización debido a su capacidad para ingerir, indexar y analizar de forma segura grandes volúmenes de registros de aplicaciones, a la vez que aplica controles de acceso precisos. A través de OpenSearch Dashboards, el cliente obtiene acceso controlado de solo lectura a los datos operativos, lo que le permite explorar registros, identificar patrones recurrentes y crear paneles de control alineados con sus widgets financieros y configuraciones de RIC.
La solución se implementó mediante Amazon ECS para las cargas de trabajo de las aplicaciones, con enrutamiento centralizado de registros implementado mediante AWS FireLens y Fluent Bit (aws-for-fluent-bit). Los registros emitidos por las tareas de ECS se enrutan, procesan y enriquecen de forma segura antes de ser incorporados a OpenSearch. La capa de registro está integrada con AWS OpenTelemetry (OTEL) para cumplir con los estándares de observabilidad de AWS y permitir la extensibilidad futura de métricas y rastreos. Todos los componentes de la infraestructura se aprovisionaron mediante AWS CloudFormation, lo que garantiza la consistencia, la repetibilidad y la auditabilidad.
Como parte de la colaboración, el socio también implementó paneles de observabilidad estandarizados para demostrar cómo se pueden detectar y analizar problemas operativos, como fallos de conexión y errores de aplicación, a lo largo del tiempo. Además, se incorporó al cliente a las funciones clave de OpenSearch, como Query Workbench y Event Explorer, lo que permite la exploración de registros de autoservicio, la detección de patrones y la recopilación de evidencia sin depender de la intervención del socio para el análisis rutinario.
Gracias a este enfoque, el socio proporcionó no solo una arquitectura de observabilidad segura y escalable, sino también la habilitación operativa necesaria para que el cliente monitoree de forma proactiva su plataforma, reduzca el tiempo de investigación de incidentes y distinga claramente entre problemas a nivel de plataforma y eventos de proveedores de datos externos.
PRINCIPAL
Resultados
La implementación de Amazon OpenSearch Service con el plugin Observability mejoró significativamente la capacidad del cliente para detectar, analizar y responder a problemas operativos que afectan a los widgets financieros de la Bolsa Mexicana de Valores (BMV). Al centralizar los registros de la aplicación y proporcionar paneles de análisis de autoservicio, el cliente obtuvo visibilidad continua del comportamiento de ingesta de datos y patrones de error que antes eran difíciles o imposibles de identificar mediante la observación manual.
Gracias a la solución, el cliente redujo el tiempo necesario para detectar problemas de actualización de datos, de varias horas o días de monitoreo manual a una identificación casi en tiempo real mediante paneles y consultas de registros. Se agilizaron los flujos de trabajo de investigación que antes requerían descargas manuales de registros y análisis ad hoc, lo que redujo el esfuerzo de investigación de incidentes en aproximadamente un 40-60% para problemas recurrentes, como fallos de conexión y errores de ingesta. Esto permitió una diferenciación más rápida entre problemas relacionados con la plataforma e incidentes de proveedores de datos externos, lo que permitió al cliente escalar los hallazgos validados a la BMV con evidencia de respaldo.
Además, el modelo de observabilidad de autoservicio redujo la dependencia operativa del socio para los diagnósticos rutinarios. El cliente ahora puede analizar registros de forma independiente, identificar volúmenes de errores anormales y correlacionar problemas a lo largo del tiempo sin necesidad de acceder a los servicios de backend ni a la infraestructura de AWS. Esta mayor transparencia operativa fortaleció la rendición de cuentas, redujo los ciclos de escalamiento y aumentó la confianza en la fiabilidad de la plataforma de widgets, lo que contribuye directamente a la continuidad del negocio y la confianza de los usuarios.


