Cloudflare explica cómo destruyó gran parte de Internet


Gran parte de Internet no estaba disponible ayer y muchos otros sitios web y servicios experimentaban un rendimiento lento. Inmediatamente quedó claro que el problema estaba en la red Cloudflare, pero a la empresa le llevó algún tiempo establecer la causa real.

Cloudflare dice que inicialmente pensó que estaba experimentando un ciberataque masivo, pero luego se dio cuenta de que los problemas fueron causados ​​por un error «doloroso» durante una actualización de software…

Como informamos ayer, la interrupción fue masiva.

Actualmente, una gran cantidad de aplicaciones y sitios web están completamente desconectados o experimentan interrupciones importantes debido a un problema con el proveedor de red de infraestructura Cloudflare. La CDN de Cloudflare impulsa los sitios web detrás de muchas aplicaciones líderes, por lo que cualquier interrupción en Cloudflare tiene amplias implicaciones. Esto incluye el sitio de redes sociales X (anteriormente Twitter), donde los usuarios actualmente no pueden publicar mensajes nuevos ni actualizar su feed. El problema parece estar afectando a los usuarios de Internet de todo el mundo.

Por qué Cloudflare pensó que estaba siendo atacado

Cloudflare dijo que el patrón observado fue que las conexiones se desconectaban durante unos cinco minutos a la vez antes de restaurarse y luego desconectarse nuevamente. Este patrón llevó a la empresa a creer que se enfrentaba a lo que describe como un ataque DDoS a gran escala, ya que un error técnico normalmente no se corrige por sí solo.

Un ataque distribuido de denegación de servicio ocurre cuando un actor malintencionado dirige un volumen muy alto de solicitudes a un servidor para utilizar toda su capacidad disponible, lo que significa que los usuarios reales no pueden acceder al servicio.

Lo que parecía ser una prueba más de un ciberataque resultó ser pura coincidencia.

Otro síntoma aparente que observamos fue sacarnos del equilibrio y hacernos pensar que podría ser un ataque: la página de estado de Cloudflare se cayó. La página de estado está alojada completamente en la infraestructura de Cloudflare, sin dependencia de Cloudflare. Aunque esto resultó ser una coincidencia, llevó a algunos miembros del equipo responsables de diagnosticar el problema a creer que un atacante podría atacar tanto nuestros sistemas como nuestra página de estado.

La verdadera causa fue un error de Cloudflare

Sin embargo, más tarde descubrió que el problema se debía a un error al actualizar un archivo utilizado por su sistema de gestión de robots.

Hay una regla no escrita en informática que dice que si tienes un problema con síntomas extraños, será un problema de permisos, y ese fue el caso aquí.

Esto fue provocado por un cambio en los permisos en uno de nuestros sistemas de bases de datos, lo que provocó que la base de datos generara múltiples entradas en un «archivo de características» utilizado por nuestro sistema de administración de bots. Este archivo de características, a su vez, ha duplicado su tamaño. Luego, el archivo de características más grande de lo esperado se propagó a todas las máquinas que componen nuestra red.

El software que se ejecuta en estas máquinas para enrutar el tráfico a través de nuestra red lee este archivo de funciones para mantener nuestro sistema de administración de bots actualizado con amenazas en constante cambio. El software tenía un límite en el tamaño del archivo de características que era menor que su tamaño duplicado. Esto provocó que el software fallara.

También había una explicación sencilla para el extraño ciclo de cinco minutos.

El archivo se generaba cada cinco minutos mediante una consulta que se ejecutaba en un clúster de base de datos de ClickHouse, que se actualizaba gradualmente para mejorar la gestión de permisos. Solo se generaron datos incorrectos si la consulta se ejecutó en una parte del clúster que se había actualizado. Como resultado, cada cinco minutos existía la posibilidad de que se generara un conjunto bueno o malo de archivos de configuración y se propagara rápidamente por la red.

La empresa se disculpó y calificó su error de «profundamente doloroso».

Lamentamos el impacto en nuestros clientes e Internet en general. Dada la importancia de Cloudflare en el ecosistema de Internet, cualquier interrupción de cualquiera de nuestros sistemas es inaceptable. Que hubo un período de tiempo en el que nuestra red no pudo transportar tráfico es profundamente doloroso para todos los miembros de nuestro equipo. Sabemos que te fallamos hoy.

Puedes leer una explicación más detallada en una publicación de blog de Cloudflare.

Accesorios destacados

Foto por seguro desempaquetar

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



Fuente