Noticia20M

Hemos tenido que comprobar una vez más a las duras la importancia que hoy en día tienen los servicios cloud de un gigante como Amazon. El pasado lunes, buena parte de Internet se vino abajo durante varias horas: plataformas bancarias, asistentes de voz, videojuegos y servicios empresariales comenzaron a fallar casi al mismo tiempo. La causa estaba en Amazon Web Services (AWS), la mayor infraestructura en la nube del mundo, que sufrió una caída masiva en su región más importante: US-East-1 (Virginia). Y aunque el origen estaba lejos de nuestro país, en España también pudimos sentir el terremoto digital.
Ahora, Amazon ha publicado el informe oficial del incidente y ha aclarado que el fallo no se debió a un error humano ni a un ciberataque, sino a un problema interno en sus sistemas de automatización.
El origen: un registro DNS vacío
Según explica AWS en su comunicado, la interrupción comenzó el 19 de octubre a las 23:48 hora del Pacífico, lo que en España son las 7:48 de la mañana, es decir: el despertar laboral de nuestro país. Se produjo cuando una de las automatizaciones que gestiona el sistema de nombres de dominio (DNS) de Amazon DynamoDB generó un registro vacío. Ese error, aparentemente menor, provocó que los servicios dejaran de encontrar las direcciones IP necesarias para funcionar.
El sistema estaba diseñado para corregir automáticamente estos casos, pero la automatización no se activó correctamente. El resultado fue un fallo en cascada que afectó a otros servicios dependientes, como EC2, Lambda o los Network Load Balancers, lo que a su vez provocó interrupciones en aplicaciones de terceros: desde bancos y webs corporativas hasta juegos online como Fortnite o asistentes como Alexa.
Para entenderlo de forma sencilla: todo empezó cuando un programa automático de Amazon, encargado de mantener en orden las direcciones de Internet que usan los servicios de AWS, se equivocó. En vez de guardar una dirección válida, guardó un espacio en blanco. Ese pequeño error hizo que otros sistemas no supieran adónde conectarse, como si intentaran llamar por teléfono a un número que no existe.
Normalmente, otro sistema debería haber detectado el fallo y haberlo corregido solo, pero esa corrección automática tampoco funcionó. A partir de ahí, el problema se fue extendiendo como una ficha de dominó: otros servicios de Amazon que dependen de ese sistema también empezaron a fallar, y con ellos las webs, apps y plataformas que usan la nube de Amazon para funcionar
Un fallo sin intervención humana
En su investigación, Amazon descubrió que el origen del problema fue lo que llaman una “condición de carrera”, una situación que ocurre cuando dos sistemas automáticos intentan hacer lo mismo al mismo tiempo y, por decirlo de forma sencilla, se 'estorban' entre sí.
En este caso, dos programas internos —llamados DNS Planner y DNS Enactor— estaban encargados de actualizar las direcciones internas de la red. Por un fallo en la sincronización, uno de ellos aplicó una versión antigua del plan de red y borró la información correcta, dejando parte del sistema sin las direcciones necesarias para funcionar.
Amazon aclara que no hubo intervención humana ni ataque externo. Todo se debió a un error interno en la automatización de sus sistemas DNS, mientras que el hardware —los servidores físicos— siguió funcionando con normalidad.
Medidas para evitar que vuelva a ocurrir
Para solucionar el problema y evitar que se repita, Amazon desactivó temporalmente los sistemas automáticos que causaron el fallo, llamados DNS Planner y DNS Enactor. Mientras tanto, sus ingenieros revisaron el código, añadieron nuevos controles de seguridad y diseñaron un mecanismo que impide que una versión antigua pueda sobrescribir a la actual.
Además, AWS ha mejorado las pruebas internas que detectan errores en el lanzamiento de nuevas máquinas virtuales y ha reforzado los sistemas que controlan la carga de tráfico en los servidores, para que no se saturen si ocurre otro fallo similar.
La compañía asegura que también ha revisado sus procesos de recuperación para poder responder más rápido en caso de que algo falle en el futuro.
Amazon quiere que si vuelve a producirse un error de este tipo, sus servicios puedan seguir funcionando sin afectar a millones de usuarios y empresas en todo el mundo.
No hay comentarios:
Publicar un comentario