Amazon Web Services (AWS) se disculpó con los clientes afectados por la interrupción masiva del lunes, después de desconectar algunas de las plataformas más grandes del mundo.

Snapchat, Reddit y Lloyds Bank fueron de más de 1000 sitios y servicios reportados como inactivos tras problemas en el corazón de las operaciones del gigante de la computación en la nube en el norte de Virginia, Estados Unidos, el 20 de octubre.

En un resumen detallado de lo que causó la interrupción, Amazon dijo que se debió a errores que impedían que sus sistemas internos conectaran sitios web con las direcciones IP que las computadoras usaban para encontrarlos.

«Pedimos disculpas por el impacto que este evento ha causado en nuestros clientes», dijo la compañía.

“Sabemos lo críticos que son nuestros servicios para nuestros clientes, sus aplicaciones y usuarios finales, y sus negocios.

«Sabemos que este evento ha tenido un impacto significativo en muchos clientes».

Si bien muchas plataformas, como los juegos en línea Roblox y Fortnite, volvieron a funcionar a las pocas horas de la interrupción, algunos servicios experimentaron un tiempo de inactividad prolongado.

Esto incluyó a Lloyds Bank, con algunos clientes que experimentaron problemas hasta media tarde, así como a la aplicación de pagos estadounidense Venmo y al sitio de redes sociales Reddit.

El apagón tuvo un gran impacto: al parecer, incluso interrumpió el sueño de algunos propietarios de camas inteligentes.

Eight Sleep, que fabrica «cápsulas» para dormir con opciones de temperatura y elevación que requieren una conexión a Internet, dijo que trabajaría para «proteger sus colchones contra fallas». después de algunos sobrecalentamientos e incluso se quedó atascado en una posición reclinada.

Muchos expertos dijeron que la interrupción demostró cuánto depende la tecnología del dominio de Amazon en el sector de la computación en la nube, un mercado acaparado en gran medida por AWS y Microsoft Azure.

La compañía dijo que también haría «todo lo que esté a su alcance» para aprender del evento y mejorar su disponibilidad.

En su largo resumen del apagón del lunesAmazon dijo que esto se debía a un problema en US-EAST-1, su mayor grupo de centros de datos que alimenta gran parte de Internet.

Los procesos críticos en la base de datos de la región, que almacena y administra los registros del Sistema de Nombres de Dominio (DNS), permitiendo a las computadoras entender las URL de los sitios web, están efectivamente desincronizados.

Según Amazon, esto desencadenó una “condición de carrera latente” o, en otras palabras, expuso un error latente que podría surgir en una secuencia improbable de eventos.

El retraso en un proceso, que según Amazon ocurrió el lunes por la mañana temprano, tuvo un efecto dominó que impidió que sus sistemas funcionaran correctamente.

Gran parte de este proceso está automatizado, lo que significa que se lleva a cabo sin intervención humana.

El Dr. Junade Ali, ingeniero de software e investigador del Instituto de Ingeniería y Tecnología, le dijo a la BBC que la «automatización defectuosa» estaba en el centro de los problemas de Amazon.

«La razón técnica específica es que una automatización defectuosa rompió el sistema interno de ‘libreta de direcciones’ del que dependen los sistemas en esta región», explicó.

«Así que no pudieron encontrar ninguno de los otros sistemas clave».

Al igual que otros, el Dr. Ali cree que esto resalta la necesidad de que las empresas sean más resilientes y diversifiquen sus proveedores de servicios en la nube «para que puedan recurrir a otros centros de datos y proveedores cuando no haya uno disponible».

“En este caso, aquellos que tenían un único punto de falla en esa región amazónica probablemente serían desconectados”, dijo.

Enlace de origen