8 ago 2011

Un rayo liquida (Amazon) EC2 de Irlanda

Resumen: Un rayo noqueó anoche los servidores del centro de datos de Amazon en Europa, el proveedor advirtió que algunos de los afectados enfrentarían demoras de hasta dos días para volver a estar en linea nuevamente.

Amazon dijo que algunos de sus clientes EC2 en Europa podrían sufrir interrupciones de 24 a 48 horas mientras el proveedor de la nube lucha por recuperarse del rayo que interrumpió el suministro eléctrico de sus centro de datos en Dublin, Irlanda. Tomó 3 horas recuperar la primera de las instancias afectadas la noche pasada en Europa, y después de casi 12 horas una parte permanecía fuera de línea, con efectos del golpe que demoraban su tiempo probable de recuperación. De la página de estado de Amazon (actualización de 12:08am PDT ):
"Debido a las escala de la interrupción de energía, un gran número de servidores EBS perdieron alimentación y requieren operaciones manuales antes que se puedan recuperar los volúmenes. Recuperar esos volúmenes requiere que hagamos una copia extra de toda la información, lo cual ha consumido la mayoría de la capacidad sobrante y demoró nuestro proceso de recuperación. Hemos podido recuperar las instancias EC2 sin conectarles los volúmenes EBS, así como también algunas instancias EC2 con los volúmenes EBS conectados. Estamos en el proceso de instalar capacidad adicional para poder soportar este proceso tanto mediante el agregado de capacidad disponible actualmente en el sitio como moviendo capacidad de otras zonas disponibles a la zona afectada. Mientras que muchos volúmenes serán recuperados en el trascurso de las próximas horas, preveemos que esto tomará de 24 a 48 horas hasta que el proceso se haya completado. En algunos casos las instancias EC2 o los servidores EBS perdieron la energía antes que la escritura a sus volúmenes fuera completamente consistente. Debido a esto, en algunos casos proveeremos a los clientes con la recuperación de una instantánea en lugar de recuperar su volumen de modo que puedan validar la salud de sus volúmenes antes de ponerlos de nuevo en servicio. Nos pondremos en contacto con aquellos clientes con la información respecto de la recuperación de su instantánea."
El apagón golpeó a los servidores en una de las tres zonas de disponibilidad en la región EU-WEST-1, pero los esfuerzos de recuperación han tenido efectos golpeando la capacidad en las otras dos zonas. El Servicio de Base de Datos Relacional (RDS) también ha sido muy afectado. EU-WEST-1 es el único centro de datos de Amazon en Europa, lo que significa que los clientes que deben mantener su información dentro de Europa por cumplimiento de la protección de datos, no tienen otra ubicación de contingencia disponible en Amazon.

Como sucedió el apagón, del historial de la página de estado de Amazon:
"Comprendemos en este punto que un rayo cayó en un transformador de un proveedor de servicio de una de nuestras zonas de disponibilidad en Dublin, provocando una explosión e incendio. Normalmente, a partir de la caída de suministro provista por el transformador, la carga sería trasladada sin problemas a los generadores de respaldo. La desviación del transitorio eléctrico causada por la explosión fue suficientemente grande para que se propagara al sistema de control de fase que sincroniza la planta de generador de respaldo, deshabilitando parte del mismo. Las fuentes de energía deben estar sincronizadas en fase antes que se pueda poner en linea con la carga. Poner en linea esos generadores requirió de sincronización manual. Ya hemos restaurado la potencia a la Zona de Disponibilidad y estamos levantando las instancias EC2. Estaremos revisando la aislación entre el sistema de control y otros componente. El evento comenzó a las 10:41 AM PDT con el inicio de recuperación de las instancias a la 1:47PM PDT."
En lo que parece ser un patrón típico cuando Amazon experimenta grandes apagones, sus clientes se han estado quejando de la información insuficiente que les dan para recuperarse. "Con AWS es más un proceso de decifrar por prueba y error con poca o pobre ayuda de Amazon," escribió un comentarista en un hilo relacionado con el apagón en un foro de discusión. "Espero que levanten las instancias que quedan pero según el tablero de servicio dicen que será en 24 a 48 horas. Esto podría arruinar totalmente a mi compañía"

Traducción: Raúl Batista - Segu-Info
Autor: Phil Wainewright
Fuente: ZDNet Blogs

Suscríbete a nuestro Boletín

1 comentario:

  1. Inaudito! no tenian un pararayos o algo así, me parece que amazon no ha estado a la altura en este caso.

    ResponderBorrar

Gracias por dejar un comentario en Segu-Info.

Gracias por comentar!