Resumen de la caida del dia 4 de agosto, alcance y medidas tomadas para que no se vuelva a repetir

Lo primero presentarme, soy Juan Carlos Celaya, jefe y fundador de factoriadigital, puede que ya me conozcas, pero por si acaso.

Hace un par de días hubo serios problemas técnicos, sin precedentes en esta empresa, que dejaron a los clientes alojados en el nodo epsilon (491 webs) sin servicio una noche y con lentitud importante hasta la madrugada del día siguiente. El motivo de este email es explicar que sucedió, su alcance y las medidas que tomamos y vamos a tomar ya que he visto que a pesar de la comunicación que hemos dado hay muchas dudas aun.

Procedo a explicar:

Que sucedió exactamente?

A las 21:30h del martes 4 de agosto saltaron nuestros sistemas de monitorización, un servidor, epsilon, estaba desconectado.

El daño era severo, todos los discos que alojaban las bases de datos y el sistema operativo habían saltado por los aires. Esto es extremadamente raro ya que tomamos muchas precauciones para que esto no ocurra, a saber:

  • Copia en tiempo real de todos los discos (RAID 1 y 5), si salta un disco otro disco que es una replica exacta de los contenidos lo reemplaza automáticamente.
  • Fuentes de alimentación independientes y circuitos eléctricos redundantes, un principio similar al anterior.
  • Conectividad de red redundante y proveedores de red independientes, mismo principio que con la electricidad
  • Sensores de monitorización y alerta temprana para fallos de hardware o red

Más tarde supimos que el problema era en uno de los pocos elementos que no se pueden redundar, la controladora de discos se había vuelto loca y había desconectado los discos provocando dicha corrupción de datos. Esto, si bien es posible, es muy poco probable que ocurra, en 10 años que llevamos dando servicios de hosting es la primera vez que nos sucede de hecho.

Rápidamente, después de sustituir los elementos dañados, nos pusimos a reinstalar el sistema operativo y configurar el servidor durante la noche del 4 al 5 de agosto y a restaurar bases de datos de la ultima copia de seguridad disponible, del mismo dia 4 a las 3 de la madrugada. Las copias de seguridad se almacenan en servidores independientes para mayor seguridad, por si ocurriese algún tipo de daño físico.

Fuimos reponiendo el servicio gradualmente a todos los usuarios a lo largo del día 5, a la mayor velocidad posible sin provocar daños adicionales, y aunque las webs funcionaban lo hacían con lentitud debido al proceso de restauración de bases de datos, que acabó casi a medianoche.

Finalizamos las tareas de optimización de rendimiento y otros detalles a las 4:25 de la madrugada del dia 6 de agosto.

Al fín el servicio volvió a la normalidad tras casi 31h infernales donde nuestro jefe de técnicos durmió 1h, yo 3, y nuestros técnicos hicieron un esfuerzo formidable por atender a los clientes y resolver incidencias individuales de los clientes afectados y no afectados.

Alcance

Lo más importante: no se ha comprometido la seguridad del sistema, no ha entrado ningun hacker, no hay que cambiar claves ni nada por el estilo.

Los correos y ficheros de la web no se han perdido, siguen intactos, inclusive los correos que mandaron mientras las webs no funcionaban.

Las bases de datos se restauraron con la copia del dia 4 de agosto a las 3 de la madrugada, y se perdieron los cambios del dia 4 y puede que parte del dia 5, dependiendo del caso, segun lo que haya tardado en restaurarse su cuenta.

Ahora todo funciona con normalidad.

Medidas

Tomadas: reemplazo del hardware defectuoso y restauración de datos

En curso: estudio de viabilidad del paso a cloud, ya que si bien es un fallo muy poco habitual (nos ha pasado una vez en 10 años), es imposible redundar una controladora RAID, con lo cual la unica solucion para evitar este tipo de problemas es el paso a cabinas de discos, una tecnologia diferente y mejor, más cara pero más estable aun. Esto no supondra un incremento de precio para los clientes actuales.


Dudas?

Estoy a tu entera disposición para cualquier consulta que tengas a traves de los comentarios de este post.

Puntuación de los visitantes, si te ha sido util danos estrellas 😉
[0 sobre 0 votos]
Auditoría Web gratisSolicitar ayuda técnica
(Visited 55 times, 1 visits today)

Publicado por

Juan Carlos Celaya

Fundador y jefe de FactoriaDigital, desde el proyecto inicial en 1997 haciendo paginas web para PYMES, hasta ahora con más de 2.000 clientes satisfechos y creciendo. Sé lo que es levantar una empresa sin ayuda de ningun tipo y lo dificil que es abrirse camino, entiendo perfectamente a todos los autonomos y PYMES, asi como a los que aspiran a serlo, porque lo he vivido, y el objetivo de factoriadigital es conseguir que parte de ese proceso sea más facil.

2 thoughts on “Resumen de la caida del dia 4 de agosto, alcance y medidas tomadas para que no se vuelva a repetir”

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

FactoriaDigital te informa que los datos de carácter personal que nos proporciones rellenando el presente formulario serán tratados por FactoriaDigitalCom Soluciones Internet S.L.U. como responsable de esta web. La finalidad de la recogida y tratamiento de los datos personales que te solicitamos es para gestionar los comentarios que realizas en este blog. Legitimación: Al marcar la casilla de aceptación, estás dando tu legítimo consentimiento para que tus datos sean tratados conforme a las finalidades de este formulario descritas en la política de privacidad. Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en privacidad@factoriadigital.com, así como el derecho a presentar una reclamación ante una autoridad de control.

Notificarme los nuevos comentarios por correo electrónico. También puedes suscribirte sin comentar.