Actuación ante la incidencia acaecida en el CPD el pasado 13 de Octubre

Categorias: General

El pasado domingo 13 de octubre de 2019 tuvo lugar una incidencia que afectó al suministro eléctrico del Centro de Procesamiento de Datos (CPD) de Telefónica de Alcobendas originando una discontinuidad parcial en la prestación de nuestros servicios. Para poder continuar detallando lo sucedido con esta incidencia de Hostinet, antes de nada, nos gustaría explicar brevemente a nuestros clientes qué es un Centro de Procesamiento de Datos (CPD) ó Datacenter.

QUÉ ES UN CPD:

Para poder ofrecer nuestros servicios de hosting a nuestros clientes los servidores de Hostinet se encuentran en el Centro de Procesamiento de Datos de Telefónica de Alcobendas en Madrid.

Un CPD es un espacio físico especialmente preparado como entorno operativo para para la actividad del alojamiento. Allí se encuentran servidores, equipos informáticos, equipos de red, sistemas de almacenamiento. Normalmente, son instalaciones (edificios o salas) con capacidad para alojar cientos de servidores que cuentan con control de acceso, dispositivos de seguridad, detección de humos en caso de incendio con extractores de aire y sistema de extinción, conectividad, suministro eléctrico redundado y continuado, así como una climatización óptima (temperatura y humedad).

Debido a que sin una energía eléctrica fiable los servidores no pueden funcionar en el ámbito operativo con garantías, la energía pasa previamente por la infraestructura del Sistema de Alimentación Ininterrumpida (SAI) con el objetivo de garantizar una alimentación filtrada y continua. No obstante, ante cualquier incidencia eléctrica como la sucedida este domingo, nuestros servidores están respaldados por los grupos de generadores diesel de back-up en una infraestructura redundante, sistemas de UPS, elementos redundantes de red y soporte 24x7x365 en caso de problemas.

ANÁLISIS DE LA CAUSA:

La causa de la incidencia del domingo 13 de octubre fue un doble corte eléctrico de la compañía suministradora. Las baterías auxiliares del CPD entraron en funcionamiento correctamente, sin embargo se produjo un fallo en la maniobra de conmutación automática con los servicios complementarios de energía, lo que provocó la discontinuidad en la prestación de parte de los servicios del CPD.

La incidencia se detectó el día 13 de octubre a las 14:15 por el Grupo de Operaciones 24×7 del Centro de Procesamiento de Datos. Tras realizar el oportuno diagnóstico, se escaló urgentemente al Departamento de Mantenimiento. En paralelo a los trabajos de diagnóstico del fallo y recuperación de suministro eléctrico, se comenzaron los trabajos de recuperación de las plataformas de servicios, sistemas de negocio y conectividad que habían sido afectados por la incidencia.

CÓMO SE ACTÚO DESDE HOSTINET:

La incidencia eléctrica del CPD se resolvió totalmente a las 16:25h y la conectividad hacia el exterior se recuperó para las 16:20h. No obstante, a partir de ese momento que el Centro de Datos estaba recuperado, comenzaría gradualmente la larga y ardua tarea de recuperación de los servidores durante las siguientes horas. Había vuelto el suministro eléctrico, pero ahora era el momento de volver a estabilizar todos los sistemas de Hostinet. A esta hora nuestros compañeros de Madrid se dirigen al CPD para revisar las maquinas y una vez allí observan que se han quemado y dejado de funcionar diversos elementos de red. Concretamente, un router full BGP, APCs, regletas eléctricas y fuentes de alimentación.

A las 20:00 los compañeros de Hostinet Madrid conseguían acceder a las máquinas conectándose físicamente una a una a las máquinas. A través de este procedimiento pudimos observar que los sistemas, servidores y máquinas no tenían daño físico y se procedió a la recuperación de cabinas de backups en primer lugar.

Una vez recuperado el sistema de copias de seguridad para salvaguardar el contenido almacenado en las diferentes máquinas, se procedió a recuperar los sistemas que se encargan del sistema virtualizado de almacenamiento. Tras las pertinentes comprobaciones de los elementos y la corrección de las corrupciones de datos originados por el corte eléctrico se procedió a conectarse y activar los sucesivos nodos de procesamiento. En este caso la redundancia de los sistemas de Hostinet ha permitido reactivar los servicios tal y como estos se encontraban antes de la incidencia sin necesidad de recurrir a los backups de seguridad.

Con el proceso concluido sobre las 4:00 AM de la madrugada, se comienzan las operaciones para reactivar los diferentes VPS de clientes y Hostinet. A esta hora contactamos con el soporte técnico de Telefónica indicándoles la necesidad de que nos permutasen los elementos quemados e inutilizados por unos nuevos, sin recibir respuesta por su parte.

A las 8:00 de la mañana del lunes se consigue restablecer las máquinas VPS de clientes y el servidor DNS primario que había quedado inutilizado durante la incidencia. Es en este momento en el que empieza la activación de todos los servidores, proceso que finaliza a las 09:30 de la mañana.

En esa hora aún no habíamos recibido respuesta a nuestra solicitud de permuta de los elementos dañados por el corte eléctrico en el CPD.

Durante el periodo de tiempo que cubre desde las 16:00 del domingo 13 hasta las 09:00 de la mañana del lunes 14 de octubre el personal de Sistemas de Hostinet no ha cesado ningún momento de buscar la solución técnica a los problemas ocasionados.

DURACIÓN E IMPACTO:

La duración de la incidencia en los servidores de Hostinet ha tenido una duración de 17 horas.

ACCIONES DE MEJORA Y PRUEBAS REALIZADAS EN EL CPD PARA AVERIGUAR LA RAÍZ DE LA INCIDENCIA:

Desde la recuperación del suministro eléctrico hasta las 17:00 del lunes, 14 de octubre, en el CPD de Telefónica de Alcobendas se han estado realizando distintos simulacros de pérdida de suministro hasta la detección del punto único de fallo sufrido. En este último simulacro ha sido detectado el motivo del fallo que se encontraba radicado en el Sistema de Transferencia de Cargas, que sufrió una avería eléctrica en una de sus tres fases que no le permitió funcionar con normalidad. La causa de esta avería sigue siendo analizada.

MEDIDAS DE CONTINGENCIA IMPLEMENTADAS EN EL CPD:

Se ha procedido a revisar el procedimiento de monitorización de alarmas de estado del Sistema de Transferencia de Cargas y el desborde a procedimiento manual de conmutación. Se ha reforzado la capacitación para la aplicación del procedimiento manual en los equipos de guardia 24×7. Adicionalmente se han planteado la aceleración del plan de inversiones previsto para el refuerzo y ampliación de los Sistemas de Alimentación Ininterrumpida y Sistema de Transferencia de Cargas.