El análisis anual de interrupciones del Uptime Institute, publicado a principios de este año, llamó la atención sobre el persistente problema de las interrupciones del servicio de TI y del centro de datos. Junto con los datos de nuestra encuesta anual sobre interrupciones, el análisis explica, hasta cierto punto, por qué las inversiones hasta la fecha no han reducido en gran medida el problema de interrupción, al menos desde un punto de vista de servicio de extremo a extremo.

Recopilar datos de interrupciones es un desafío: no existe una base de datos centralizada de informes de interrupciones en ningún país (que conozcamos) y, salvo las reglas obligatorias, probablemente no las habrá. El análisis de interrupción del Uptime Institute se basó en informes en los medios, que sesgan los hallazgos, y en datos de encuestas, que tienen sus propios sesgos. Otras iniciativas tienen limitaciones similares.

El gobierno de los Estados Unidos también lucha por obtener una contabilidad precisa de las interrupciones del centro de datos / TI, incluso en industrias vigiladas de cerca con un perfil público. La Oficina de Responsabilidad del Gobierno de los EE.UU (GAO) emitió recientemente un informe (GAO-19-514) en el que documentó 34 cortes de TI de 2015 a 2017 que afectaron a 11 de las 12 aerolíneas seleccionadas (nacionales de EE.UU) Incluidas en el informe.

La GAO cree que alrededor del 85 por ciento de las interrupciones tuvieron como resultado algunos retrasos o cancelaciones de vuelos y el 14 por ciento causó una parada en tierra de varias horas o días. Por el contrario, Uptime Institute identificó 10 interrupciones importantes que afectan a la industria de las aerolíneas en todo el mundo en el período desde enero de 2016.

Los datos del Uptime Institute se obtienen de informes de los medios y otras fuentes más directas. No se espera que sea integral. Muchas, muchas interrupciones se mantienen lo más silenciosas posible y las partes involucradas hacen todo lo posible para minimizar el impacto. El enfoque basado en los medios proporciona información, pero probablemente subestima el alcance del problema de la interrupción, al menos en la industria de las aerolíneas globales.

Los datos del gobierno tampoco están completos. La GAO señala explícitamente muchas circunstancias en las que la información sobre interrupciones de TI de la aerolínea no está disponible para esta y otras agencias, excepto en casos inusuales. Estas circunstancias pueden involucrar a aerolíneas y aeropuertos más pequeños que no reciben atención.

La GAO también señala que los retrasos y las cancelaciones pueden tener múltiples causas, lo que puede reducir la cantidad de instancias en las que se culpa a un corte de TI. La siguiente ilustración de la GAO proporciona ejemplos de posibles efectos de interrupción de TI.

GAO outage

El informe señala además que: “No hubo datos gubernamentales disponibles para identificar interrupciones de TI o determinar cuántos vuelos o pasajeros se vieron afectados por tales interrupciones. Del mismo modo, el informe no describe los remedios dados a los pasajeros ni sus costos”. Sabemos, por supuesto, que algunas aerolíneas, Delta y United son dos ejemplos, se han enfrentado a importantes consecuencias financieras relacionadas con la interrupción.

Según los funcionarios de la agencia, las quejas de los consumidores derivadas de los cortes de TI representaron menos del uno por ciento de todas las quejas recibidas por el Departamento de Transporte de EE.UU desde 2015 hasta junio de 2018. Estas quejas plantearon preocupaciones similares a las que resultan de causas más comunes de interrupción del vuelo, como el clima. Es probable que todos estos incidentes traigan costos de reputación a las aerolíneas que son mayores que los costos operativos en los que incurren los incidentes.

La GAO no tiene el mandato de identificar las causas de las interrupciones que identificó. El informe describe las posibles causas en términos generales. Estos incluyen sistemas antiguos y heredados, sistemas incompatibles, complejidad, interdependencias y una transición a sistemas de terceros y en la nube. Otros problemas incluyeron fallas de hardware, interrupciones o ralentizaciones de software, fallas de energía o telecomunicaciones y conectividad de red.

La GAO dijo que: “Los representantes de seis aerolíneas, un experto en TI y otras cuatro partes interesadas de la industria de la aviación señalaron una variedad de factores que podrían contribuir a una interrupción o aumentar el efecto de una interrupción de TI. Estos factores iban desde la falta de inversión en sistemas de TI después de años de baja rentabilidad de la aerolínea, el aumento de los requisitos en sistemas antiguos o sistemas no diseñados para trabajar juntos y la introducción de nuevas plataformas y servicios orientados al cliente”. Todo esto no es una noticia de última hora para la industria. Profesionales, y muchos de estos temas han sido discutidos en las reuniones del Uptime Institute y en nuestras Preguntas frecuentes sobre interrupciones de la línea aérea de 2016.

El informe cita esfuerzos de prevención que reflejan temas estándar similares, con cinco aerolíneas que se están moviendo hacia modelos híbridos (distribuyendo cargas de trabajo y riesgos, en teoría) y dos mejorando la conectividad mediante el uso de múltiples proveedores de redes de telecomunicaciones. Las partes interesadas entrevistadas por la GAO mencionaron planificación de contingencia, estrategias de recuperación y pruebas de rutina del sistema; el uso de inteligencia artificial (aunque no está claro para qué funciones); y simulacros de interrupción como medios para evitar y minimizar las interrupciones del sistema.

En resumen, la GAO pudo arrojar algo de luz sobre un problema conocido pero no pudo generar un registro completo de los cortes en la industria de las aerolíneas estadounidenses, proporcionar una estimación de los costos directos o indirectos, explicar su gravedad e impacto o señalar sus causas. Como resultado, cada aerolínea es independiente para determinar si investigará los cortes, identificará las causas o invertirá en remedios.

Hay poco intercambio de información; el sistema de informe de incidentes anormales de Uptime Institute examina las causas de eventos específicos del centro de datos, pero no es específico de la industria y no capturaría muchos eventos relacionados con la red o la TI. Aunque ha habido algunos llamados para compartir más, dentro de las industrias y más allá, hay pocas señales de que la mayoría de los operadores estén dispuestos a discutir abiertamente las causas y fallas debido a los peligros de daños a la reputación, demandas judiciales y explotación por la competencia.


Por Kevin Heslin, editor jefe del Uptime Institute. Se desempeñó como editor en New York Construction News, Sutton Publishing, IESNA y BNP Media, donde fundó Mission Critical