Volver

Reduzca los incidentes en el data center logrando el sello de Aprobación M&O del Uptime Institute

La certificación de tiers para data center de Uptime Institute es casi universal. CenturyLink siente que el sello de Aprobaciòn para Operación y Administración del Uptime es tan importante si es que no es más.

The causes of unplanned data center outages.  Image: Emerson Network Power (provided by Emerson, Uptime Institute, and Jason Weckworth)

Casusas de apagado no planeado en data centers.
 Imagen: Emerson Network Power (suministrada por Emerson, Uptime Institute, y Jason Weckworth)


"No pregunte si un data center particular tiene fallas. Pegunte que hacen ellos cuando tienen una falla," afirma Jason Weckworth, senior vice presidente y COO (Chief Opertions Officer) en RagingWire Data Centers. Weckworth, un veterano endurecido por las batallas, ofrece un ejemplo personal que involucra el debilitamiento de un apagado en un data center de RagingWire. "Yo recuerdo estar sentado frente a la Junta Directiva y directores a las 2:00 AM explicándoles que sabíamos de ese punto en ese momento," escribe Weckworth. "Pero nosotros no teníamos aún el análisis de causa - raíz."

La conversación entonces se tornó tensa. "Usted no ha dormido en dos días," dijo uno de los ejecutivos jefe. "Sabemos que estamos estables ahora, pero aún no tenemos una respuesta para la causa raíz de la falla, y tenemos compañías del Fortune 500 confían en nosotros para darles una respuesta inmediata y nuestro negocio completo está en riesgo."

Luego vino el uitimatum. "Así que no cometa un error. Habrá una persona que caiga, y este será Usted si nosotros no tenemos la respuesta pra probar que esto no volverá a suceder otra vez," continua el ejecutivo. "Usted tiene cuatro horas, o Usted y todos sus ingenieros están despedidos!"

La historia termina bien. Sin embargo, nueve años después, Weckworth no ha olvidado el incidente. "Nuestra meta común como operadores es mitigar el riesgo, resolver los incidentes rápidamente y a fondo," explica Weckworth, "y regresar la facilidad a su condición original, normal y con plena redundancia."

Sitios Uptime aprobados en operación y Administración

Weckworth cree que los operadores pueden reducir el impacto de los incidentes del data center uniéndose a la  Red del Uptime Institute. "La Red del Uptime Institute ofrece significativa interacción entre colegas y un forum seguro para transferir conocimiento libre de la influencia de vendedores o con preocupaciones sobre secretos comerciales," afirma el Uptime Institute. "La membresía incluye acceso a información sobre mejores prácticas basadas en evidencia; evaluaciones comparativas y reportes; seguimiento a incidentes y errores en detalle; y tendencias y eventos regionales, y visitas detras del escenario a facilidades de data center estado del arte."

CenturyLink, una compañía miembro, está de acuerdo con la filosofía del silo que se revienta del Uptime Institute. Durante una conversación telefónica, Joel Stone, vice-presidente de operaciones globales de data-center en CenturyLink, dijo: "El simple hecho es que los data centers requieren intervención de seres humanos para despejar las fallas y problemas que no están programados o reconocidos por los procesos automatizados."

Además de pertenecer a un red de colegas, y tener las certificaciones de tier del Uptime Institute, CenturyLink está comprometido en que cada uno de sus 58 data centers reciban el Sello de Aprobaciòn en Operación y Administración (M&O) del Uptime Institute en los próximos dos años, lo que Stone siente reducirá los incidentes, asegurará consistencia, y proveerá transparencia a su personal para garantizar que todos están siguiendo los mismos procesos a nivel global. CenturyLink es el primer proveedor de hospedaje en data center comprometido con las guías M&O del Uptime Institute.

Guías de M & O del Uptime Institute

Obtener el Sello de Aprobación M&O del Uptime Institute significa que el data center pasa en conjunto los siguientes procesos operacionales y administrativos. Este link contiene los criterios exactos examinados durante una auditoría de aprobación de M&O.

Staff y Organización: Tener suficiente personal calificado de staff (asesores de apoyo) para operar el data center es un requisito. El Uptime Institute verificar que los roles y responsabilidades están definidas y aprobadas por la gerencia, tener la certeza que toda la organización está enfocada en lograr los objetivos de no interrupciones deseados.

Mantenimiento: Uptime considera necesarios los programas de mantenimiento preventivo, soporte del vendedor, los recursos adecuados, y las capacidades de seguimiento.. "Un programa de mantenimiento preventivo que manteniene los equipos en las mejores condiciones de desempeño es la vía más efectiva para minimizar las fallas de los equipos," sugiere el sitio del Uptime. "Es necesario que existan procesos y procedimientos detallados para todas las actividades de mantenimiento necesarias."

Entrenamiento: El entrenamiento es otra consideración obvia. Sin embargo, los cambios no siempre se tienen en cuenta. "Al incrementrse el objetivo de tiempo en funcionamiento (sin interrupciones) o la complejidad del sitio, tanbién lo hacen los requerimientos para un programa de entrenamiento riguroso para prevenir el error humano," afirma la guía.

Uptime Institute también chequea el entrenamiento de terceros, con el fin de garantizar que los visitantes sean conscientes de las políticas y procedimientos específicas del sitio.

Planeación, Coordinación, y Administración: Esta parte del proceso de aprobación mira las políticas del sitio, las polìticas de administraciòn financiera, y las librerias sobre infraestructura del lugar -- específicamente que tan bien se siguen y entienden. También debe estar disponible en el sitio una completa libreria de referencia de la infraestructura y los planos - como se construyó actualizados.

Condiciones de Operación: El Uptime Institute quiere una administración consistente y documentada de la capacidad y puntos de ajuste (setpoints) que garanticen que existe un adecuado nivel de enfriamiento y energía eléctrica para los equipos de IT. Con respecto a la capacidad eléctrica, la guía menciona, "Se necesita establecer criterios de decisión para la administración de la carga, documentados, y practicados basados en la capacidad de los componentes eléctricos con el fin de asegurar que las máximas cargas no sobrecargarán y se reserva capacidad para swicheo (conmutación) entre componentes."

Por qué es esto importante para el Uptime Institute y CenturyLink

El Uptime Institute, como organización certificadora, considera que el comportamiento aprobado en cada uno de las áreas de proceso arriba mencionadas proveeran la mejor probabilidad de obtener una operación sólida 24x7. "Enfocarse en las actividades mencionadas conllevarán el logra de un desempeño completo y tiempo sin interrupciones acorde con la infraestructura instalada, mejora la eficiencia de las operaciones, y concreta oportunidades para mejor eficiencia energética," agrega la guía.

Algo más para considerar: CenturyLink cree que el Sello de Aprobaciòn M&O será tan común como la  Certificación de tiers del Uptime.

Versión libre al español por Gerardo Alfonso - Ingeal

Volver