Análisis de Impacto de Negocios / Business Impact Analysis (BIA) ~ Segu-Info

Una vez se tiene el análisis de riesgos, este se convierte en el punto de partida del Análisis de Impacto de Negocios y/o Business Impact Analysis (BIA). Este BIA se constituye asi en el pilar sobre el que se va construir el Plan de Recuperación de Negocios. El BIA será la guía que determine que necesita ser recuperado y el tiempo que tarde dicha recuperación, actividades que en el Plan de Continuidad de Negocios se convierten quizás en las más difíciles y criticas por realizar adecuadamente. El apoyo del BIA es invaluable para identificar que esta en riesgo una vez se presente un riesgo permitiendo así justificar los gastos que se requieran en protección y capacidad de recuperación. Usualmente se habla de "critico" o "esencial" cuando se listan las actividades desarrolladas en una Organización.

Al hacer un BIA quizás resulte mas útil hablar de "tiempos inactivos", puesto que ninguna organización contrata un empleado para que realice labores "no esenciales", cada labor tiene un propósito, pero hay unas labores que son mas exigentes en su tiempo de ejecución que otras cuando hay limites de recursos o tiempos apretados de entrega para su realización. Veámoslo de este modo: Un banco que haya sufrido un percance por un pequeño incendio en la bodega puede detener su campaña publicitaria pero no podrá detener los procesos de retiros y depósitos de sus clientes. La campaña publicitaria del banco es esencial para su crecimiento a largo plazo, pero cuando se presenta una emergencia o desastre puede ser aplazada no por su criticidad sino por que su "tiempo de inactividad" puede ser mucho mayor y no afectar la operación del banco. La organización debe revisar cada una de las tareas que se realizan con el mismo patrón de referencia. Por cuanto tiempo puede dejar de realizarse esta actividad sin que ello cause perdidas financieras, quejas de los clientes, y/o penalizaciones legales o contractuales? Cuando se trata el tema de continuidad, todo gira alrededor del impacto. Es acerca de sostener la operación básica de la Organización mientras que lo demás se puede dejar en espera. Es centrarse en las operaciones que le permiten sobrevivir a la Organización. Todos los procesos de la Organización, así como los recursos tecnológicos en los que se soportan tales procesos deben ser clasificados de acuerdo a su prioridad de recuperación. Los tiempos de recuperación de los procesos para una organización están medidos por las consecuencias de no poder ejecutarlos.

De que consecuencias estamos hablando? Demandas en contra de la Organización por el incumplimiento de una entrega en una fecha determinada, perdida de reputación, etc. Generalizando, los impactos de un desastre pueden ser financieros, legales, o de retención/perdida de clientes.

Ahora, como realizar el análisis de impacto de negocios (BIA)? Se inicia identificando los procesos que se realizan en la organización, y asignándoles un líder; siendo ideal que ya exista un Sistema de Gestión en el que ya se haya hecho esta actividad. Con los lideres de proceso se puede conformar un "equipo de planeación" que hará la evaluación del proceso que tengan asignado. Una vez identificados procesos y sus lideres, se debe listar cada una de las actividades que se realiza para cada uno de los procesos para entender cual es el propósito de los mismos, y aquí se debe analizar cada actividad que se ejecute en tres aspectos: riesgo financiero de no ejecutar tal actividad, riesgo regulatorio o legal de no ejecutar tal actividad, y el riesgo reputacional o con el cliente de no ejecutar tal actividad. Aclaremos cada uno de los riesgos:

Financiero: incluye perdida de ingresos, pérdida de intereses con entidades bancarias, costos de pedir dinero prestado para hacer caja, perdida de ingresos por ventas no realizadas, penalizaciones por no cumplir compromisos contractuales o niveles de servicio, y oportunidades perdidas durante el tiempo inoperante.
Regulatorio: incluye perdidas por no presentar reportes financieros o de impuestos en las fechas indicadas, demandas o penalizaciones por incumplir requerimientos obligatorios en las actividades de la Organización (por ejemplo ambientales), o la obligación de tener que retirar productos en venta por falta o in suficiencia en la realización de pruebas del producto antes de ponerlo a disposición del consumidor final.
Reputacional o con el cliente: incluye la perdida de confianza por parte de los clientes y del mercado, reclamaciones de responsabilidad, clientes insatisfechos por el servicio, apariciones en las noticias por quejas de los clientes, perdida de reputación, y perdidas de ventajas competitivas.

Una vez que el Equipo de Planeación tienen una lista de todas las actividades y sabe que pasa si no se realizan, la siguiente respuesta a obtener es que tan pronto veremos el impacto? Será tan pronto se deje de hacer una actividad? Un callcenter que sea evacuado por un posible incendio deja de funcionar inmediatamente. A menos que haya un callcenter alterno donde se pueda operar para seguir recibiendo llamadas, el impacto a los clientes es inmediato. Que tan significativo sea dicho impacto depende enteramente del negocio o actividades que maneje una Organización: cuantas llamadas se reciben y que servicio busca cada una de ellas.

A manera de ejemplo, un callcenter en promedio puede recibir 1.200 llamadas en promedio por hora, 72% de ellas finalizan con una venta de U$57 dólares, asi que haciendo cuentas 1200 x 0.72 x $57 = $49,248 cuesta cada hora de servicio que el callcenter este fuera de operación. Si los clientes o potenciales consumidores encuentran lo que desean comprar en una pagina de internet, realizan la orden y el sitio deja de funcionar, hay un impacto inmediato. El impacto depende estrictamente de la actividad que realice una Organización, de cuantas ordenes de trabajo se reciben, que cuesta cada orden, y saber si el cliente esta dispuesto a esperar a realizar su pedido hasta que se restablezca el servicio o ira a solicitarlo a otro proveedor (siempre pueden ir con la competencia!!!).

Cuando el equipo de planeación tiene la lista de actividades, una idea de que ocurre cuando dejan de ejecutarse, y en que tiempo empezaran a ver el impacto, es hora de cuantificar el impacto. Se pueden utilizar medidas cuantitativas como dólares por minuto, hora o día de inactividad, o medidas cualitativas que permitan predecir resultados basados en el conocimiento o experiencia de los miembros del equipo de planeación o compañeros de trabajo. Una vez se completa esta actividad ya tenemos una vista general de todo lo que realiza la compañía, que impacto tiene para la organización que no se ejecute un proceso o una actividad, que tan rápido se sentirá ese impacto y que tan fuerte impactara a la organización. Esta información será el punto de partida para desarrollar estrategias de recuperación para cualquier organización.

Ya con esta información recopilada, se hace necesario determinar en una escala los tiempos de recuperación óptimos. A manera de ejemplo, se puede determinar que estas son las categorías a emplear:

Categoría 1: Procesos Misionales y/o Críticos (0 a 12 horas)

Funciones que pueden realizarse sólo si las capacidades se reemplazan por otras idénticas.
No pueden reemplazarse por métodos manuales.
Muy baja tolerancia a interrupciones.

Categoría 2: Vitales (13 a 24 horas)

Pueden realizarse manualmente por un periodo breve.
Costo de interrupción un poco más bajos, sólo si son restaurados dentro de un tiempo determinado (5 ó menos días, por ejemplo).

Categoría 3: Importantes (1 a 3 días)

Funciones que pueden realizarse manualmente por un periodo prolongado a un costo tolerable.
El proceso manual puede ser complicado y requeriría de personal adicional.

Categoría 4: Menores (Mas de 3 días)
Funciones que pueden interrumpirse por tiempos prolongados a un costo pequeño o nulo.

En este momento es que empezamos a hablar de los tiempos de recuperación, y entran en escena varios de ellos: RTO, RPO, MTD y WRT. Vamos con cada uno de ellos:

Los RTO y RPO

Son parámetros específicos que están íntimamente relacionados con la Recuperación de Desastres y tienen que ser tomados en consideración para que un plan de este tipo pueda ser implementado. El RTO (Recovery Time Objective) es el Tiempo objetivo de recuperación, en otras palabras cuanto puede permanecer la Organización sin ejecutar una actividad, el uso de una aplicación (hardware y/o software) o información relevante. Frecuentemente es asociado con el tiempo máximo de inactividad. El RTO se utiliza para decidir cada cuanto se deben realizar respaldos de información o backups; también es útil para decidir que infraestructura es requerida para reiniciar operaciones, por ejemplo un centro de cómputo alterno de similares especificaciones al existente en la Organización, o un callcenter paralelo en una ubicación diferente a la que se utiliza de manera permanente. Si en su organización hay un RTO con valor CERO (no puede ser inferior a esta cifra), inevitablemente su Organización tendrá que contar con una infraestructura redundante con respaldos de información en sitios alternos y así sucesivamente. Ahora, si se tiene un RTO de 48 o 72 horas entonces un respaldo de información en cinta será suficiente para esa aplicación en particular.

El RPO es ligeramente diferente. Este parámetro nos dice que cantidad de información puede la Organización perder. En otras palabras, si su organización realiza respaldos nocturnos de información todos los días a las 7:00 PM y el sistema colapsa al día siguiente a las 4:00 PM, toda actualización que se realice desde su último respaldo se perderá. El RPO para este contexto será el respaldo de información que haya realizado en el día anterior. Ahora, si estamos hablando de un banco que hace transacciones en Internet, el RPO debe ser prácticamente igual a cero, incluyendo la última transacción y el último bit de información que se haya manejado. Así las cosas, el RPO nos dice que clase de protección se requiere para la información que se maneja en su Organización.

Así las cosas, el RTO y el RPO influyen por completo en la infraestructura de soporte y respaldo que vaya a utilizar en su organización. Entre mas se reduzca e RTO y el RPO, mas dinero debe invertirse en seguridad.

Maximum Tolerable Downtime (MTD) o Maximum Tolerable Outage (MTO)

Tal como suena, es el tiempo máximo de inactividad que la organización puede tolerar la ausencia o no disponibilidad de una función o proceso. Diferentes procesos o tareas dentro de la organización pueden tener diferentes MTD. Si una función de la Organización esta categorizada dentro de la Categoría 1, obviamente tiene el MTD mas corto. Hay una correlación entre la criticidad de las funciones o procesos de la organización y su tiempo máximo de inactividad. A mayor criticidad, menor tiempo de espera a que se reinicie la operación en ese proceso o función. El tiempo de caída o de inoperancia se constituye por dos elementos: el tiempo de recuperación del sistema y el tiempo de trabajo en recuperación o WRT. Así las cosas, MTD = RTO + WRT.

Work Recovery Time (WRT) Tiempo de trabajo en Recuperación.

Este segmento comprende el máximo tiempo de inactividad posible o MTD. Si su MTD es de 3 días, probablemente el día 1 sea el RTO y los dias 2 y 3 pueden ser los WRT. Como es de esperar, toma tiempo hacer que las funciones criticas de la Organización estén nuevamente operando (hardware, software, configuraciones necesarias, etc), y este es un tema que usualmente se ignora en las etapas de planeación, especialmente por Sistemas o IT. Si los sistemas están nuevamente funcionando, eso es todo desde la perspectiva de sistemas o IT. Pero que ocurre desde una perspectiva de negocios? Hay pasos adicionales a tenerse en cuenta antes de que los sistemas estén operando como conseguir una ubicación alterna, conseguir los equipos, conexión a banda ancha, etc, etc y que tienen que ser obligatoriamente contemplados en la definición del MTD; y si no se tiene en cuenta se esta poniendo en riesgo a la organización al no haber tomado tales tiempos en consideración.

Veamos como interactúan estos tiempos:

Punto 1: RPO La máxima cantidad de información que se puede perder de acuerdo al cronograma de realización de copias de respaldo y/o necesidades de información que se presenten.
Punto 2: RTO Tiempo requerido para que los sistemas críticos de la Organización estén nuevamente operando
Punto 3: WRT Tiempo requerido para recuperar la información perdida (Basado en el RPO), así como de ingresar al sistema todos los datos que se generaron durante la caída del sistema.
Punto 2 y 3: MTD La duración del RTO mas el WRT
Punto 4: Pruebas, verificación e inicio normal de operaciones

Durante la ejecución normal de operaciones, usualmente hay una diferencia entre el último respaldo de información realizado y el estado actual de la información. En algunos casos, este lapso puede ser de minutos u horas, pero en la mayoría de casos siempre será de horas o días. Este marco de tiempo es el punto objetivo de recuperación. En muchas organizaciones este es precisamente el lapso de tiempo que existe entre cada una de las copias de respaldo que realizan. Observando el circulo con el numero 1 se aprecia la diferencia existente entre la realización de la ultima copia de respaldo y el estado actual de la información, justo antes de la caída del sistema. Ese es el momento en el cual uno o más de los sistemas críticos dejan de estar disponible y se inicia el Plan de Continuidad y/o de Recuperación de Desastres. La primera fase del MTD (tiempo máximo de inactividad que la organización puede tolerar la ausencia o no disponibilidad de una función o proceso) es el objetivo a cumplir. En este marco de tiempo los sistemas se evalúan, reparan, reemplazan y reconfiguran. El RTO finaliza cuando los sistemas nuevamente están en línea y la información es recuperada hasta el último respaldo de información disponible. Justo allí es cuando empieza la segunda fase del MTD.

Es en esta fase cuando la información es recuperada através de procesos automatizados y/o manuales. Hay dos elementos en la recuperación de información, el primero es la restauración de la información perdida, y la segunda es la carga de la información recopilada de manera "artesanal" por que no había manera de ingresarla al sistema. La mayoría de empresas realizan las dos fases mencionadas en ese mismo orden, pero habrá casos en los que el Plan de Recuperación pueda dictar lo contrario. Aquí la clave es entender que hay un retraso entre el momento en que los sistemas vuelven a estar completamente operativos y el momento en el que se pueden reasumir las operaciones normales. Durante los periodos indicados con los círculos con los números 2 y 3, se hará el trabajo con mecanismos alternos y/o manuales. Estos procesos se reactivaran posteriormente de acuerdo a lo que se defina en el Plan de continuidad. Por ejemplo, si una base de datos financiera esta inaccesible, como se podrán registrar los pagos, las ventas, y todas las actividades relacionadas por todo el equipo de trabajo? Es necesario definir eso en el proceso de planeación. El Circulo con el Numero 4 indica la transición entre recuperación de desastre y continuidad del negocio de nuevo hasta la operación normal. Es probable encontrar que sea necesario realizar procesos manuales que deberían ser automatizados, pudiendo planear el regreso a la normalidad por quizás departamentos de la organización o zonas geográficas.

Para finalizar, los dejo con un diagrama que explica las entradas y las salidas de un BIA.

Fuente: Leonardo Camelo - Seguridad Información Colombia

30 ago 2014