Métodos cuantitativos y análisis del riesgo tecnológico

El análisis y gestión de riesgos en el ámbito de la tecnología es considerado por muchos profesionales casi como un arte. Comparto en gran medida esta opinión. En este campo, las dificultades para disponer de series de datos históricas hacen que el uso de modelos estadísticos predictivos, con larga tradición en otros dominios de riesgo, sea en gran medida inviable y tengan que ser suplidos por la experiencia y el juicio de los profesionales.

No es de extrañar que algunos CEO acaben frustrados cuando los responsables de seguridad de la información tienen grandes dificultades para responder de manera clara y sencilla a preguntas aparentemente tan simples como: “¿En qué grado incrementaremos la seguridad de nuestro sistema sin invertimos en un firewall de aplicaciones?“. Está claro que tenemos que encontrar formas nuevas de abordar estos problemas; formas que permitan combinar el valioso juicio profesional de los expertos con técnicas cuantitativas y  llevar la disciplina del análisis de riesgos tecnológicos a un nuevo nivel de madurez.

En este artículo analizaremos las limitaciones de las técnicas de análisis del riesgo tecnológico más habituales y presentaremos el potencial que presentan técnicas más innovadoras como las redes causales probabilísticas.

 Limitaciones en los análisis de riesgos al uso

En la siguiente imagen puede verse un ejemplo figurado de la documentación típica de análisis de riesgos que se maneja habitualmente en el ámbito de gestión del riesgo operacional y tecnológico.

AnalisisRiesgos-1024x259

Como puede verse, se trata de un inventario de riesgos en el que los analistas hacen una atribución del riesgo de cada uno de ellos, calculado como combinación de la estimación de la frecuencia de ocurrencia del evento y el impacto para el negocio. En primer lugar se estima el riesgo inherente del escenario. En esta fase los participantes en el análisis deben tratar de calcular el nivel de riesgo sin tener en cuenta el efecto mitigatorio de controles que puedan estar implementados. Una vez estimado el riesgo inherente, para cada riesgo con un nivel significativo, se identifican por parte de los participantes en el análisis los controles que están implementados y/o aquellos que aunque no implementados, se recomienda que lo sean. Tras esta identificación de los controles, los analistas vuelven a estimar el riesgo residual tras considerar el grado en que los controles mitigan el escenario de riesgo.

Todo queda muy ordenado y permite mostrar (al menos de manera teórica) el efecto que los controles tienen en la reducción del riesgo. Los analistas han hecho su trabajo y desde un punto de vista de cumplimiento, nadie puede negar que se estén tomando en consideración los riesgos. Tras una larga experiencia como analista de riesgos, he de decir que en muchos casos estos métodos al uso dan buen resultado; sin embargo, también he podido ser consciente de las múltiples limitaciones de estas técnicas:

  • Dado que normalmente no se dispone de series históricas de datos, la estimación de la frecuencia y/o el impacto de cada escenario es meramente subjetiva.
  • No existen normalmente datos objetivos que permitan avalar el efecto mitigador del riesgo que normalmente se atribuye a los controles implantados.
  • En relación con riesgos como el tecnológico, en la estimación del riesgo inherente, es prácticamente imposible para un analista figurarse en la mayoría de los casos cuál puede ser el nivel de riesgo en una ausencia total de controles. En mi opinión, la única razón por la que en este tipo de análisis se emplea tiempo en estimar el riesgo inherente es para poder justificar de alguna manera que la inversión en controles tiene un efecto reductor del riesgo.
  • Al tratarse de un inventario lineal de riesgos, no queda bien reflejado el efecto multiplicador o reductor de varios escenarios de riesgo combinados.
  • Del mismo modo, este tipo de modelos lineales de riesgos no permiten capturar las relaciones causa-efecto entre determinadas circunstancias y el nivel de riesgo final.
  • Es fácil caer en la suposición de que los controles tienen un efecto perfecto y constante en la mitigación de los riesgos, cuando en realidad los controles pierden efectividad con el paso del tiempo y/o no se implementan de manera totalmente efectiva
  • La experiencia demuestra que es fácil caer en un comportamiento estereotipado que lleve a los analistas a ajustar los niveles de riesgo estimado, de modo que haya riesgos inherentes altos o críticos y riesgos residuales bajos o medios.

Limitaciones de los modelos estadísticos tradicionales

Como ya hemos visto en algún artículo anterior, con respecto a la gestión del riesgo operacional, es frecuente el uso del método de distribución de pérdidas (LDA, Loss Distribution Approach). Este método consiste en el cálculo mediante procedimientos estadísticos tradicionales de una distribución de probabilidad que nos permita predecir las pérdidas esperadas anuales por incidentes. El modelo predictivo se construye a partir del histórico de pérdidas acaecidas como consecuencia de incidentes reales, consistiendo el primer paso en el cálculo de una función que represente la frecuencia anual de ocurrencia de estos incidentes y el segundo paso en el cálculo de una función de distribución de la severidad de las pérdidas. Normalmente se asume que la frecuencia se ajusta a una distribución de Poisson que es un estándar en la industria para modelar eventos distribuidos aleatoriamente; en el caso de la distribución de severidad, la curva teórica se ajusta a partir de los datos reales siguiendo el método de máxima verosimilitud.

Distribuciones_Parciales_03

Una vez que las distribuciones de frecuencia y severidad han sido modeladas, el siguiente paso es usar esas distribuciones para generar una serie de datos simulados que tienen las mismas características que las de los incidentes reales usados para calcular ambas distribuciones: Primero se elige aleatoriamente un dato en la distribución de frecuencia calculada en el paso primero, esto determinará el  número de incidentes que se pronostica que puedan ocurrir en un año. Después, para cada uno de estos incidentes simulados se calcula su severidad obteniendo un valor aleatorio de pérdidas desde la distribución de severidad. La suma de estos importes de pérdidas simuladas dará el valor acumulado anual de pérdidas esperadas en este primer año simulado. El proceso descrito se repite millones de veces, para obtener millones de simulaciones de pérdidas anuales. Los datos obtenidos de estas millones de simulaciones se ordenan de mayor severidad a menor severidad. El percentil 99,9 % de esta distribución marca el punto que nos permitirá estimar con ése nivel de confianza el máximo nivel de pérdidas esperadas en un año.

Aún siendo de mucha utilidad, este tipo de modelos tiene también bastantes limitaciones que deben ser consideradas:

  •  Estos modelos son útiles para predecir el futuro, siempre y cuando éste se ajuste a condiciones semejantes a las del pasado en el que se obtuvieron los datos históricos usados para calcular el modelo. Como se suele decir, estos modelos son “muy buenos para predecir el pasado, pero no tan buenos haciendo predicciones sobre el futuro”. En un entorno de incertidumbre y de rápido cambio del contexto tecnológico, la asunción de que el futuro se ajustará a las condiciones del pasado, no parece muy acertada.
  • En el caso de incidentes relacionados con la tecnología, es difícil que se disponga de un histórico de datos suficientes para poder construir el modelo. Además, aún siendo capaces de obtener datos históricos suficientes sobre aquellos incidentes que suelen suceder más habitualmente, suele ser muy difícil que éstos se ajusten a todas las restricciones y suposiciones metodológicas de las distintas técnicas estadísticas empleadas.
  • Estos modelos no sirven para predecir las pérdidas esperadas por incidentes extremos de baja probabilidad y alto impacto (ej: una explosión que destruye el centro de proceso de datos de la entidad, o un fraude de cientos de millones de euros como consecuencia de actividades de hackers).
  • Estos modelos no contemplan la relación causal entre variables, ni permiten profundizar en las causas raíz de los problemas, por lo que su única utilidad es calcular las provisiones de capital necesarias para afrontar las pérdidas.

Redes causales probabilísitcas

Una alternativa muy prometedora para superar las limitaciones descritas la plantean los modelos de redes causales basadas en los teoremas de probabilidad condicionada de Bayes. Las redes causales probabilísticas vienen siendo usadas en los últimos años en ámbitos tan diversos como el desarrollo de herramientas de soporte para el diagnóstico de enfermedades; el desarrollo de modelos expertos para la identificación de causas de problemas de software o el análisis de riesgo en el ámbito del riesgo operacional. En los últimos años he tenido la ocasión de experimentar con este tipo de modelos en el dominio del riesgo tecnológico y he de confesar que me entusiasma el potencial que presentan en éste ámbito.

Las redes Bayesianas son una forma gráfica de describir y analizar las relaciones de causa y efecto entre variables. Las redes constan de nodos (variables) que están interconectadas por grafos que representan las relaciones causales entre ellas. En este sentido, constituyen una forma muy intuitiva de plantear los problemas que es muy similar a los árboles de fallos (fault trees) o a los mapas de causas usados en el análisis de causas raíz.

rb_011

Figura: Modelo simplificado de red causal: El nivel de exposición del dispositivo a una infección a través de Internet (variable dependiente), como consecuencia de distintas variables independientes. 

Una vez definida la red (generalmente por parte de expertos en el ámbito del problema a estudiar) a cada nodo (variable) se le asigna una tabla de probabilidad asociada. En aquellas variables que se ven influenciadas por otras, la tabla representa la probabilidad condicionada a los valores de sus variables antecesoras. Una de las grandes ventajas del método es que en esta fase pueden combinarse tanto datos estadísticos cuantitativos que estén disponibles, como estimaciones subjetivas facilitadas por los expertos, lo que las convierte en un método idóneo en aquellos ámbitos en donde se carece de datos históricos.

 

rb_02Figura: Probabilidades asociadas a los nodos de la red, a partir de la estimación de las variables proporcionada por los responsables de una organización concreta.

A partir de esta definición inicial del modelo se puede empezar a experimentar con el mismo, ajustando las probabilidades inicialmente definidas. Este ajuste se puede realizar como consecuencia de la observación empírica de las variables o bien debido a un interés de observar como el modelo se comporta ante diferentes escenarios de tipo “¿Que sucedería sí...?”…. Cuando se introducen de esta manera valores observados en el modelo, entonces se recalculan automáticamente las probabilidades asociadas a todos los nodos de la red. Este tipo de análisis nos permite: observar como se comportan las variables dependientes, ante situaciones extremas hipotéticas (ejemplo de test de estrés); identificar las causas que más influyen en unas determinadas consecuencias e incluso estimar la probabilidad de una determinada consecuencia a partir de la medición empírica de una o varias variables.

rb_03

Figura: Probabilidad de infección de dispositivo, a partir de la comprobación empírica de que, en realidad, el 100% de los empleados navega sin restricciones y de que el 80% nunca ha recibido formación sobre hábitos de navegación segura. Puede observarse como la probabilidad de que un dispositivo de empleado acabe infectado ha aumentado algo más del 10%

En próximas entregas profundizaremos más sobre el uso de las redes probabilísticas en el ámbito del análisis de riesgo tecnológico; hasta entonces, un fuerte abrazo y gracias.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s