Con el paso del tiempo la minería de datos se ha ido expandiendo a diferentes campos de aplicación tales como la prevención del terrorismo, detección del fraude, control de calidad y hasta la predicción de audiencias televisivas. Usualmente este tipo de sectores se caracterizan por el manejo de grandes cantidades de datos que requieren ser analizados y en muchos casos son utilizados para la toma de decisiones[1].
¿Qué es minería de datos? [2]
La minería de datos es el conjunto de técnicas y métodos que tienen como objetivo analizar y explorar grandes conjuntos de datos para encontrar tendencias, asociaciones y patrones desconocidos u ocultos en los datos. En resumen, la minería de datos es el arte de extraer información y posteriormente conocimiento a partir de los datos.
La minería de datos puede ser de tipo descriptiva y/o predictiva: la primera está diseñada para resaltar la información que se encuentra oculta en grandes cantidades de datos, mientras que la predictiva se emplea para extrapolar nueva información a partir de la ya existente, siendo esta nueva información de tipo cualitativa o cuantitativa.
"La minería de datos nos permite limitar la subjetividad humana en la toma de decisiones”[3]
¿Qué no es minería de datos? [4]
- Usar algoritmos sin ningún conocimiento estadístico
- Manipular los datos para encontrar relaciones que no existen
- Presentar datos en diferentes formatos
- Una actividad que demande altas cantidades de recursos de bases de datos
- El uso de un software incomprensible que requiera conocimientos avanzados de informática
La minería de datos y el Lavado de Activos
La minería de datos es una herramienta que tiene gran utilidad para la detección y prevención de transacciones y operaciones relacionadas con LA/FT. Para ilustrar lo anterior presentaremos algunas explicaciones y ejemplos para distintos sectores respecto a cómo la minería de datos puede ser aplicada para la prevención en el lavado de activos.
Sector Financiero
En el sector financiero se ha empleado extensivamente la minería de datos para determinar el perfilamiento del cliente y compararlo, posteriormente, con su transaccionalidad esperada. Esta aplicación es muy similar a la Inteligencia Analítica propuesta por Dorrington (2003), que consiste en el uso de la minería de datos y de texto para el descubrimiento de nuevos tipos de fraude y la identificación de datos atípicos a partir de segmentaciones[5].
Adicionalmente al perfilamiento, la industria financiera ha empleado el uso del scoring (comportamiento) de riesgo, que está basado en las técnicas de minería de clasificación; dicho puntaje mide la probabilidad con la que un cliente va a tener un inconveniente en el pago de sus obligaciones con productos que impliquen riesgo crediticio. El score se calcula a partir de la información transaccional y sociodemográfica del cliente recolectada durante un periodo de tiempo, el cual usualmente es de meses. [6]
Otro tipo de score es el de aplicación (o de aceptación), el cual se aplica a nuevos clientes o a quienes no han tenido mucha interacción con el banco. Debido a que la entidad financiera no tendría información suficiente para calcular un score basado en el comportamiento de dichos clientes, el score de aplicación se calcula a partir de los datos socio-ocupacionales que se contrastan con su información sociodemográfica, lo cual usualmente describe el nivel de vida y los hábitos de consumo del lugar donde vive el cliente [7].
Otra aplicación de la minería de datos en el sector financiero podría ser la de los árboles de clasificación, que se pueden emplear para facilitar el proceso de aprobación de un crédito. Por ejemplo, para el caso de una solicitud de un préstamo hipotecario, el árbol emplea la información suministrada por el solicitante, tal como: número de dependientes, relación préstamo/valor de la vivienda, estado marital, relación cuota/ingresos, tasa de interés, etc. Una vez realizada la técnica de minería, el árbol puede clasificar las solicitudes de crédito como Aprobadas o Denegadas[8].
Sector Real
En el sector real existe mucho potencial para realizar perfilamientos de proveedores a partir de información transaccional como, por ejemplo, tipo de producto/servicio suministrado, ubicación, cantidad, precio, frecuencia, etc. A medida que la empresa va desarrollando sus relaciones comerciales con sus proveedores, estos van desarrollado un patrón de comportamiento, se determinan las características y se pueden deducir variables como el promedio y desviación estándar esperado de las unidades compradas y/o precio. Es importante aclarar que un perfil no es necesariamente exclusivo para un único individuo, es decir, varias personas o empresas se pueden agrupar de acuerdo a sus características comunes, a lo cual se le denomina segmento. Para obtener los segmentos se requiere aplicar técnicas de minería de datos como árboles de clasificación (AID, CART, CHAID, C5.0) o conglomerados (centros móviles, K-medias, Kohonen networks, Ward).
A partir de los perfiles identificados se pueden realizar análisis de comportamientos o cambios de segmento y, contando con información adicional de los proveedores como por ejemplo su información financiera, se pueden detectar situaciones atípicas que colaboren a tomar decisiones comerciales al contar con indicios de sospecha de comportamientos poco éticos que pongan en riesgo la reputación y la moralidad de las empresas. Este tipo de análisis también es valioso para la identificación de casos de fraude interno, pues es posible identificar si los proveedores se encuentran vendiendo a precios superiores o inferiores a los establecidos en el mercado, y si lo hacen en complicidad con empleados de la compañía a cambio de recibir prebendas individuales.
Otro tipo de aplicación que requeriría el apoyo de minería de datos para detectar fraude interno consiste en la correlación entre los registros de proveedores y empleados para encontrar evidencia de empresas fachada creadas por estos últimos. El esquema consiste en desviar los recursos del empleador por medio de la aprobación de facturas que hagan los empleados a favor de la empresa fachada. Por lo general dichas empresas y los empleados que actúan fraudulentamente comparten datos básicos de contacto como son las direcciones y/o teléfonos[9].
Un ejemplo de la aplicación de minería de datos se puede encontrar en Amazon.com, quien en cerca de seis meses logró reducir sus tasas de fraude en un 50% gracias a la aplicación de técnicas de minería de datos, Dichas técnicas les permitió encontrar patrones entre las transacciones y los datos del cliente. El gigante de Internet encontró que los productos electrónicos son los más usados para cometer fraude, dado que pueden ser fácilmente revendidos en canales de distribución no autorizados por el productor. Así mismo, descubrió que los delincuentes emplean el método de envío más rápido posible. Es importante aclarar que la simple combinación de estos factores no representa automáticamente un fraude sino que se requiere la combinación de otros indicadores para hacer un seguimiento al caso[10].
Sector Fiduciario
En el sector fiduciario, se puede aprovechar la información que solicita el nuevo reporte propuesto por el proyecto circular sobre los patrimonios autónomos enmarcados en la Ley 1508 de 2012 para identificar comportamientos de las APP (Alianzas Público Privadas) y conocer los intereses particulares de las entidades que intervienen en las alianzas.
Con la nueva información solicitada (Tiempo de ejecución, Código del Departamento/Municipio y Valor de los recursos suministrados) las entidades fiduciarias pueden realizar técnicas de minería de datos como segmentación o detección de anomalías para la identificación de comportamientos inusuales
Sector Solidario
El sector solidario está obligado a cumplir con el numeral 4.2.2 de la Circular Básica Jurídica No. 007 de 2008, a través del cual se solicita a estas entidades llevar a cabo una segmentación de los factores de riesgo que incluyen clientes, productos/servicios, canales de distribución y jurisdicciones. Para cumplimiento de lo anterior se podría, por ejemplo, emplear cualquiera de las técnicas de árboles de decisión y segmentar sus factores de riesgo. Esta segmentación no sólo colabora en la ampliación del conocimiento del negocio sino también se constituye en un insumo importante en la identificación de las operaciones inusuales a partir del análisis de los cambios significativos de segmento. El sector solidario tiene un gran potencial en el uso de minería de datos para mejorar el conocimiento del cliente expresado en el entendimiento de sus expectativas y la anticipación de sus necesidades[11].
Como se puede observar, la aplicación de la minería de datos en diferentes ámbitos de las entidades colabora con la optimización de procesos, selección de mercados objetivo, mejoramiento de las campañas de mercadeo, identificación de oportunidades de negocio, detección de fraude, prevención de lavado y/o financiación del terrorismo y conocimiento holístico de la organización.
Recomendaciones prácticas para un proyecto de minería de datos
- Si no tiene herramienta, pruebe con las ofrecidas gratuitamente como R, Weka y Rapid Miner.
- Los datos deben estar disponibles[12].
- Invierta tiempo en preparar los datos: use como mínimo los que la norma pide que consolide y los de segmentación.
- El problema no se debería resolver por medio de consultas OLAP ordinarias[13].
- Siempre tenga claros sus objetivos antes de empezar. Por ejemplo, establezca la tipología o el evento de riesgo que quiere detectar.
- Los proyectos de minería de datos SIPLA/SARLAFT son, principalmente, de conocimiento de los factores de riesgo (incluye conocimiento del mercado), detección (varias técnicas), medición del riesgo, evaluación de controles, monitoreo del sistema y análisis de casos particulares.
- El minero debe contar con habilidades numéricas, conocimiento en estadística, buen manejo de Excel y bases de datos, y por supuesto conocimiento en técnicas de minería de datos[14].
- Documente el proceso de minería de datos.
- Evalúe siempre los resultados frente a los objetivos.
- Use un equipo interdisciplinario conformado por personas con conocimientos de SARLAFT, mercadeo, operaciones y análisis de operaciones inusuales.
- Los resultados deben llevar a la toma de decisiones.
[1] TUFFÉRY, Stéphane. Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics). 2011. Pág. 1.
[2] Ibid., Pág. 4.
[3] Ibid., Pág. 2.
[4] Basado en: MÉNDEZ, Álvaro J.. Aplicaciones prácticas de Minería de Datos con IBM SPSS Modeler. 2010. P.
[5] DORRINGTON, Peter. Detecting & Eliminating the Risk of Fraud. A SAS White Paper. May 2003. Pág. 5.
[6] TUFFÉRY, Op. cit. Pág. 556.
[7] Ibid., Pág. 556.
[8]ROKACH, Lior y MAIMON, Oded. Data Mining with Decision Trees: Theory and Applications. Editorial World Scientific. 2007. Ubicación: River Edge, NJ, USA. Pág 6.
[9] Compliance Week and KPMG. En: Big Data Playing a Bigger Role in Fraud-Spotting. [En línea] (2012). [Extraído el 15 de Enero de 2 0 13]. Disponible en <http://www.complianceweek.com/e-book-on-big-data-the-risks-and-rewards-locked-in-vast-oceans-of-data/article/264525/>
[10] Amazon.com calls on SAS for fraud detection. En: Virtual Press Office. SAS. [En línea] Johannesburg, 20 May 2003. Disponible en <http://www.itweb.co.za/office/sas/PressRelease.php?StoryID=133874>
[11] TUFFÉRY, Op. Cit., Pág. 2.
[12] LAVRAČ, Nada et al. Introduction: Lessons Learned from Data Mining Applications and Collaborative Problem Solving. En: Machine Learning , Volume 57, Issue 1-2, October 2004. Pág.20.
[13] Ibid., Pág.21.
[14] LINOFF, Gordon S. y Berry, Michael J. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. Editorial Wiley Computer Publishing; 3 edition (April 12, 2011). Pág. 9.