Pasar al contenido principal

Recomendaciones prácticas para el proceso de minería de datos

Enviado por Infolaft el

Artículo por: Infolaft

Teniendo en cuenta las diferentes aplicaciones de la minería de datos y teniendo en cuenta su utilidad en el establecimiento de perfiles y parámetros de generación de alertas, infolaft realiza en el presente artículo algunas recomendaciones prácticas para plicar este proceso de forma efectiva.

 

El proceso

La idea principal de este proceso es identificar patrones no evidentes y significativos en los datos de acuerdo al objetivo propuesto, ya que estos patrones terminan siendo relevantes para la toma de decisiones de negocio y por esto se busca que la información refleje la realidad del negocio. Para obtener mejores resultados se recomienda entender, en primera instancia, los procesos de recolección de información y, en segundo lugar, el nivel de confiabilidad de dicha información.

 

La información reciente

Para el caso de la segmentación de los factores de riesgo, por ejemplo, la información más confiable con la que se cuenta es la información transaccional, seguida de la información de los clientes recientemente vinculados o con actualización de información financiera menor a un año.

A efectos de establecer la calidad de la información se recomienda conocer el procedimiento de captura  del campo de fecha de actualización a fin de identificar los campos que realmente fueron actualizados durante el proceso, pues en ocasiones estos campos se actualizan automáticamente al tener cualquier modificación el formulario del cliente y no detalla si se presentó una modificación puntual sobre la información financiera.

Ahora bien, es importante evaluar el manejo de la información que no se encuentra actualizada y evaluar los procesos de imputación de datos o depuración teniendo en cuenta el volumen de información desactualizada y utilizando en el proceso de imputación la información reciente por actividad económica.

 

La metodología

La metodología Crisp-DM 1.0 (Cross Industry Standard Process for Data Mining) es una de las más recomendadas para el desarrollo de los anteriores procesos, ya que a través de ella se pueden realizar recomendaciones puntuales en cada una de las etapas de entendimiento del negocio,  entendimiento de los datos, preparación de los datos, modelaje, evaluación e implementación.

Además, esta metodología contiene todos pasos que se deben tener en cuenta para el desarrollo del proceso y permite minimizar las probabilidades de reprocesos.

 

Al iniciar el trabajo

Para el desarrollo de este trabajo se recomienda estructurarlo en forma de proyecto, iniciando con el entendimiento del problema, levantando las restricciones del proyecto con relación al tiempo, información disponible, recursos de tiempo y profesionales responsables e involucrados en el proyecto.

Es importante tener en cuenta que aunque el desarrollo de los modelos tiene componentes estadísticos y técnicos, se requiere también de personas que conozcan los procesos y el negocio y que permitan entender y orientar los resultados del proceso.

Los procesos de minería son procesos en los que el experto puede realizar infinidad de pruebas y modelos sin llegar a conclusiones precisas, por esto es muy importante establecerlos como proyectos, pues el objetivo es favorecer el negocio, desarrollando modelos que permitan llevar a la toma de decisiones sin caer en el error de ir ampliado los objetivos o las condiciones del modelo a fin de mejorar los resultados, sin concluir ni implementar el proceso.

 

Respecto al acceso a la información

Otro punto importante a evaluar es la facilidad de disponer de una bodega de datos. Acudir directamente a la fuente de la información entrega grandes ventajas, sobre todo en el momento de poner en funcionamiento los modelos resultantes del proceso. También es importante evaluar la capacidad y tiempos de procesamiento de información requeridos para la implementación de los modelos, a fin de establecer las rutinas de generación de resultados.  

 

Volumen de información

Al iniciar el proceso es importante evaluar el volumen de información con la que se trabajará, ya que si bien la minería de datos funciona de buena manera con grandes volúmenes de datos es necesario determinar su pertinencia en cuenta la dificultad en la obtención de dicha información en los tiempos de procesamiento de las técnicas a emplear. Es posible obtener un buen modelo con un número razonable de registros.

 

Factor humano

Es importante tener en cuenta que las técnicas de minería de datos no funcionan por sí solas, requieren del experto en minería que desarrolle los modelos y evalúe su validez, requiere del equipo interdisciplinario que colabore con la determinación de la información relevante y en el análisis de resultados basados en el criterio de negocio.

Y por último, a nivel general, en caso de contar con dificultades a la hora de obtener información se recomienda realizar prototipos iniciales con menor número de información a fin de validar los resultados preliminares y realizar ajustes en la solicitud de los datos que sea pertinente.

 

Foto infolaft

 

Cuestionario práctico de seguimiento de la metodología

Una vez finalizadas las recomendaciones generales para este proceso, y viendo la utilidad de emplear cuestionarios que apoyen el proceso de desarrollo, a continuación infolaft realiza el recuento de las principales preguntas que deben ser contestadas en cada una de las etapas de la metodología, basado en el Manual de Crisp-DM de IBM Spss:

 

Comprensión del negocio

  • ¿Qué espera obtener de este proyecto?
  • ¿Cómo define la finalización de los trabajos?
  • ¿Dispone de la dotación presupuestaria y de los recursos necesarios para completar los objetivos?
  • ¿Dispone de acceso a todos los datos necesarios para el proyecto?
  • ¿Ha tratado con su equipo los riesgos y contingencias asociadas con el proyecto?
  • ¿Los resultados del análisis de costes/beneficios hacen que el proyecto sea viable?

 

Desde una perspectiva de minería de datos

  • ¿En qué forma puede ayudarle la minería de datos a cumplir sus objetivos?
  • ¿Sabe qué técnicas de minería de datos producen los mejores resultados?
  • ¿Cómo puede saber que sus resultados son precisos o efectivos? (¿Hemos definido el rendimiento de la minería de datos?)
  • ¿Cómo se implementarán los resultados de modelado? ¿Ha considerado implementar su plan de proyecto?
  • ¿El plan de proyecto incluye todas las fases de CRISP-DM?  ¿Los riesgos y dependencias se incluyen en el plan?

 

Comprensión de los datos

  • ¿Cuál es su nivel de comprensión de los datos?
  • ¿Ha identificado y accedido correctamente a todos los orígenes de datos?¿Ha identificado atributos clave de los datos disponibles?
  • ¿Le han ayudado estos atributos a formular hipótesis?
  • ¿Ha detectado el tamaño de todos los orígenes de datos?
  • ¿Puede utilizar un subconjunto de datos cuando lo estime conveniente?
  • ¿Ha calculado los estadísticos básicos de cada atributo de su interés?
  • ¿Ha obtenido información de interés?
  • ¿Ha utilizado gráficos de exploración para obtener atributos clave? ¿Este conocimiento ha reformulado alguna de sus hipótesis?
  • ¿Cuáles fueron los problemas de calidad de datos del proyecto? ¿Tiene una planificación para resolver estos problemas?
  • ¿Las fases de preparación de los datos son claras? Por ejemplo, ¿sabe qué orígenes de datos debe fusionar y los atributos que debe filtrar o seleccionar?

 

Preparación de los datos

  • ¿Puede acceder a todos los datos desde la herramienta de minería?
  • ¿Ha limpiado los datos de forma efectiva o eliminado los elementos que no se pueden guardar? (se recomienda dejar documentado todas las decisiones tomadas en el informe final).
  • ¿Todos los conjuntos de datos se están integrando adecuadamente?
  • ¿Conoce las herramientas de modelado necesarias que ha planificado utilizar?
  • ¿Existen problemas de formato que deba solucionar antes del proceso de modelado?

 

Modelado

Selección de las técnicas de modelado correctas

  • ¿Requiere el modelo que los datos se dividan en conjuntos de entrenamiento y prueba?
  • ¿Dispone de datos suficientes para producir resultados fiables para un modelo concreto?
  • ¿Son sus datos el tipo correcto para un modelo concreto? En caso contrario, ¿puede realizar las conversiones necesarias utilizando nodos de manipulación de datos?

 

Generación de un diseño de comprobación:

  • ¿Qué datos se utilizarán para comprobar los modelos? ¿Ha particionado los datos en conjuntos de entrenamiento / prueba?
  • ¿Cómo puede medir el rendimiento de modelos sin supervisar (como redes de conglomerados de Kohonen)?
  • ¿Cuántas veces piensa volver a ejecutar un modelo con los valores ajustados antes de intentar otro tipo de modelo?

 

Descripción de modelo

  • ¿Puede llegar a conclusiones significativas a partir de este modelo?
  • ¿El modelo presenta problemas de ejecución? ¿Fue razonable el tiempo de procesamiento?
  • ¿El modelo presenta problemas de calidad de datos, como un alto número de valores perdidos?
  • ¿Existen incoherencias de cálculos que se deben mencionar?

 

Evaluación global del modelo

  • ¿Puede comprender los resultados de los modelos?
  • ¿Los resultados del modelo tienen sentido desde una perspectiva meramente lógica?
  • ¿Existen incoherencias aparentes que necesiten una mayor exploración?
  • Desde el inicio, ¿los resultados parecen resolver los problemas de su organización?
  • ¿Ha utilizado nodos Análisis y gráficos o elevaciones para comparar y evaluar la precisión de los modelos?
  • ¿Ha explorado más de un tipo de modelo y comparado los resultados?
  • ¿Se pueden aplicar los resultados del modelo?

 

Evaluación

  • ¿Sus resultados se expresan con claridad y de forma que se puedan presentar con facilidad?
  • ¿en qué medida estos resultados se adaptan a los objetivos planteados?
  • ¿Qué cuestiones adicionales generan los resultados?
  • ¿Cómo puede formular estas cuestiones en términos comerciales?

 

 

 

Recomendados

Superfinanciera prevé realizar cambios en el SARLAFT

Cesar Reyes Acevedo, delegado para riesgo de lavado de activos de la...

Colombia: Superfinanciera propone flexibilizar el SARLAFT

La autoridad de supervisión evalúa la posibilidad de permitir un procedimiento...

Reportes de operaciones sospechosas: errores comunes

Los reportes de operaciones sospechosas que entregan los oficiales de...