Calificación crediticia: Parte 3 - Preparación de datos y análisis de datos exploratorio

Blog

Publicado

04 oct. 2017

Categoría

Ciencia de datos

Compartir



De: Natasha Mashanovich, Científica de datos superior en World Programming, Reino Unido

Razones

"Garbage in, garbage out" ("Entra basura, sale basura", GIGO) es un axioma comúnmente usado en informática y una amenaza para el éxito de un proyecto; la calidad de la salida está en gran medida determinada por la calidad de la entrada. Por lo tanto, la preparación de datos es un aspecto clave de cualquier proyecto de minería de datos, incluso el desarrollo de un cuadro de mandos de crédito. Esta es la fase más desafiante y que lleva mucho tiempo del ciclo CRISP-DM. Al menos el 70%, a veces más del 90%, del tiempo total del proyecto está dedicado a esta actividad. Implica la recopilación de datos, la combinación de múltiples orígenes de datos, agregaciones, transformaciones, limpieza de datos, "slicing y dicing" (rebanar y cortar), y examinar la amplitud y profundidad de los datos para obtener una comprensión clara y transformar la cantidad de datos en calidad de datos así que pueda prepararse con confianza para la siguiente fase: la construcción de modelos.

El artículo anterior de esta serie, Metodología de modelado de cuadro de mandos de crédito , ha descrito la importancia de un diseño de modelo e identificado sus principales componentes incluyendo la unidad de análisis, el marco de población, el tamaño de la muestra, la variable de criterio, las ventanas de modelado, las orígenes de datos y los métodos de recopilación de datos. Una consideración cuidadosa de cada uno de los componentes es imprescindible para la correcta preparación de datos. El producto final de esta etapa es una Vista de minería que abarca el nivel correcto de análisis, modelando población, variables independientes y dependientes.

Componente de la vista de mineríaEjemplo de estudio de casos de cuadro de mandos de aplicación
Unidad de análisisNivel de cliente
Marco de poblaciónSolicitantes de préstamos con historial previo de deudas incobrables
Tamaño de muestraSolicitantes oportunistas durante 2015 y 2016
Orígenes de datosDatos del bureau de crédito, datos de solicitantes, historial de deudas vencidas
Variables independientesMezcla de datos nominales, ordinales y de intervalos, tales como valores agregados, marcas, relaciones, valores de hora y fecha
Variable dependienteEstado predeterminado (1 o 0)
Definiciones operativasValor predeterminado: 90 días vencidos
Ventana de observaciónInformación histórica de cliente del bureau de crédito en el periodo de tres años
Ventana de rendimientoUn año

Tabla 1. Componentes del diseño del modelo

Orígenes de datos

"Cuanto más, mejor" – Como parte del paso de la comprensión de datos, cualquier origen de datos externa e interna debe proporcionar cantidad y calidad. Los datos utilizados deben ser pertinentes, precisos, oportunos, coherentes y completos, al tiempo que son de volumen suficiente y diverso para proporcionar un resultado útil en el análisis. Para los cuadros de mandos de aplicación donde hay una cantidad limitada de datos internos, los datos externos tienen prevalencia. En contraste, los cuadros de mandos de comportamiento utilizan más datos internos, y son típicamente superiores en cuanto a capacidad predictiva. Las comunes orígenes de datos que se requieren para la verificación del cliente, la detección de fraudes o la concesión del crédito se describen a continuación.

FuenteCategoríaProporcionada por el autor
ExternaDirección, código postalBureau de crédito
Búsquedas del bureau
Datos de los registros electorales
Cuentas financieras
Tribunal e insolvencia
Puntuaciones genéricas del bureau
InternaDemografíaCliente
Contacto
Estabilidad
Gestión contableEntidades crediticias
Detalles del producto
Datos de rendimiento
Campañas de marketing
Interacciones con clientes

Tabla 2. Diversidad de orígenes de datos

El proceso

El proceso de preparación de datos empieza por la recopilación de datos, comúnmente denominado proceso ETL (Extract-Transform-Load, o sea Extraer-Transformar-Cargar). La integración de datos combina orígenes diferentes utilizando la combinación y concatenación de datos. Normalmente requiere la manipulación de tablas relacionales usando varias reglas de integridad, tales como integridad de entidad, referencial y de dominio. Usando relaciones uno a uno, uno a muchos o muchos a muchos, los datos se agregan al nivel de análisis deseado, para que se produzca una firma del cliente única.


Figura 1. Proceso de preparación de datos

La exploración de datos y la limpieza de datos son pasos mutuamente iterativos. La exploración de datos incluye el análisis a una y dos variables, y varía desde estadísticas y distribuciones de frecuencias a una variable, hasta correlaciones, tabulación cruzada y análisis característico.

Figure 2. EDA (Univariate View)

Figure 3. EDA (Characteristic Analysis)

Tras el análisis de datos exploratorio (EDA), los datos se tratan para aumentar la calidad. La limpieza de datos requiere una comprensión de la empresa y de los datos para que los datos se puedan interpretar de la manera correcta. Se trata de un proceso iterativo diseñado para quitar las irregularidades y sustituir, modificar o eliminar estas irregularidades según proceda. Dos problemas principales con datos erróneos son los valores ausentes y valores atípicos; ambos pueden afectar en gran medida la exactitud del modelo y una intervención cuidadosa es por lo tanto imprescindible.

Antes de tomar una decisión sobre cómo tratar los valores ausentes, necesitamos entender la razón de la falta de datos y entender la distribución de los datos faltantes, para poder categorizarlos como:

  1. Falta totalmente al azar (MCAR);
  2. Falta al azar (MAR) o
  3. Falta no al azar (NMAR).

El tratamiento de datos faltantes asume a menudo MCAR y MAR, mientras que el NMAR es más difícil de tratar. La lista a continuación proporciona los tratamientos comunes ordenados por complejidad.

Tratamiento de datos faltantesDescripción
Dejar datos faltantes
  • Se podría tolerar un pequeño porcentaje de valores ausentes
  • Los valores ausentes tienen un significado especial y se tratan como una categoría separada
Eliminar datos faltantes
  • Por lista (completa) o
  • Por pares
    Pros: simple y rápido
    Contras: reducir el poder estadístico, problemático en pequeños conjuntos de datos
Sustitución única
  • Media, moda, mediana; agregue missing_flag para el ajuste;
    Pros: simple, rápido y utiliza el conjunto de datos completo
    Contras: reduce la variabilidad, ignora la relación entre las variables; no es eficaz cuando esos datos contienen una gran cantidad de valores ausentes (normalmente más del 5% de los datos)
Sustitución basada en modelos
  • Regresión
    Pros: simple
    Contras: reducción de varianza
  • Sustitución de KNN
    Pros: imputa datos categóricos y numéricos
    Contras: problema de rendimiento en grandes conjuntos de datos
  • Estimación de máxima verosimilitud
    Pros: imparcial, se usa el conjunto de datos completo
    Contras: compleja
  • Sustitución múltiple
    Pros: técnica de aprendizaje automático preciso y de vanguardia
    Contras: difícil de codificar sin una función especial

Tabla 3. Tratamientos de datos faltantes

Los valores atípicos son otra "bestia" en nuestros datos, ya que su presencia puede violar las suposiciones estadísticas bajo las cuales desarrollamos un modelo. Una vez identificado, es importante entender las razones para tener valores atípicos antes de aplicar cualquier tratamiento. Por ejemplo, los valores atípicos podrían ser una fuente de información valiosa en la detección de fraudes; por lo tanto, reemplazarlos sería una mala idea con un valor medio o mediano.

Los valores atípicos deben analizarse mediante el análisis a una variable y con múltiples variables. Para la detección, podemos utilizar métodos visuales, tales como histogramas, diagramas de caja o diagramas de dispersión y métodos estadísticos, tales como la media y desviación estándar, agrupación en clústeres mediante el examen de conglomerados distantes, nodos hoja de pequeños árboles de decisión, distancia de Mahalanobis, distancia de Cook o prueba de Grubbs. El juicio de lo que debe considerarse como un valor atípico no es tan directo como identificar los valores ausentes. La decisión debe basarse en un criterio específico, por ejemplo: cualquier valor fuera de ±3 desviaciones estándar, o ±1,5 IQR, o rango del 5º-95º percentil es etiquetado como un valor atípico.

Los valores atípicos se pueden tratar de manera similar a los valores ausentes. También se pueden utilizar otras transformaciones incluyendo: discretización (binning), asignación de pesos, conversión a valores ausentes, transformaciones logarítmicas para eliminar la influencia de valores extremos o winsorización.

Como se ha discutido anteriormente, la limpieza de datos puede implicar la implementación de diferentes técnicas estadísticas y de aprendizaje automático. A pesar de que estas transformaciones podrían crear modelos de puntuación más superiores, se debe considerar la viabilidad de la implementación, ya que manipulaciones de datos complejas pueden ser difíciles de implementar, costosas y ralentizar el rendimiento del procesamiento del modelo.

Una vez que los datos están limpios, estamos listos para una parte más creativa: las transformaciones de datos. La transformación de datos o ingeniería de características es la creación de variables de modelo adicionales (hipotéticas) que se prueban por importancia. Las transformaciones más comunes incluyen discretización y discretización óptima, estandarización, escalamiento, codificación one-hot, términos de interacción, transformaciones matemáticas (desde relaciones no lineales en relaciones lineales y de datos sesgados en datos distribuidos normalmente) y reducción de datos mediante agrupación en conglomerados y análisis de factores.

Aparte de algunas recomendaciones generales sobre cómo abordar esta tarea, es la responsabilidad del científico de datos sugerir el mejor enfoque para transformar la firma de datos del cliente en un artefacto de información de gran alcance: la vista de minería. Este es probablemente el aspecto más creativo, y más desafiante, del papel del científico de datos, ya que requiere un sólido entendimiento de la comprensión de la empresa, además de las habilidades estadísticas y analíticas. Muy a menudo, la clave para crear un buen modelo no es la capacidad de una técnica de modelado específica, sino la amplitud y profundidad de las variables derivadas que representan un mayor nivel de conocimiento sobre los fenómenos bajo examen.

El resto es el arte de la creación de características...