Eficacia de modelos Machine Learning para el pronóstico del riesgo crediticio en la cartera consumo. Coopac San José Cartavio

No Thumbnail Available
Date
2022
Authors
Cabanillas Romero, Julio César
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Nacional de Trujillo
Abstract
Esta investigación tuvo como propósito determinar y comparar la eficacia de los modelos _x000D_ Machine Learning aplicado en el riesgo crediticio de la Coopac San José Cartavio. La _x000D_ investigación es de tipo aplicada, corte transversal. La muestra estuvo constituida por 4,469 _x000D_ registros de créditos de consumo no-revolvente otorgados en el periodo enero 2019 –_x000D_ septiembre 2021. Se utilizó cinco modelos supervisados de clasificación aplicados en ámbito _x000D_ financiero, los cuales son: Regresión Logística, Support Vector Machine, Árboles de _x000D_ Decisión, Random Forest y Redes Neuronales Artificiales los cuales fueron desarrollados en _x000D_ el software Anaconda Jupiter – Python 3. Se aplicó la metodología de Holdout para la _x000D_ división de los datos (training y test). Para la validación se utilizó las tablas de validación _x000D_ cruzada para cada uno de los modelos estudiados, determinando su peso (WoE) y poder _x000D_ predictivo de las variables (IV). Para la contrastación de los modelos hallados se utilizó las _x000D_ métricas de clasificación y ROC. Obteniendo que el modelo Árbol de decisión pronostica _x000D_ mejor el riesgo crediticio en comparación con los demás, obteniendo una exactitud de _x000D_ 79.98%, una sensibilidad de 73.96% y ROC de 81.94%
Description
The purpose of this research was to determine and compare the effectiveness of the Machine _x000D_ Learning models applied to the credit risk of Coopac San José Cartavio. The research is of _x000D_ an applied type, cross-sectional. The sample consisted of 4,469 records of non-revolving _x000D_ consumer loans granted in the period January 2019 - September 2021. Five supervised _x000D_ classification models applied in the financial field were drawn, which are: Logistic _x000D_ Regression, Support Vector Machine, Decision Trees, Random Forest and Artificial Neural _x000D_ Networks, which were developed in the Anaconda Jupiter – Python 3 software. The Holdout _x000D_ methodology was applied to divide the data (training and test). For validation, cross validation tables were used for each of the models studied, determining their weight (WoE) _x000D_ and predictive power of the variables (IV). For the contrast of the models found, the _x000D_ classification and ROC metrics were obtained. Obtaining that the Decision Tree model better _x000D_ predicts credit risk compared to the others, obtaining an accuracy of 79.98%, a sensitivity of _x000D_ 73.96% and ROC of 81.94%
Keywords
Machine Learning, Support Vector Machine, Random Forest, Weigh of Evidence (WoE), Infomation Value (IV), ROC
Citation