Eficacia de modelos Machine Learning para el pronóstico del riesgo crediticio en la cartera consumo. Coopac San José Cartavio
No Thumbnail Available
Date
2022
Authors
Cabanillas Romero, Julio César
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Nacional de Trujillo
Abstract
Esta investigación tuvo como propósito determinar y comparar la eficacia de los modelos _x000D_
Machine Learning aplicado en el riesgo crediticio de la Coopac San José Cartavio. La _x000D_
investigación es de tipo aplicada, corte transversal. La muestra estuvo constituida por 4,469 _x000D_
registros de créditos de consumo no-revolvente otorgados en el periodo enero 2019 –_x000D_
septiembre 2021. Se utilizó cinco modelos supervisados de clasificación aplicados en ámbito _x000D_
financiero, los cuales son: Regresión Logística, Support Vector Machine, Árboles de _x000D_
Decisión, Random Forest y Redes Neuronales Artificiales los cuales fueron desarrollados en _x000D_
el software Anaconda Jupiter – Python 3. Se aplicó la metodología de Holdout para la _x000D_
división de los datos (training y test). Para la validación se utilizó las tablas de validación _x000D_
cruzada para cada uno de los modelos estudiados, determinando su peso (WoE) y poder _x000D_
predictivo de las variables (IV). Para la contrastación de los modelos hallados se utilizó las _x000D_
métricas de clasificación y ROC. Obteniendo que el modelo Árbol de decisión pronostica _x000D_
mejor el riesgo crediticio en comparación con los demás, obteniendo una exactitud de _x000D_
79.98%, una sensibilidad de 73.96% y ROC de 81.94%
Description
The purpose of this research was to determine and compare the effectiveness of the Machine _x000D_
Learning models applied to the credit risk of Coopac San José Cartavio. The research is of _x000D_
an applied type, cross-sectional. The sample consisted of 4,469 records of non-revolving _x000D_
consumer loans granted in the period January 2019 - September 2021. Five supervised _x000D_
classification models applied in the financial field were drawn, which are: Logistic _x000D_
Regression, Support Vector Machine, Decision Trees, Random Forest and Artificial Neural _x000D_
Networks, which were developed in the Anaconda Jupiter – Python 3 software. The Holdout _x000D_
methodology was applied to divide the data (training and test). For validation, cross validation tables were used for each of the models studied, determining their weight (WoE) _x000D_
and predictive power of the variables (IV). For the contrast of the models found, the _x000D_
classification and ROC metrics were obtained. Obtaining that the Decision Tree model better _x000D_
predicts credit risk compared to the others, obtaining an accuracy of 79.98%, a sensitivity of _x000D_
73.96% and ROC of 81.94%
Keywords
Machine Learning, Support Vector Machine, Random Forest, Weigh of Evidence (WoE), Infomation Value (IV), ROC