Ensayo en modelos predictivos de Data Mining para diabetes en etapa temprana

No Thumbnail Available
Date
2023
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Nacional de Trujillo
Abstract
La diabetes se ha vuelto un problema de salud crónica tan común, pero a la vez _x000D_ mortal, que se ha incrementado considerablemente en los últimos años. Alrededor del 50% de todas las personas que padecen diabetes no están diagnosticadas debido a su fase asintomática a largo plazo, es por ello que detectar la diabetes en una etapa prematura es de vital importancia. La ciencia ha avanzado tanto en el campo de la salud que las técnicas de clasificación de minería de datos han sido bien aceptadas por la comunidad científica para el modelo predictivo de riesgo de la enfermedad. En la presente investigación, se ha utilizado un conjunto de 520 datos, el cual se recopiló información mediante una encuesta directa a los pacientes del Sylhet Diabetes Hospital en Bangladesh. Se procedió a realizar el respectivo análisis utilizando algoritmos de clasificación como Regresión Logística (técnica estadística clásica) y Máquina de Soporte Vectorial (técnica de aprendizaje automático). _x000D_ Luego de ajustar los modelos y evaluar mediante métricas como accuracy, sensibilidad y _x000D_ AUC (en ese orden), se ha encontrado que el modelo de Máquina de Soporte Vectorial tiene un mejor ajuste y poder predictivo (0.98, 0.98, 0.99) frente al modelo de regresión logística (0.92, 0.94, 0.97). Posteriormente, como sugerencia se planteó consejos útiles para controlar los factores de riesgo
Description
Diabetes has become such a common, but deadly, chronic health problem that it has _x000D_ increased dramatically in recent years. About 50% of all people with diabetes are not _x000D_ diagnosed due to its long-term asymptomatic phase, which is why detecting diabetes in an _x000D_ early phase is of vital importance. Science has advanced so much in the field of health that _x000D_ data mining classification techniques have been well accepted by the scientific community _x000D_ for the predictive model of disease risk. In the present investigation, a set of 520 data has _x000D_ been used, which information was collected through a direct survey of patients from the _x000D_ Sylhet Diabetes Hospital in Bangladesh. The respective analysis was carried out using _x000D_ classification algorithms such as Logistic Regression (classical statistical technique) and _x000D_ Support Vector Machine (machine learning technique). After adjusting the models and _x000D_ evaluating using metrics such as accuracy, sensitivity and AUC (in that order), it has been _x000D_ found that the Vector Support Machine model has a better fit and predictive power (0.98, _x000D_ 0.98, 0.99) compared to the model of logistic regression (0.92, 0.94, 0.97). Finally, as a _x000D_ suggestion, useful tips were raised to control risk factors
Keywords
Riesgo de diabetes, Etapa prematura, Minería de datos, Regresión logística, Máquina de Soporte Vectorial, Métricas de evaluación
Citation