Hepatitis C: Análisis estadístico de los factores de riesgo y creación de modelos predictivos mediante Machine Learning

José de la Trinidad Segovia

Resumen


En este trabajo de investigación se desarrollaron modelos predictivos de aprendizaje automático (Machine Learning) orien-tados a la detección temprana de la hepatitis C, dada su capacidad de generar daño hepático irreversible. La metodología abarcó la construcción y categorización binaria de un conjunto de datos, seguida de un riguroso preprocesamiento que in-cluyó la verificación de integridad, imputación de valores faltantes, codificación de variables categóricas y escalado numé-rico. Tras un análisis estadístico de los factores de riesgo, se entrenaron y compararon tres modelos de aprendizaje supervi-sado: XGBoost, Máquinas de Vectores de Soporte (SVM) y Random Forest. La evaluación de estas herramientas computacionales evidenció un alto rendimiento general, con una precisión, basada en el Área Bajo la Curva (AUC), supe-rior al 99%. El análisis de las diversas métricas demostró que los tres algoritmos son altamente eficientes para identificar a potenciales portadores de la patología, destacándose SVM y Random Forest por exhibir el mejor desempeño predictivo global.

Recibido: 19 de diciembre de 2025
Aceptado: 10 de marzo de 2026


Palabras clave


Hepatitis C; aprendizaje automático; modelos predictivos; detección temprana; aprendizaje supervisado

Texto completo:

PDF

Referencias


Alam, A. (2023). What is machine learning? Zenodo. https://doi.org/10.5281/zenodo.8231580

Ali, A. M., Hassan, M. R., Aburub, F., Alauthman, M., Aldweesh, A., Al-Qerem, A., Jebreen, I., & Nabot, A. (2023). Explainable Machine Learning Approach for Hepatitis C Diagnosis Using SFS Feature Selection. Machines, 11(3), 391. https://doi.org/10.3390/machines11030391

Balter, S., Stark, J. H., Kennedy, J., Bornschlegel, K., & Konty, K. (2014). Estimating the prevalence of hepatitis C infection in New York City using surveillance data. Epidemiology and Infection, 142(2), 262–269. https://doi.org/10.1017/S0950268813000952

Bardají, M. (2020). Utilidad de un sistema de análisis masivo de datos (Big Data) insertado en la historia clínica electrónica, en la búsqueda activa de pacientes con he-patitis C (Trabajo de Grado). Universidad de Vallado-lid UVaDOC. https://uvadoc.uva.es/handle/10324/41390

Chen, T., & Guestrin, C. (2016). XGBoost. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785–794. https://doi.org/10.1145/2939672.2939785

Corey, K. E., Kane, E., Munroe, C., Barlow, L. L., Zheng, H., & Chung, R. T. (2009). Hepatitis C virus infection and its clearance alter circulating lipids: Implications for long-term follow-up. Hepatology, 50(4), 1030–1037. https://doi.org/10.1002/hep.23219

Cross, T., Antoniades, C., & Harrison, P. (2008). Non-invasive markers for the prediction of fibrosis in chronic hepatitis C infection. Hepatology Research, 38(8), 762–769. https://doi.org/10.1111/j.1872-034X.2008.00364.x

Cutler, A., Cutler, D. R., & Stevens, J. R. (2012). Random Forests. En Ensemble Machine Learning (pp. 157–175). Springer New York. https://doi.org/10.1007/978-1-4419-9326-7_5

Haq, M., Salman, F., Haq, M., Obaid, S., Gul, A., & Khan, A. M. K. (2019). Correlation of serum vitamin D levels with serum levels of alkaline phosphatase. The Pro-fessional Medical Journal.

Kecman, V. (2005). Support Vector Machines – An Introduction (pp. 1–47). https://doi.org/10.1007/10984697_1

Kopterides, P., Liberopoulos, P., Ilias, I., Anthi, A., Pragkastis, D., Tsangaris, I., Tsaknis, G., Armaganidis, A., & Dimopoulou, I. (2011). General Prognostic Scores in Outcome Prediction for Cancer Patients Admitted to the Intensive Care Unit. American Journal of Critical Care, 20(1), 56–66. https://doi.org/10.4037/ajcc2011763

Lee, J. K., Shim, J. H., Lee, H. C., Lee, S. H., Kim, K. M., Lim, Y.-S., Chung, Y.-H., Lee, Y. S., & Suh, D. J. (2010). Estimation of the healthy upper limits for serum alanine aminotransferase in Asian populations with normal liver histology. Hepatology, 51(5), 1577–1583. https://doi.org/10.1002/hep.23505

Nadeem, A., Mazhar, M., & Aslam, M. (2010). Correlation of serum alanine aminotransferase and aspartate ami-notransferase levels to liver histology in chronic hepa-titis C. J Coll Physicians Surg Pak.

Nojiri, S., Kusakabe, A., Shinkai, N., Matsuura, K., Iio, E., Miyaki, T., & Joh, T. (2011). Factors influencing distant recurrence of hepatocellular carcinoma following combined radiofrequency ablation and transarterial chemoembolization therapy in patients with hepatitis C. Cancer Management and Research, 3, 267–272. https://doi.org/10.2147/CMR.S22073

Yap, C. Y., & Aw, T. C. (2010). Liver Function Tests (LFTs). Proceedings of Singapore Healthcare, 19(1), 80–82. https://doi.org/10.1177/201010581001900113

Yarasuri, V. K., Indukuri, G. K., & Nair, A. K. (2019). Prediction of Hepatitis Disease Using Machine Learning Technique. 2019 Third International Conference on I-SMAC (IoT in Social, Mobile, Analytics and Cloud) (I-SMAC), 265–269. https://doi.org/10.1109/I-SMAC47947.2019.9032585

Yue, C., Zhang, C., Ying, C., & Jiang, H. (2022). Reduced serum cholinesterase is an independent risk factor for all-cause mortality in the pediatric intensive care unit. Frontiers in Nutrition, 9. https://doi.org/10.3389/fnut.2022.809449




Creative Commons License
Todos los documentos publicados en esta revista se distribuyen bajo una
Licencia Creative Commons Atribución -No Comercial- Compartir Igual 4.0 Internacional.
Por lo que el envío, procesamiento y publicación de artículos en la revista es totalmente gratuito.