Modelo y predicción de enfermedades cardiacas con algoritmos de inteligencia artificial

Un acercamiento a técnicas de clasificación

Comenzar

¿Por qué el proyecto?

En la actualidad, surge la necesidad de estar a la vanguardia en el ámbito de la salud. Las pérdidas humanas y económicas generadas son irrecuperables. Hasta hace poco, se desconocía la gran mejoría con relación a los procesos de producción de fármacos y su respectivo estudio en pacientes.

En ese sentido, el Machine Learning (ML) en conjunto con el Deep Learning (DL) han puesto sobre la mesa, una de las estrategias más factibles de los últimos tiempos: crear algoritmos capaces de generar procesos eficientes; disminuyendo tiempos y aumentando significativamente los casos de éxito.


Por lo que, se sustenta este proyecto en tres ramas principales:

Actualidad y vanguardia

Actualidad y vanguardia: El área de la salud está en constante actualización y mejoría. Lo que permite poder alcanzar un aprendizaje con mecanismos de innovación.

Carácter interdisciplinario

Une diferentes ciencias en una rama dónde se puede aprender de cada una. Se genera así, un espacio de confianza y comunicación, además de comprensión mutua y continua.

Salud y bienestar mirando al 2030

Esto, representa un primer paso para estar inmerso en el apoyo de las actividades de investigación y desarrollo de medicamentos y diagnósticos a favor de la salud pública.

El impacto de las IA en la ciencias de la salud

La Inteligencia Artificial (IA) existe desde 1956, y en los años 70 compartió su primera experiencia en el sector salud. Desde entonces, se ha establecido como una tecnología prometedora para mejorar el sistema sanitario de forma global. El mayor reto para la implementación de la IA y la materialización de proyectos en la salud, es la obtención y el procesamiento de los datos, que en el ámbito sanitario son especialmente sensibles.

Soluciones algorítmicas

En la práctica médica actual, las aplicaciones de la IA más utilizadas son las algorítmicas: enfoques basados en la evidencia, programados por investigadores y clínicos. Cuando los humanos integran datos conocidos en algoritmos, los ordenadores pueden extraer información y aplicarla a un problema.

Procesamiento de imagénes

Hoy en día, se utilizan técnicas que puede almacenar y comparar decenas de miles de imágenes utilizando las mismas técnicas heurísticas que los humanos evitando así "falsos positivos".

Herramientas de apoyo a la práctica médica

El uso de Machine Learning no plantean desmeritar el conocimiento y la intuición de un médico sino de facilitar y eficientar los procesos.

Se puede ver las mejorías ocasionadas por la Inteligencia Artificial en muchos aspectos. Además de que los gobiernos ya están apostando por la IA dada su gran cantidad de ventajas.

Todo lo anterior, se puede observar de mejor manera con las siguientes cifras significativas:

mil MDP destinados para generación de robots de diagnóstico.

% de mejora en la precisión de diagnosticos.

% de reducción de costos de tratamiento.

% en reducción de falsos positivos.

Partes del proyecto

Introducción

La cronicidad es uno de los principales retos para el sistema de salud, pues los pacientes requieren de un seguimiento y atención continuos. En un momento en el que, gracias a la Inteligencia Artificial (IA), el sistema evoluciona hacia un modelo de atención personalizada, esta puede verse beneficiada a nivel de experiencia de los pacientes y ahorro de recursos sanitarios.

¿Cómo se puede abordar la cronicidad desde la Inteligencia Artificial? En este caso, la IA podría clasificar a los pacientes según riesgo o necesidades y, aún más, predecir la posible evolución de la enfermedad que padecen para tomar medidas con antelación y/o aplicar el mejor tratamiento. Lo destacable es que, a pesar de la innovación que supone, estas herramientas estarían basadas en datos e información escrita por los mismos profesionales del sector salud.

Las herramientas de clasificación

Inteligencia Artificial, Machine Learning y Deep Learning son algunos de los conceptos más utilizados en los últimos años. Y es que no son pocas las áreas en las que genera un gran impacto siendo la medicina una de ellas. Pero ¿Qué podemos hacer con estás novedosas herramientas?

Las tareas de clasificación con Machine Learning son más comunes de lo que se imagina. Se experimenta con ellas todos los días. Con tan solo revisar la bandeja de SPAM en el correo electrónico, se puede observar una aplicación directa. Esta técnica, se basa en generar clases en un número limitado de clases; es decir, categorías arbitrarias según lo que se desea utilizar en una lista de datos como referencia. Algunas técnicas para generar esta clasificación son aquellas que se menciona a continuación:

  • Nearest Neighbors: Se basa en encontrar un número predefinido de muestras de entrenamiento más cercanas en distancia al nuevo punto y predecir la etiqueta a partir de ellas.

  • Random Forest: Es un meta estimador que se ajusta a varios clasificadores de árboles de decisión en varias submuestras del conjunto de datos y usa promedios para mejor la precisión.

  • Decisión Tree: Similar a los árboles de decisión, su objetivo se fundamenta en la predicción de un valor de una variable objetivo mediante el aprendizaje de reglas de decisión simples inferidas de las características de los datos.

  • Naive Bays: Es un conjunto de algoritmos de aprendizaje supervisado basados en la aplicación del teorema de Bayes con la suposición del efecto condicional entre cada par de características.

Una manera de visualizar la precisión de las técnicas de clasificación es por medio de matrices de confusión. Estas, muestran y comparan los resultados predichos con los reales agrupándolos en verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos.

Factores de riesgo cardiovasculares

Las Enfermedades Cardiovasculares (ECV) o enfermedades cardíacas, son una de las principales causas de muerte en los Estados Unidos. El Centro para la Prevención del Control de Enfermedades calcula 647.000 muertes al año.

CVD es un término general que abarca diferentes afecciones cardíacas que incluyen vasos sanguíneos enfermos (aterosclerosis o vasculitis), problemas estructurales (cardiomegalia) y latidos cardíacos irregulares (arritmia). La investigación ha identificado factores de riesgo asociados con el desarrollo de ECV dividiéndolos entre factores no modificables o factores modificables. Entre los factores modificables, se pueden encontrar:

  • Edad

  • Sexo biológico

  • Hereditario

Y de igual manera, existen aquellos que sí pueden ser modificables.

  • Fumar tabaco

  • Colesterol alto en sangre

  • Alta presión sanguínea

  • Inactividad física

  • Obesidad

  • Diabetes

Objetivos

Se plantearon los siguiente objetivos para el proyecto.

  • Crear un modelo de clasificación para saber si un paciente puede o no tener una enfermedad cardiaca.

  • Analizar algoritmos de clasificación para encontrar el modelo que se desempeñe mejor con el problema dado

  • Generar la clasificación utilizando matrices de confusión para observar el desempeño de cada modelo.

Dataset

Los datos utilizados para realizar este análisis provienen de un conjunto de datos compilado por cuatro hospitales en Cleveland, Hungría, Suiza y VA Long Beach. Los datos se conocen como el conjunto de datos de enfermedades cardíacas de la UCI. Este conjunto de datos consta de 303 individuos con 14 atributos donde 138 individuos se presentan sin ECV y 165 individuos se presentan con ECV.

Originalmente, había 76 atributos, pero los experimentos publicados se refieren al uso de un subconjunto de solo 14 atributos. De estos 14 seleccionamos 4 conteniendo tanto a los modificables como los no modificables. La variable objetivo es el diagnóstico de enfermedad cardíaca mediante el estrechamiento del diámetro en cualquier vaso sanguíneo principal.

  • Sexo

  • Edad

  • Presión sanguínea

  • Dolor de pecho

Metodología

Para la realización de este proyecto se utilizó un cuaderno de Jupyter en Google Colab que fácilmente puede localizarse en el área de anexos y bibliografía. En este cuaderno, se cargaron los datos referentes al estudio del dataset escogido. Posteriormente, se analizaron variables de interés imprimiendo sus gráficas y supervisando su comportamiento.

Se estudiaron los modelos con ayuda de la librería de sklearn. Para ello, se dividieron los datos en 80% y 20% para pasar a formar parte del training set y el testing set respectivamente. Primeramente, se generaron los valores de precisión para cada herramienta y posteriormente la impresión de matrices de confusión para observar su desempeño de una mejor manera.

Los modelos de interés fueron KNeighbor, Decision Tree, Random Forest y Gaussian naive Bayes. Todos los clasificadores se trabajaron con los parámetros dados en el club 6 de Clubes de Ciencia México 2021.

¿Quiénes somos?

Somos un equipo multidisciplinario que unió esfuerzos y conocimientos para aportar un granito de arena en el desierto de conocimiento.

Victor Ehuan Colli

Estudiante de Ing. Física, 21 años

"Los chilaquiles también son polvo de estrella".

Andrea Carcamo Gutiérrez

Estudiante de Ing. en Nanotecnología, 20 años

"La actitud es algo pequeño que hace una gran diferencia"

Alondra Hernández Martínez

Estudiante de Bachiller, 15 años

"No eres lo que logras, eres lo que superas."

Clubes de Ciencia México

Organización

"Somos la próxima revolución en educación científica en México".

Anexos y bibliografía

Todo lo utilizado en la realización del proyecto se encuentra en los siguientes links

  • Código

    En el siguiente podrás encontrar un cuaderno en Google Colab con el código en Python utilizado en el estudio.

    Go to Colab
  • Avila-Tomás, J. F., Mayer-Pujadas, M. A., & Quesada-Varela, V. J. (2020)La inteligencia artificial y sus aplicaciones en medicina I: introducción antecedentes a la IA y robótica. From Link Center for Disease Control and Prevention About Heart Disease. (2020). From Link Martinez Heras, J. (2020). ¿Clasificación o Regresión? IArtificail.net. From Link La Inteligencia Artificial Mejorará La Experiencia De Los Pacientes Crónicos(2020). From Link Rana D. Heart Disease Classification: Will an XGBoost reveal the same risk factors as those used by a physician?. (2020). From Link Santa María E. (2018) BISEPRO: inteligencia artificial para agilizar el diagnóstico de la sepsis. From Link Sierra. C(2019)El impacto de la inteligencia artificial en nuestra sociedad. Retos y oportunidades. Consejo Superior de Investigaciones Científicas. From Link SISON, G. (2020). This is how heart disease impacts Americans From Link Redacción España (2019) Origen del concepto de Inteligencia Artificial. From Link Understand Your Risks to Prevent a Heart Attack. (2016). From Link Understand Your Risks to Prevent a Heart Attack. (2016). Retrieved May 30, 2020. From Link

  • Los siguientes links llevan a las páginas donde se extrajeron los recursos para la elaboración de la página web.

    Bootstrap BootstrapMade Freepik

Saul Rivera

CEOs

Interesante artículo. Une diferentes áreas de investigación de una forma ejemplar.

Paola Pérez

Empresaria

¡Excelente! Esas matrices de confusión lo dejaron todo más claro.

Perla Vidal

Diseñadora

Muy interesante, 5 estrellas.

Luis Castillo

Freelancer

Se me antojó una dona después de leer este artículo

Ricardo Pérez

Amante de los chilaquiles

Arriba los chilaquiles, abajo los gimnasios