Regístrate para obtener acceso a proyectos similares
Todas las semanas escogemos un proyecto de la vida real para que construyas tu portafolio y te prepares para conseguir un trabajo. Todos nuestros proyectos están construidos con ChatGPT como co-pilot!
Únete al retoUn podcast de cultura tecnológica donde aprenderás a luchar contra los enemigos que te bloquean en tu camino para convertirte en un profesional exitoso en tecnología.
Escuchar el podcastSigue las siguientes instrucciones:
Una vez que hayas terminado de resolver el caso práctico, asegúrate de confirmar tus cambios, haz push a tu repositorio y ve a 4Geeks.com para subir el enlace del repositorio.
Este conjunto de datos proviene originalmente del Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales. El objetivo es predecir en base a medidas diagnósticas si un paciente tiene o no diabetes.
El conjunto de datos se puede encontrar en esta carpeta de proyecto bajo el nombre diabetes.csv
. Puedes cargarlo en el código directamente desde el enlace (https://raw.githubusercontent.com/4GeeksAcademy/decision-tree-project-tutorial/main/diabetes.csv
) o descargarlo y añadirlo a mano en tu repositorio. En este conjunto de datos encontrarás las siguientes variables:
Pregnancies
. Número de embarazos del paciente (numérico)Glucose
. Concentración de glucosa en plasma a las 2 horas de un test de tolerancia oral a la glucosa (numérico)BloodPressure
. Presión arterial diastólica (medida en mm Hg) (numérico)SkinThickness
. Grosor del pliegue cutáneo del tríceps (medida en mm) (numérico)Insulin
. Insulina sérica de 2 horas (medida en mu U/ml) (numérico)BMI
. Índice de masa corporal (numérico)DiabetesPedigreeFunction
. Función de pedigrí de diabetes (numérico)Age
. Edad del paciente (numérico)Outcome
. Variable de clase (0 o 1), siendo 0 negativo en diabetes y 1, positivo (numérico)Este segundo paso es vital para asegurar que nos quedamos con las variables estrictamente necesarias y eliminamos las que no son relevantes o no aportan información. Utiliza el Notebook de ejemplo que trabajamos y adáptalo a este caso de uso.
Asegúrate de dividir convenientemente el conjunto de datos en train
y test
como hemos visto en lecciones anteriores.
Comienza a resolver el problema implementando un árbol de decisión y analiza cuál de los dos tipos satisface tus necesidades. Entrénalo y analiza sus resultados. Prueba a modificar la función de cálculo de la pureza de los nodos y utiliza todas las disponibles. Descríbelas y analiza sus resultados graficándolos.
Después de entrenar el árbol con las distintas funciones de pureza, selecciona el mejor de ellos y optimiza sus hiperparámetros utilizando un grid search.
Almacena el modelo en la carpeta correspondiente.
NOTA: Solución: https://github.com/4GeeksAcademy/decision-tree-project-tutorial/blob/main/solution.ipynb
Regístrate para obtener acceso a proyectos similares
Todas las semanas escogemos un proyecto de la vida real para que construyas tu portafolio y te prepares para conseguir un trabajo. Todos nuestros proyectos están construidos con ChatGPT como co-pilot!
Únete al retoUn podcast de cultura tecnológica donde aprenderás a luchar contra los enemigos que te bloquean en tu camino para convertirte en un profesional exitoso en tecnología.
Escuchar el podcast