Proyecto Tutorial K-Medias

Dificultad

easy

Duración promedio

2 hrs

Tecnologías

Data Science

Machine Learning

Dificultad

easy

Duración promedio

2 hrs

Tecnologías

Data Science

Machine Learning

Regístrate para obtener acceso a proyectos similares

Dificultad

easy

Duración promedio

2 hrs

Tecnologías

Data Science

Machine Learning

Dificultad

easy

Duración promedio

2 hrs

Tecnologías

Data Science

Machine Learning

Weekly Coding Challenge

Todas las semanas escogemos un proyecto de la vida real para que construyas tu portafolio y te prepares para conseguir un trabajo. Todos nuestros proyectos están construidos con ChatGPT como co-pilot!

Únete al reto

Podcast: Code Sets You Free

Un podcast de cultura tecnológica donde aprenderás a luchar contra los enemigos que te bloquean en tu camino para convertirte en un profesional exitoso en tecnología.

Escuchar el podcast

Comprender un dataset nuevo.
Modelar los datos utilizando un K-Means.
Analizar los resultados y entrenar un modelo supervisado.

🌱 Cómo iniciar este proyecto

Sigue las siguientes instrucciones:

Crea un nuevo repositorio basado en el proyecto de Machine Learing haciendo clic aquí.
Abre el repositorio creado recientemente en Codespace usando la extensión del botón de Codespace.
Una vez que el VSCode del Codespace haya terminado de abrirse, comienza tu proyecto siguiendo las instrucciones a continuación.

🚛 Cómo entregar este proyecto

Una vez que hayas terminado de resolver el caso práctico, asegúrate de confirmar tus cambios, haz push a tu repositorio y ve a 4Geeks.com para subir el enlace del repositorio.

📝 Instrucciones

Sistema de agrupación de casas

Queremos ser capaces de clasificar casas según su la región en la que se encuentren y del ingreso medio. Para ello, utilizaremos el famoso conjunto de datos California Housing. Se construyó utilizando los datos del censo de California de 1990. Contiene una fila por grupo de bloques censales. Un grupo de bloques es la unidad geográfica más pequeña para la que se publican datos del censo de USA.

Paso 1: Carga del conjunto de datos

El conjunto de datos se puede encontrar en esta carpeta de proyecto bajo el nombre housing.csv. Puedes cargarlo en el código directamente desde el enlace (https://raw.githubusercontent.com/4GeeksAcademy/k-means-project-tutorial/main/housing.csv) o descargarlo y añadirlo a mano en tu repositorio. En este caso solo nos interesan las columnas Latitude, Longitude y MedInc.

Asegúrate de dividir convenientemente el conjunto de datos en train y test como hemos visto en lecciones anteriores. Aunque estos conjuntos no se utilicen para obtener estadísticas, podrás utilizarlos para entrenar el algoritmo no supervisado y luego para hacer predicciones sobre puntos nuevos para predecir el cluster al que se asocian.

Paso 2: Construye un K-Means

Clasifica los datos en 6 clusters utilizando, para ello, el modelo K-Means. A continuación, almacena el cluster al que pertenece cada casa como una columna nueva del dataset. Podrías llamarla cluster. Para introducirla a tu conjunto de datos quizá tengas que categorizarla. Observa qué formato y valores tiene y actúa en consecuencia. Grafícala en un diagrama de puntos y describe lo que ves.

Paso 3: Predice con el conjunto de test

Ahora utiliza el modelo entrenado con el conjunto de prueba y añade los puntos al gráfico anterior para confirmar que la predicción es satisfactoria o no.

Paso 4: Entrena un modelo de clasificación supervisada

Ahora que el K-Means nos ha devuelto una categorización (agrupación) de los puntos para los conjuntos de entrenamiento y prueba, estudia qué modelo podría ser más útil y entrénalo. Obtén las estadísticas y describe lo que ves.

Este flujo es muy común cuando contamos con datos no etiquetados: utilizar un modelo de aprendizaje no supervisado para etiquetarlos de forma automática y a continuación, un modelo de aprendizaje supervisado.

Paso 5: Guarda los modelos

Almacena ambos modelos en la carpeta correspondiente.

NOTA: Solución: https://github.com/4GeeksAcademy/k-means-project-tutorial/blob/main/solution.ipynb