CRISTIAN  GAMÓN


Data Analytics & Machine Learning

"Analista de datos enfocado en generar valor de negocio a través del análisis y la ciencia de datos."


Habilidades


Excel | Python | SQL | Power BI | Tableau

  • Manejo de librerías de Python claves para el análisis de datos como Pandas, NumPy y Scikit-learn, entre otras.

  • Desarrollo end-to-end de modelos de Machine Learning con enfoque en impacto empresarial.

  • Desarrollo del ciclo completo del análisis de datos: recolección, limpieza, análisis y comunicación de resultados.

  • Dominio de SQL para realizar búsquedas, uniones y agregaciones en bases de datos relacionales.


Ruta de Aprendizaje en
Data Analytics



Proyectos


PYTHON | SCIKIT-LEARN | STREAMLIT

MODELO ML SCORING BANCARIO

Modelo de machine learning aplicado al credit scoring, desarrollado en Python, con Pandas y Scikit-learn, y culminado con una app interactiva desarrollada en Streamlit para la visualización de resultados en tiempo real y que hemos llamado CreditScore Studio.


PYTHON | TABLEAU

ANÁLISIS MERCADO ALQUILER TURÍSTICO VALENCIA

A partir de datos públicos de Airbnb y utilizando Python y Tableau, evaluamos el posicionamiento del cliente frente a sus competidores, identificando patrones de precios, zonas de mayor rentabilidad y oportunidades de optimización estratégica.


EXCEL | VBA | POWER QUERY

DASHBOARD NBA

Dashboard interactivo en Excel que utiliza macros y formularios en VBA con el objetivo de ayudar al seguimiento de partidos de la NBA y para la toma de decisiones en apuestas deportivas


PYTHON | SCIKIT-LEARN | STREAMLIT

MODELO ML SCORING BANCARIO


MODELO DE MACHINE LEARNINGComo parte final del Python Data Science Mastery de DS4B, desarrollé este proyecto que une programación, estadística y aplicación práctica en el ámbito financiero.El objetivo fue desarrollar un sistema de Machine Learning capaz de calcular las tres dimensiones del riesgo —PD (Probability of Default), EAD (Exposure at Default) y LGD (Loss Given Default)— y obtener a partir de ellas la pérdida esperada (Expected Loss) en la concesión de créditos.El proyecto culmina con la creación de una aplicación interactiva en Streamlit, que hemos llamado CreditScore Studio, la cual permite visualizar los resultados del modelo de forma dinámica y comprensible.


PREGUNTAS SEMILLA- ¿Qué variables del préstamo y del cliente influyen más en la probabilidad de impago?- ¿Cómo puedo estructurar los datos para obtener tres modelos distintos (PD, EAD, LGD) a partir de la misma base?- ¿Qué pasos de limpieza y validación son imprescindibles antes de entrenar un modelo financiero?- ¿Cómo garantizar que los resultados del modelo sean interpretables y puedan integrarse en una herramienta visual?Estas preguntas fueron el punto de partida y sirvieron para estructurar el proyecto en diez notebooks consecutivos, que representan el flujo completo de un proyecto de scoring bancario.


DESARROLLO DEL PROYECTO1 - Preparación y configuración del entornoEstablecemos las librerías de trabajo y las rutas principales del proyecto.Se cargó el dataset prestamos.csv, que contiene información sobre préstamos concedidos por una entidad bancaria, y se definió la estructura del directorio para las fases posteriores.
2 - Calidad de datos
Analizamos valores ausentes, duplicados y tipos de variables.Tras la revisión, el dataset se dividió en dos subconjuntos:trabajo.csv (70%) para el entrenamiento de los modelos,validacion.csv (30%) para evaluar su rendimiento.Generamos también versiones separadas con variables numéricas y categóricas para facilitar las transformaciones posteriores.
3 - Análisis exploratorio (EDA)
Revisamos las distribuciones de las variables, las correlaciones y la proporción de impagos, con el fin de comprender la estructura de los datos y detectar posibles sesgos.Este análisis sirvió para definir qué variables serían relevantes en los modelos de PD, EAD y LGD.
4 - Transformación de datos
El notebook 04Transformación de datos creó los pipelines de preprocesamiento, diferenciando el tratamiento de variables numéricas y categóricas.Se aplicaron imputaciones, codificaciones y escalados cuando fue necesario, y se prepararon los datasets finales de trabajo para su uso directo en los modelos.
5 - Modelización de la PD (Probability of Default)
Construimos un modelo de clasificación basado en Regresión Logística con regularización L1 (solver='saga', penalty='l1', C=0.25).El modelo se entrenó sobre trabajo.csv y se validó con validacion.csv.Se evaluó el rendimiento mediante:Matriz de confusiónAccuracyPrecisionRecallROC-AUCLos resultados demostraron un equilibrio entre sensibilidad y precisión, por lo que el modelo fue aceptado como base para el cálculo de la probabilidad de impago.
6 - Modelización de la EAD (Exposure at Default)
Generamos un modelo de regresión lineal para estimar la exposición esperada al momento del impago.El modelo se ajustó utilizando las variables numéricas más significativas, y se evaluó con métricas de error:MAE (Mean Absolute Error)RMSE (Root Mean Squared Error)El objetivo fue obtener una predicción estable y sin sesgo excesivo, más que maximizar la precisión absoluta.
7 - Modelización de la LGD (Loss Given Default)
Modelización Regresión LGD calculó la proporción de pérdida esperada en caso de impago.
Se utilizó nuevamente un modelo de regresión lineal, comprobando la linealidad de las variables y asegurando que los valores predichos quedaran dentro del rango [0,1].
Se evaluó con MAE y R², verificando que el modelo fuera coherente con los valores históricos.
8 - Preparación del código de producciónEn 08
Preparación del código de producción, se integraron los tres modelos entrenados (PD, EAD, LGD) en un mismo flujo.
Aquí se construyeron las funciones de predicción y se diseñó la base del sistema de producción, donde el usuario puede introducir nuevos datos y obtener los resultados de manera automatizada.9 - Código de reentrenamientoEl notebook 09Código de reentrenamiento estableció el proceso para actualizar los modelos de forma periódica.
El código permite reutilizar el pipeline y volver a entrenar los modelos con nuevos datos de préstamos sin tener que reconstruir el flujo completo.
10 - Código de ejecución y aplicaciónFinalmente, en 10Código de ejecución, se desarrolló la aplicación Credit Risk Dashboard en Streamlit.
La app permite:cargar un dataset o registro individual,generar las predicciones de PD, EAD y LGD,calcular automáticamente la pérdida esperada,y visualizar los resultados en gráficos interactivos.Este paso convierte el proyecto en una herramienta práctica, útil tanto para la validación del modelo como para su presentación.

PYTHON | TABLEAU

ANÁLISIS MERCADO ALQUILER TURÍSTICO VALENCIA


ESTUDIO DE POSICIONAMIENTO Y PRECIOS TURÍSTICOSDurante el desarrollo de mi formación en Data Analytics quise realizar un proyecto que simulase un encargo real de una empresa del sector turístico.El objetivo era analizar el mercado de alquiler turístico en Valencia para un cliente ficticio con 16 inmuebles y determinar su posicionamiento frente a la competencia a partir de datos públicos de Airbnb.El proyecto se planteó como un estudio de mercado completo: desde la exploración y limpieza de datos hasta la creación de un dashboard interactivo en Tableau, capaz de responder preguntas de negocio sobre precios, rentabilidad y localización.


PREGUNTAS SEMILLA- ¿Qué factores influyen más en el precio por noche de un alojamiento turístico en Valencia?- ¿Cómo varía el precio medio según la distancia al centro o la capacidad del inmueble?- ¿En qué zonas los inmuebles del cliente están por debajo o por encima del precio de mercado?- ¿Podemos estimar qué segmentos de oferta presentan mayor rentabilidad potencial?¿Cómo podemos presentar estos resultados de forma visual e intuitiva para la toma de decisiones?Estas preguntas definieron el enfoque analítico y marcaron la ruta del proyecto: pasar de datos sin procesar a conclusiones accionables con valor empresarial.


DESARROLLO DEL PROYECTOEl análisis se centró en entender cómo factores como la localización y la capacidad influyen en el precio medio por noche, diferenciando claramente entre la oferta del cliente y la del mercado.A partir de esta comparación fue posible detectar zonas donde los precios propios podían optimizarse para mejorar la rentabilidad sin perder competitividad.Los resultados se presentaron mediante un dashboard en Tableau, diseñado como herramienta visual de apoyo a la gestión del portafolio inmobiliario y a la toma de decisiones de pricing.


EXPLICACIÓN DEL CÓDIGOEl proyecto se estructuró en cuatro notebooks principales:1 - Diseño del caso (ver en GitHub) → definición del contexto, objetivos, KPIs y preguntas de negocio.2 - Análisis de ficheros y preparación (ver en GitHub) → exploración inicial, tratamiento de nulos y creación de variables clave como distanciaalcentro y precioporpersona.3 - Creación del Datamart Analítico (ver en GitHub) → consolidación de los datasets listings y listingsdet, segmentación del mercado, cálculo de KPIs y generación del dataset final datamartvalencia_total.csv.4 - Análisis y conclusiones (ver en GitHub) → visualización de resultados con Seaborn y preparación del archivo para Tableau.

EXCEL | VBA | POWER QUERY

DASHBOARD NBA


DASHBOARD NBADurante la temporada 2023-2024 de la NBA quise crear un sistema que no solo actualizara automáticamente los resultados de los partidos, sino que también sirviera como herramienta de apoyo en la toma de decisiones para apuestas deportivas.

El objetivo era disponer de un dashboard en Excel capaz de recopilar datos en tiempo real, consolidarlos en una base de datos y facilitar el análisis de tendencias sobre el total de puntos anotados en cada partido.


PREGUNTAS SEMILLA- ¿Cómo puedo automatizar la descarga de estadísticas de cada partido desde una fuente web sin tener que copiar los datos manualmente?- ¿Podría permitir que el usuario seleccione una fecha específica y obtener automáticamente los partidos de esa jornada?- ¿Cómo garantizar que no se repitan datos ya descargados en la base de datos?- ¿Qué estructura necesito para comparar los resultados reales con las cuotas ofrecidas por las casas de apuestas?- ¿Sería posible analizar los promedios de puntos y detectar patrones útiles para apostar al total (“over/under”)?


DESARROLLO DEL PROYECTOEl dashboard fue construido íntegramente en Microsoft Excel, integrando VBA y Power Query para automatizar el flujo de datos.Desarrollé dos formularios interactivos:- Uno para seleccionar la fecha de los partidos- Y otro para registrar las cuotas de apuestas (local y visitante)La macro principal, DescargaResultados, se conecta automáticamente a la web hispanosnba.com, descarga las estadísticas mediante una consulta Power Query y las consolida en la hoja BD (Base de Datos).Desde ahí, el sistema:- Comprueba si la fecha ya ha sido descargada para evitar duplicados- Determina el ganador y el equipo favorito- Y guarda la información necesaria para evaluar tendencias de puntos y rendimiento ofensivo.Gracias a este flujo, el dashboard permite analizar variables clave como la media de puntos por equipo, el número de partidos por encima o por debajo del total esperado y la relación con las cuotas de apuestas.El resultado es una herramienta que transforma un simple Excel en un sistema predictivo artesanal, útil para identificar oportunidades de valor en las apuestas al total de puntos (“over/under”).


EXPLICACIÓN DEL CÓDIGOEl código VBA se organiza de forma modular:- Módulo principal (ver en GitHub): contiene las macros encargadas de la automatización (DescargaResultados, VictoriaDerrota, DeterminarFavorito, GanadorDescanso, etc.).- UserForm3 (ver en GitHub): gestiona la selección de fecha mediante listas dinámicas (día, mes y año).- UserForm1 (ver en GitHub): permite registrar las cuotas de apuestas con validación numérica.- La integración con Power Query permite importar directamente las tablas de estadísticas sin intervención manual, manteniendo la base de datos siempre actualizada.

NBA Dashboard
NBA Dashboard
NBA Dashboard

Sobre mí


Eu ultrices vitae auctor eu.
Elementum eu facilisis sed odio morbi quis.
Mattis enim ut tellus elementum sagittis vitae et leo duis.



Contacto

Donec eget ex magna. Interdum et fames ac ante ipsum primis magna in faucibus.