Vectorización y métricas de error. Medir bien y saber qué tan malo puede ser errar.

La vectorización es el primer paso para poder hacerle un modelo predictivo.

Casi cualquier cosa del mundo real, las personas, las emociones, gustos y nuestras interacciones con el mundo pueden ser codificadas en números, pueden ser codificadas en términos matemáticos y esto es de lo que se trata convertir cosas en vectores.

En un artículo anterior sobre modelos canónicos mencioné la posibilidad de codificar imágenes, video o audio en el espacio vectorial mediante redes neuronales. Mencioné allí que cada imagen tiene millones de pixeles, que cada pixel tendrá un valor para el color que este toma, y que al convertir estos valores en una gran lista, en un gran vector, los números existen cómo un punto en el largo espacio de n dimensiones. Lo que hemos hecho es codificar esa foto del mundo real en números.

Conforme progresas en Machine Learning vas encontrando formas cada vez más creativas de hacerlo con cada aspecto del mundo real.

Veamos un ejemplo breve. Digamos que tenemos la tarea de predecir el número de mililitros de medicamento a administrar en un hospital. Supongamos que tenemos cien diferentes pacientes, y cada uno existe en el espacio tridimensional, lo que significa que tienen 5 características. Así que nuestro set de entrenamiento, nuestra matriz de entrenamiento va a ser de 100 x 5, va a tener cien filas y cinco columnas. Esto lo convertiremos en un vector de respuestas, de el número de mililitros que históricamente, ha sido administrado a cada uno de estos pacientes. Y entonces, nuestro set de entrenamiento de 100 x 5, el cual efectivamente tiene cien diferentes columnas va a ser pensado en una sola columna y cien filas. Así es como nuestra data se tiene que ver una vez que codificamos las cosas al espacio vectorial, para poder pasarlas a nuestro modelo de Machine Learning. 

Hiperparámetros (Hyperparameters)

En nuestro ejemplo, los mililitros que se suministran son el parámetro que estamos analizando. Pero nuestras filas y columnas, vectorizadas o no, son cuando construimos modelos de machine learning un “hiperparámetro” (hyperparameter). Son las opciones de fondo que van a determinar a nuestro parámetro. En otras palabras son como botones que podés activar o desactivar a partir de las características que creas para tus datos, para los modelos que eliges, para los hiperparámetros con los que parametrizas esos modelos.

Métricas de error (Error metrics)

Las métricas de error nos dan una noción cuan errados podemos estar en nuestra predicción. Existen diversas métricas de error que se adaptan a cada uno de los modelos posibles. No es lo mismo que un “margen de error”, aunque en estadísticas simples (por ejemplo en regresiones lineales) puede ser coincidente, pero también puede no serlo. Por ejemplo si hacemos una regresión lineal del horario a la que llegan a hacer el check-in los pasajeros de un vuelo, no da lo mismo que la hora a la que llegó un pasajero sea 5 minutos antes de la hora de cierre del vuelo que 5 minutos después. Pues en el segundo caso el pasajero pierde el vuelo, y el costo del margen es mucho más alto. Esto puede ser cuantificado por Métricas de error. Las métricas de error nos permiten preveer la posibilidad de acierto y de error de un modelo dado y las consecuencias de ese acierto o error. Podemos resumir esto último en la pregunta ¿Qué tan malo es estar mal?.
Algunas métricas conocidas son Mean Squared Error (MSE), Root Mean Square Error (RMSE), Mean Absolute Scaled Error (MASE), Mean Absolute Percentage Error (MAPE). Las trataremos en otros artículos en el futuro.

 

Autor entrada: admin

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *