.(version revisada y actualizada de algo que escribi en El Lado Oscuro de la Econometria, Ed. TEMAS, 2015).
Supongamos que viene nuestro hijo de 16 años y nos dice “me saqué un 10 en un examen” (cuyas calificaciones van de 0 a 10). ¿Es una buena noticia? Bueno, si es en uno de mecánica cuántica, del doctorado en física, seguro. ¿Y si el tipo volvió a sentarse con los niñitos de la primaria y tomó el examen de matemática de primer grado? Mmmm. Esta ambivalencia de reacciones debería provocarle a uno la noticia de que el modelo que acaba de estimar tiene un R2 alto.
El R2 es una medida de calidad en relación a la pregunta que uno se hizo inicialmente, es decir, el R2 no juzga la respuesta ni la pregunta sino la adecuación de la respuesta a la pregunta. Por ejemplo, si en un modelo la variable explicada es el activo de una empresa, y las variables explicativas son el pasivo y el patrimonio neto, a menos que cometamos algún error al ingresar los datos, el R2 será exactamente igual a uno. Es decir, el modelo proporciona una respuesta perfecta a una pregunta demasiado estúpida: siempre el activo es igual al pasivo más el patrimonio neto, por lo menos desde la época de fray Luca Pacioli. En el otro extremo está cualquier modelo de economía laboral, que aun con miles de datos no puede proporcionar un R2 mayor a 0.3. ¿Cuál de los dos modelos es mejor? Comparar modelos nada más que en base al R2 es como comparar coches en base a su tamaño. Sin otra mención en particular, creer que un modelo es mejor que otro porque tiene R2 más alto es como creer que un desvencijado ómnibus es mejor que un Porsche sólo porque es más grande.
La enorme popularidad del R2 tiene que ver con hacerle creer a los principiantes que se trata de “la” medida de calidad. La estadística clásica tiene enormes dificultades en definir con precisión qué significa que un modelo sea bueno, y de hecho recurre a un conjunto de propiedades deseables, dejándole al usuario que defina (explícita o implícitamente) sus mapa de preferencias sobre ellas, por ejemplo, si es preferible más sesgo que varianza o que un estimador sea robusto o no.
Cualquier modelo es obviamente erróneo como representación de la realidad, y la discusión de si es bueno o malo es un tanto inconducente. Los modelos no son buenos o malos sino útiles o inútiles, en el sentido de lo que decía George Box, eso de que “todos los modelos están mal, pero algunos son útiles”.
En el caso de las ecuaciones de Mincer (que regresan ingresos de personas en sus determiantes), ¿es el R2 igual a 0.3 bajo? Depende. Depende de para qué se quiera usar al modelo. Si es a fines de estimar el efecto de la edad sobre los salarios, por ejemplo, posiblemente el modelo sea excelente, a juzgar por la ínfima varianza con la que dicho efecto puede ser estimado. Ahora si el objetivo es usar el modelo para predecir salarios, el modelo es bastante malo. No existe forma de decir si 0.3 es bajo o alto a menos que explicitemos qué pretendíamos del modelo. En el caso de los activos, antes mencionados, un R2 de 0.99999 es patéticamente bajo: ya sabíamos cómo funcionaba el modelo sin necesidad de estimar absolutamente nada.
A veces pienso si no es mejor tirar el R2 a la basura en la enseñanza de la econometría básica. Si ya sé que hay mucho para perder. Pero también hay para ganar, para que el alumno focalice en la complejidad de evaluar multidimensionalmente si un modelo es bueno o no, en particular en base a los objetivos que se propuso con la estimación del modelo.
El mejor favor que alguien me ha hecho es enseñarme a afinar mi guitarra a oído. Una vez que me acostumbré a confiar en mi oído interno, mi afinador electrónico Korg y yo convivimos en sana armonía. El R2 es una característica del modelo, que aún cuando sea elevado, puede dejarnos tan lejos de un buen modelo como de tocar afinado a tocar bien la guitarra.
- - - - - - - - -
Coda big datera: escribí esto hace un tiempo, cuando pocos hablaban de big data. El paradigma de big data, machine learning y sus primos hermanos es, fundamentalmente, el de la predicción por sobre la estimación. De modo que cabe preguntarse si en este nuevo contexto no hay espacio para nuestro viejo amigo el R2, que se puso loco de contento del mero hecho de escuchar la palabra “predicción”, como cuando al flaco Vivaldo le hicieron creer que atajaría en Boca. ¿O acaso el R2 no es una medida de capacidad predictiva? Bueno, lamentablemente no hay buenas noticias. El desafio de machine learning y big data es de prediccion fuera de la muestra, es decir, para datos y circunstancias ajenas al mecanismo que se usa para “aprender” el modelo. El R2 es una medida de ajuste dentro de la muestra. Variantes como el R2 ajustado van en la direccion correcta, pero a fines de medir la capacidad predictiva fuera de la muestra han sido reemplazadas por alternativas como cross-validation.
En una fria noche de julio de 2004 el periodista Marcelo Palacios cometió la imprudencia de anunciarle al aire al Flaco Vivaldo que se frustraba su actuación en Boca Juniors. Injusto para con un tipo querible como el Flaco, e innecesario para cualquiera que ataje con la camiseta de “Jesus te ama” debajo del buzo, como el ex-golero de Chacarita. Asi que si lo ven por ahí al R2, no le digan nada, no es necesario. En algún lugar los códigos del fubtol y de la econometría se dan la mano.
Supongamos que viene nuestro hijo de 16 años y nos dice “me saqué un 10 en un examen” (cuyas calificaciones van de 0 a 10). ¿Es una buena noticia? Bueno, si es en uno de mecánica cuántica, del doctorado en física, seguro. ¿Y si el tipo volvió a sentarse con los niñitos de la primaria y tomó el examen de matemática de primer grado? Mmmm. Esta ambivalencia de reacciones debería provocarle a uno la noticia de que el modelo que acaba de estimar tiene un R2 alto.
El R2 es una medida de calidad en relación a la pregunta que uno se hizo inicialmente, es decir, el R2 no juzga la respuesta ni la pregunta sino la adecuación de la respuesta a la pregunta. Por ejemplo, si en un modelo la variable explicada es el activo de una empresa, y las variables explicativas son el pasivo y el patrimonio neto, a menos que cometamos algún error al ingresar los datos, el R2 será exactamente igual a uno. Es decir, el modelo proporciona una respuesta perfecta a una pregunta demasiado estúpida: siempre el activo es igual al pasivo más el patrimonio neto, por lo menos desde la época de fray Luca Pacioli. En el otro extremo está cualquier modelo de economía laboral, que aun con miles de datos no puede proporcionar un R2 mayor a 0.3. ¿Cuál de los dos modelos es mejor? Comparar modelos nada más que en base al R2 es como comparar coches en base a su tamaño. Sin otra mención en particular, creer que un modelo es mejor que otro porque tiene R2 más alto es como creer que un desvencijado ómnibus es mejor que un Porsche sólo porque es más grande.
La enorme popularidad del R2 tiene que ver con hacerle creer a los principiantes que se trata de “la” medida de calidad. La estadística clásica tiene enormes dificultades en definir con precisión qué significa que un modelo sea bueno, y de hecho recurre a un conjunto de propiedades deseables, dejándole al usuario que defina (explícita o implícitamente) sus mapa de preferencias sobre ellas, por ejemplo, si es preferible más sesgo que varianza o que un estimador sea robusto o no.
Cualquier modelo es obviamente erróneo como representación de la realidad, y la discusión de si es bueno o malo es un tanto inconducente. Los modelos no son buenos o malos sino útiles o inútiles, en el sentido de lo que decía George Box, eso de que “todos los modelos están mal, pero algunos son útiles”.
En el caso de las ecuaciones de Mincer (que regresan ingresos de personas en sus determiantes), ¿es el R2 igual a 0.3 bajo? Depende. Depende de para qué se quiera usar al modelo. Si es a fines de estimar el efecto de la edad sobre los salarios, por ejemplo, posiblemente el modelo sea excelente, a juzgar por la ínfima varianza con la que dicho efecto puede ser estimado. Ahora si el objetivo es usar el modelo para predecir salarios, el modelo es bastante malo. No existe forma de decir si 0.3 es bajo o alto a menos que explicitemos qué pretendíamos del modelo. En el caso de los activos, antes mencionados, un R2 de 0.99999 es patéticamente bajo: ya sabíamos cómo funcionaba el modelo sin necesidad de estimar absolutamente nada.
A veces pienso si no es mejor tirar el R2 a la basura en la enseñanza de la econometría básica. Si ya sé que hay mucho para perder. Pero también hay para ganar, para que el alumno focalice en la complejidad de evaluar multidimensionalmente si un modelo es bueno o no, en particular en base a los objetivos que se propuso con la estimación del modelo.
El mejor favor que alguien me ha hecho es enseñarme a afinar mi guitarra a oído. Una vez que me acostumbré a confiar en mi oído interno, mi afinador electrónico Korg y yo convivimos en sana armonía. El R2 es una característica del modelo, que aún cuando sea elevado, puede dejarnos tan lejos de un buen modelo como de tocar afinado a tocar bien la guitarra.
- - - - - - - - -
Coda big datera: escribí esto hace un tiempo, cuando pocos hablaban de big data. El paradigma de big data, machine learning y sus primos hermanos es, fundamentalmente, el de la predicción por sobre la estimación. De modo que cabe preguntarse si en este nuevo contexto no hay espacio para nuestro viejo amigo el R2, que se puso loco de contento del mero hecho de escuchar la palabra “predicción”, como cuando al flaco Vivaldo le hicieron creer que atajaría en Boca. ¿O acaso el R2 no es una medida de capacidad predictiva? Bueno, lamentablemente no hay buenas noticias. El desafio de machine learning y big data es de prediccion fuera de la muestra, es decir, para datos y circunstancias ajenas al mecanismo que se usa para “aprender” el modelo. El R2 es una medida de ajuste dentro de la muestra. Variantes como el R2 ajustado van en la direccion correcta, pero a fines de medir la capacidad predictiva fuera de la muestra han sido reemplazadas por alternativas como cross-validation.
En una fria noche de julio de 2004 el periodista Marcelo Palacios cometió la imprudencia de anunciarle al aire al Flaco Vivaldo que se frustraba su actuación en Boca Juniors. Injusto para con un tipo querible como el Flaco, e innecesario para cualquiera que ataje con la camiseta de “Jesus te ama” debajo del buzo, como el ex-golero de Chacarita. Asi que si lo ven por ahí al R2, no le digan nada, no es necesario. En algún lugar los códigos del fubtol y de la econometría se dan la mano.