walter sosa escudero
  • home
  • bio / cv
  • investigacion / research
  • cursos / teaching
  • libros / books
  • divulgacion / media
  • personal
  • crisol de gatos (blog)

The Econometric Maschefacts

8/1/2017

0 Comments

 
Picture
(extracto de El Lado Oscuro de la Econometria)
Por Walter Sosa Escudero

Fue inevitable que alguien intentase esto. En último mundial de Brasil Argentina jugó su primera final en más de veinte años. Y con el espíritu patriotero a flor de piel todos nos subimos al tren de la alegría y erigimos como héroe a Javier Mascherano, representante de la auténtica estirpe criolla, esa que parece privilegiar el esfuerzo por sobre cualquier talento y resultado, como para enrostrárselo al mundo si salíamos campeones, o tener una excusa autocomplaciente si perdíamos, como quien da ventaja para seguir siendo soberbio en la derrota, como decía Alejandro Dolina.
 
En el fragor de la victoria Mascherano fue ungido como una suerte de Chuck Norris telúrico, capaz de las hazañas más y disparatadas. Y así imaginamos a nuestro héroe enfrentando desafíos econométricos dignos de un Superman de la disciplina. Y despues vino la derrota y la kriptonita, y habiendo pasado la resaca solo quedaron algunas chanzas que no fuimos capaces de borrar a tiempo.
 
He aquí entonces un vestigio de carnaval econométrico. Advierto que acá hay mucho código. Quien no entienda, pregunte por ahí. Porque peor que contar chistes malos es explicarlos.
 
  1. El R2 ajustado de Mascherano es siempre igual a uno. Es más, él lo pone donde quiere. Y siempre quiere uno.
  2. Mascherano computó el valor esperado de una variable aleatoria con distribución de Cauchy.
  3. Xavier Sala-i-Martin corrió 2 000 000 de regresiones. Mascherano corrió una. Y fue suficiente.
  4. Mascherano no estudia estadística. La estadística lo estudia a él.
  5. Mascherano puede poner J variables binarias y un intercepto.
  6. Mascherano no corre regresiones. Las regresiones corren cuando lo ven a él.
  7. Mascherano puede implementar el boostrap con una sola iteración.
  8. Mascherano puede estimar kernels multivariados con cualquier cantidad de observaciones. Él es la maldición de la dimensionalidad.
  9. Las regresiones por cuantiles de Mascherano no son paralelas y no se cruzan en ningún punto.
  10. Mascherano no necesita hacer regularización. Él decide qué variables van al modelo y cuáles no.
  11. Mascherano puede hacer que el error de tipo I y II sean ambos iguales a cero.
  12. Mascherano puede identificar la varianza de un modelo lineal latente con un probit.
  13. Mascherano puede clusterizar errores estándar con un grupo solo.
  14. Mascherano no cree en los efectos aleatorios. Él los fija donde se le canta.
  15. Mascherano conoce el proceso generador de datos.
  16. Mascherano no necesita GMM. Con el metodo de momentos le alcanza y sobra.
  17. Mascherano es el dueño de la “M” de los M-estimadores.
  18. Las predicciones de los modelos lineales de probabilidad de Mascherano siempre estan entre 0 y 1. Tienen pánico de escaparse de ese rango.
  19. Las matrices de proyecciones ortogonales de Mascherano no son idempotentes. Son simplemente impotentes.
  20. Mascherano puede correr commandos de Stata en R.
 
Y si. La alegria no es solo brasilera.
 
0 Comments

Que es mas grande: ¿un censo o una muestra?

4/4/2017

0 Comments

 
Picture
   
Marta está confundida. No le hizo ninguna gracia el telegrama de despido que inesperadamente recibió el mes pasado; tantos años, tantas ilusiones. Que el ajuste, que la macroeconomía, que el contexto político (la versión “no sos vos, soy yo” de las relaciones laborales), pero que algún dejo de culpa le ha instalado. Pero por otro lado la puso muy contenta que muy rápidamente varias empresas de la industria la contactasen con varias alternativas laborales. Así que al sin sabor inicial le siguió un aire de entusiasmo, aun cuando todavía le queda alguna duda de cuánto del despido fué culpa de ella y cuanto no. 

A fines de reflexionar sobre estas cuestiones, Marta decide tomarse un mes libre antes de comenzar con su nuevo trabajo. Y justo un miércoles de esas autoimpuestas vacaciones suena  el timbre a las 9 de la mañana:  había olvidado por completo que ese día había censo nacional. 

Raúl, el encuestador, da comienzo a las preguntas de rigor a fines de acelerar el trámite con el extenso formulario. ¿Edad? ¿Género? ¿Máximo nivel educativo alcanzado?,  inquiere, en un acelerado ping-pong de preguntas y respuestas. Y en algún momento Raúl dice ¿Situación ocupacional?, usando una jerga burocrática mucho más precisa, que ella solo pudo interpretar como “¿Está desempleada?”. 

Marta intentó una larga explicación. Que si bien ese miércoles estaba efectivamente desempleada, no lo había estado durante 12 años, y que había sido despedida por cuestiones ajenas a su excelente desempeño, que la situación económica, que el contexto político, que no fue ella,  que fue la empresa. Y que muy rápidamente había vuelto a conseguir trabajo y que se había tomado un tiempo para pensar y que la semana que viene ya estaría de vuelta empleada. 

Y con una mezcla de desilusión y bronca vio como Raúl, apurado por el larguísimo día de trabajo que le esperaba, tildo cruelmente la casilla de “desocupado/a”. Los intentos de explicación de Marta (que de haber venido la semana que viene, o hace un mes la cosa seria distinta, que es solo una circunstancia) recibieron un lacónico “Señorita, estoy relevando datos, no explicaciones” por parte de Raúl, que solo atinó a proseguir con la catarata de preguntas propias de un censo nacional. 

Y así es como Marta opina que el censo esta mal, porque la respuesta que Raúl registró no refleja su verdadero status laboral. Y Raúl, que está bien, contento con haber cumplido con las pautas que le dieron en el entrenamiento para ser censista.

Todo dato es una herramienta de algo. Las preguntas y sus respuestas son una circunstancia atravesada por un lenguaje y un contexto, y como tal admiten varios usos y significados. La llave de salida de este dilema (el censo está bien o mal) está donde la dejamos al comienzo de este libro: pensar en el verdadero objetivo de la herramienta.

Supongamos que el objetivo del censo es medir el bienestar de la población (que no es tan así). Entonces, la pregunta sobre el desempleo lleva implícita la idea de que estar desempleado es malo y no estarlo es bueno. Desde este punto de vista, Marta está desempleada pero se siente bien. De modo que si el verdadero objetivo del censo es relevar el bienestar de la población, la respuesta “empleada” refleja mejor el status de Marta (y de la nación) que la que Raúl anotó.  Ahora, si el objetivo del censo es cuantificar detalles del funcionamiento del mercado laboral, la respuesta “desempleada” es útil, lo que quizás le permita a los analistas explorar discernir la naturaleza permanente de la temporaria del desempleo. 

En definitiva, la relevancia de los datos depende del propósito. Por ejemplo, tal vez lo que resulta de interés es medir la tasa (y no el volumen) de desempleo, es decir, la proporción de personas desempleadas en relación al total. Y quizás bajo este objetivo la circunstancia negativa que hace que Marta este desempleada justo cuando vino el censista se compense en la agregación con la de Analía que está empleada ese día pero sabe que a fin de mes tendrá que salir a buscar trabajo por el ya anunciado cierre de la panadería en la que trabaja.

A esta altura ya podemos adivinar la postura de nuestro viejo conocido Ireneo Funes: estaría de acuerdo con la postura de Raúl, porque los datos son los datos. Pero también un disconforme porque el censo usa “desempleo” para aglutinar cosas que él habría separado más finamente. En relación a esta cuestión, dice Borges que a Funes “no sólo le costaba comprender que el símbolo genérico perro abarcara tantos individuos dispares de diversos tamaños y diversa forma; le molestaba que el perro de las tres y catorce (visto de perfil) tuviera el mismo nombre que el perro de las tres y cuarto (visto de frente)”. Conjeturamos que el formulario censal que habría satisfecho a Funes seria extenso como la Biblioteca de Babel.

Muy interesantemente, la apreciación extrema de Funes sobre el censo es la que la mayoría de la gente tiene: de completitud, de agotar todas las instancias, de abarcarlo todo y no dejar dudas. El censo, desde esta perspectiva, es todo, es “la población”, como se dice en la jerga. En particular en relación a una muestra. A modo de ejemplo, el censo abarca a los mas o menos 3 millones de familias del Gran Buenos Aires, mientras que la Encuesta Permanente de Hogares (EPH) solo encuesta a 3.000.

Una encuesta como la EPH esta atravesada por una esencial aleatoriedad: hay un sorteo (sistemático y complejo, pero sorteo al fin) que decide qué familias son encuestadas y cuales no. Por el contrario, el censo esta ajeno a este lanzamiento de dados estadístico: todos los hogares son encuestados. 

Ahora ¿verdaderamente el censo esta exento de aleatoriedades? Marta opinaría enfáticamente que no. Y Borges también. 

En búsqueda de una respuesta a esta cuestión, volvamos por un instante al Jardín de Senderos que se Bifurcan. Según Borges, su creador Ts’ui Pen “creía en infinitas series de tiempos, en una red creciente y vertiginosa de tiempos divergentes, convergentes y paralelos. Esa trama de tiempos que se aproximan, se bifurcan, se cortan o que secularmente se ignoran, abarca todas la posibilidades.”. 

Entonces, desde la perspectiva del mundo que plantea el Jardín, un censo es un reflejo (fiel) de las circunstancias exactas que enfrentaron al censista con el censado, y nada mas (y nada menos) que eso. Circunstancias que hicieron que Marta justo ese día esté desempleada y que Analía no, independientemente del resto de las circunstancias que quizás reflejen mejor sus derroteros. Entonces, visto desde El Jardín de Senderos que se Bifurcan, el censo es otra mera muestra, de la población de circunstancias infinitas, pero muestra al fin. 

Intentemos aclarar una cosa, y como siempre a esta altura, usando la llave maestra de las discusiones de datos y estadísticas, que son discusiones sobre sus objetivos. Un censo es una herramienta crucial para proporcionar una fotografía precisa del status social, demográfico, económico y cultural de una nación en un momento en particular. Desde esta perspectiva, el conjunto de datos proporcionados por el censo son “la población”, finita por naturaleza, tanto como la cantidad de habitantes. 

Pero desde muchas perspectivas un censo brinda necesariamente información incompleta, en mas precisa que la de cualquiera de sus su muestras (como la EPH) pero incompleta si lo que interesa es la población infinita de circunstancias. 

Es importantísimo aclarar que esta cuestión no es un mero juguete intelectual sobre el infinito y a literatura (lo cual,  en sí mismo,  no seria nada malo), ya que, contra lo que instintivamente uno creería, el grueso de la actividad estadística percibe a los censos como meras muestras y no como poblaciones. 

Lo que se espera del análisis estadísticos moderno va mucho más allá de una simple descripción burocrática de los datos (el promedio, el máximo, el mínimo y todo lo que las maestras le enseñan a los niños de la primaria), sino que los datos digan algo del proceso que los genera. Esta actividad inferencial es el auténtico motor de la estadística y la ciencia. 
A modo de ejemplo de este uso inferencial, inteligente y no meramente administrativo del análisis de datos, pensemos un ejemplo simple.  Supongamos que el director de un programa de maestría le reclama a un empleado que cuente la cantidad de alumnos del programa. Sin disponer de un registro, este empleado entra en el salón de clase y pregunta a los alumnos si saben si faltó alguien, le dicen que 2 personas. Así es que procede a contar, y agregando a los 2 que faltaron, la cuenta da 30. Misión cumplida.

¿Cuál es “la población”? Depende de la pregunta de interés. Si el objetivo del director es tener un reflejo exacto de las personas que al momento de la pregunta están en la maestría, la población son los 30 alumnos, claramente. Ahora, posiblemente el interés del director sea mas genérico, y lo que tenga en mente es ir con ese número a negociar con el decano para que le asigne un aula adecuada en el nuevo edificio de la facultad. Desde esta perspectiva lo que el director tiene en mente es una idea mucho mas compleja que “los 30 que están”,  si no que abarca a los que podrían haber estado o no, a los que vendrían o no, etc. 

En el marco de esta negociación, el decano preguntaría “¿Cuántos alumnos hay en la maestría?” y el director respondería “Y, este año hay 30”. A lo que el decano repreguntaría “No, digo “en general”. En este contexto, 30 es una mera estimación del número de asistentes a la maestría. Quizás el año que viene haya 28 o 32 o alguna cifra similar. Lo que el director esta haciendo con los datos es usar la estimación (30) para inferir un genérico como “el numero de gente que esperamos que venga a la maestría”. Desde esta perspectiva, los 30 alumnos son una mera muestra de todas las circunstancias que hicieron que ellos hagan la maestría y que otros no. 

Borgeanamente, a estos 30 alumnos los observamos en las ramas del Jardín de Senderos que se Bifurcan en las cuales hicieron la maestría, y consecuentemente no vemos a aquellos cuyas circunstancias los pusieron en las ramas en las que no, porque fueron padres y prefirieron postergar la cursada un año, porque no estaban seguros, porque están ahorrando, etc. etc..

Usando un lenguaje más preciso, cuando el objetivo del censo son los datos que contiene, los datos constituyen la población. Pero cuando lo que interesa es aquello que está detrás de los datos, el censo es nada mas que una “megamuestra” del sinfín de posibilidades que generan los datos. 

​En una de las frases mas dramáticas de El Jardín de Senderos que se Bifurcan (y que no deja de estremecerme cada vez que la leo), Borges dice “el tiempo se bifurca perpetuamente hacia innumerables futuros. En uno de ellos soy su enemigo”. Marta está contenta porque sabe que para ella el tiempo ya se ha bifurcado en un futuro en el cual tiene trabajo. A Raúl no parece importarle. 


0 Comments

Esto no es una pipa (sobre el Teorema Central del Límite)

3/27/2017

0 Comments

 
Picture
(extraido de El Lado Oscuro de la Econometria)

Siempre me resultaron un tanto inconducentes, y quizás sospechosas, las cosas que se definen por la negativa, como los cursos de economía para “no economistas”, o los “no docentes”. Por eso es que me resulta un tanto incómodo hablar del Teorema Central de Límite (TCL) en base a qué no es el TCL. Pero tengo la fuerte impresión de que una enorme mayoría de alumnos y también profesionales avanzados tienden a entender incorrectamente dicho teorema y quizás en el peor de los sentidos: no es que no lo entienden sino que entienden correctamente algo que no es el TCL. Y eso es grave, porque no hay yerro más grave que dar la respuesta correcta a la pregunta equivocada. He aquí entonces una larga diatriba sobre esta confusión en relación a este importantísimo resultado de la matemática. 

Comienzo declarando que en ningún lugar de esta nota diré formalmente qué es el TCL, ese es justamente el “yeite”. Le propongo al lector buscar en un buen libro de estadística o probabilidad, o en Wikipedia. En segundo lugar, no hay tal cosa como “el TCL” sino que TCL se refiere a una suerte de familia de resultados. Para simplificar, nos referiremos al más simple de los casos, correspondientes a una muestra independiente e idénticamente distribuida, con media y varianza bien definidas.

En primer lugar el TCL no hace referencia a la media muestral per se sino a su versión estandarizada, es decir, habiéndole restado su “centro” (la media poblacional) y dividido por su desvió estándar, que como todos sabemos es el desvió estándar del error dividido el tamaño de la muestra. Mucha gente piensa que el TCL dice que asintóticamente la media muestral es normal pero el resultado que “gobierna” la distribución de la media muestral en el límite (cuando el tamaño de la muestra tiende a infinito) no es el TCL sino su hermano, la ley de grandes números (LGN). La LGN dice que la media muestral converge en probabilidad a la media poblacional. Es decir, la LGN provee la distribución límite de la media muestral: es degenerada en un punto (la media poblacional). Los que hayan tomado clase conmigo me han escuchado decir que quizás el principal objetivo de mi curso de posgrado es que distingan el TCL de la LGN. En resumen, dada la LGN, el TCL no puede agregar información a lo que ya sabíamos: en el límite, la distribución de la media muestral es degenerada en un punto. Chocolate por la noticia.

Y entonces, ¿para qué sirve el TCL? Bueno, ahora empiezan las sutilezas y los problemas. Mucha gente cree que el TCL dice que la media muestral es normal para un tamaño de muestra lo suficientemente grande, de hecho Wikipedia pregona, textualmente, que “El teorema del límite central garantiza una distribución normal cuando n es suficientemente grande”. El TCL dice que la sucesión de media muestrales estandarizadas (que se forma agregando observaciones de a una), es una sucesión de variables aleatorias que converge en distribución a una variable normal estándar. Eso (su versión formal) es el TCL. Cualquier otra cosa no, como cuando una vez, al preguntar en mi clase que era el TCL, alguien me dijo “es un resultado que dice que todo es normal”. 

Bien. El TCL como dije, no hace referencia a la media muestral sino a su versión estandarizada. El argumento informal que justifica lo que dice Wikipedia es más o menos el siguiente. Cuando n terminó de tender a infinito, la media muestral estandarizada es exactamente normal. Entonces, un poquito antes de terminar de tender a infinito, la media muestral estandarizada es aproximadamente normal. Fíjense muy bien las palabras que uso; primero digo “exactamente” y luego “aproximadamente”. Ahora, la media muestral es una simple transformación lineal de su versión estandarizada. Si agregamos que toda transformación lineal de una variable normal es también normal, y lo juntamos con lo anterior, nos queda lo siguiente: un poquito antes de terminar de tender infinito la media muestral (¡no estandarizada!) es aproximadamente normal. ¿Dónde está la trampa? ¡En que el TCL vale para infinito y no dice nada exacto acerca de qué pasa antes de infinito! El TCL provee una aproximación al comportamiento de la media muestral para muestras “suficientemente grandes”. 

¿Y que es suficientemente grande? Y esta es LA pregunta. Estrictamente, suficientemente grande es infinito. Ahora, si aceptásemos alguna inexactitud, si bien es imposible conocer la verdadera distribución de la media muestral para un tamaño de muestra finito, el TCL dice que las discrepancias entre ésta y la normal no deberían ser muy grandes para un tamaño de muestra “grande”. ¿Y qué cosa es grande? Bienvenidos a la ciencia. Es una pregunta empírica.  

Un ejemplo clásico y que da lugar a vergonzantes confusiones es el siguiente. La tabla de la distribución “t” de Student, la que viene en las últimas páginas de los libros de estadística, se detiene misteriosamente en n=30. Siempre pregunto en mi clase ¿Por qué en 30? (y no en 31 o 29). En nuestro contexto, no existe ningún tamaño de muestra finito para el cual podamos garantizar que la media muestral sea normal. Ahora, para n=30, las discrepancias entre la verdadera distribución (que no la sabemos) y la normal son “descartables”. ¿Y por qué para 30 y no 29 o 31? Es una maldita convención, como la que dice que las edades se comunican en años (y no en días), o la temperatura en grados (y no miligrados). Por eso es que la tabla se detiene en 30: porque sí. La idea es que convenimos socialmente que más allá de 30 las discrepancias entre los percentiles de la distribución t y los de la normal, si bien matemáticamente existen no son socialmente relevantes, como que yo les diga que tengo 48 años y ustedes sepan que en realidad tengo “algún número comprendido entre 48 y 49”. Algún desprevenido usa este argumento para decir que “más de treinta es una muestra grande”, uno de los disparates más grandes que haya escuchado en mi vida, una clara muestra de inmadurez conceptual, en base a esta ya larguísima discusión.

Entonces, el TCL provee a) un resultado exacto para la media muestral estandarizada, cuando el tamaño de la muestra tendió a infinito, b) una aproximación (¿útil?) para la media muestral, quizás antes de que la muestra haya tendido a infinito. Como diría George Box, a fines prácticos, el TCL es un modelo errado (jamás la muestra es infinita) que solo intenta ser útil. Y la pucha que lo es. 

Opino que en matemática pasa algo similar a lo que sucede con las relaciones personales. Uno se gana el derecho de usar apodos una vez que conoce muy bien a las personas. Si me encontrase con el célebre compositor Gustavo Leguizamón (a mi juicio uno de los más relevantes del folclore argentino), le diría “Gustavo” o “Sr. Leguizamón”, y quizás luego de un tiempo de entrar en confianza le diga “Cuchi”, su reconocido apodo. Con la matemática pasa, a mi entender, exactamente lo mismo: uno puede hablar informalmente de los teoremas solo cuando pasó mucho tiempo entendiendo exactamente qué es lo que dicen. Un grueso error de principiantes es hacer resúmenes de la matemática, como si fuese filosofía o historia. El punto es que por definición la matemática ya está resumida. Mi consejo es, con la matemática, hacer exactamente lo contrario. Dejar el resultado intacto e intentar ampliar, agregar ejemplos, preguntas, ejercicios, detalles. Si el TCL ocupa, digamos, una página de tu libro, tus notas tienen que medir tres o cuatro páginas, agregando (y jamás quitando) ejemplos, ideas, extensiones y tus inquietudes. 

​Como dicen que decía Frank Zappa, a veces pienso que hablar de matemática es como bailar sobre arquitectura. Siendo pesimista, opino que las confusiones sobre el TCL tienen que ver con interpretaciones de cosas que no son el TCL. Y siendo optimista digo que el TCL, uno de los más importantes resultados de la matemática, es un concepto tan útil como complejo de abordar. Y quizás amerite larguísimas discusiones, siempre y cuando no terminemos diciendo “Ok, pero esto no es el TCL”, como genialmente decía Magritte de su famosa pipa (busquen en Wikipedia, ¡un poco de cultura!). 

Referencias

Billingsley, P., 1995, Probability and Measure, 3ra ed, Wiley, Nueva York.

McCabe, B. y Tremayne, A., 1993, Elements of Modern Asymptotic Theory with Statistical Applications, Manchester University Press, Manchester.

White, H., 2001, Asymptotic Theory for Econometricians, ed. Revisada, Academic Press, San Diego.


0 Comments

Para tu piel de verano (lecturas estivales sobre estadistica y econometria)

12/28/2016

0 Comments

 
Y se vino el verano. El sol, la playa, la montaña, el bronceador, el hit del verano ... Y el libro de estadistica. Gran momento para encarar lecturas serias, que requieren mucha concentracion. 

Van aqui unas pocas recomendaciones bibliograficas sobre estadistica y econometria. Criterios: 1) Nuevo (todo 2016), 2) Duro y/o profundo (ninguno es sobre cómo darle la mano a un japones ni boludeces por el estilo).

Asi que, lapiz, resma de papel, paciencia ¡y a disfrutar del verano!

Libros técnicos

- Hansen, B. (2016) Econometrics: es un texto avanzado, para primer año de doctorado. Un buen enfoque "populatoin first", en el espiritu del libro de Arthur Goldberger (todavia no esta en venta, disponible online y gratis). Un clásico del futuro.  

http://www.ssc.wisc.edu/~bhansen/econometrics/


- Elliott, G. (2016) Economic Forecating: un gran libro sobre métodos modernos de series temporales. Elliot mezcla enfoques tradicionales (ARIMA) con visiones modernas de machine learning 

https://www.amazon.com/Economic-Forecasting-Graham-Elliott/dp/0691140138/ref=sr_1_fkmr1_1?ie=UTF8&qid=1482938042&sr=8-1-fkmr1&keywords=forecasting+graham+elliot

- Efron y Hastie (2016):  Computer age statistical inference. Un libro brillante, lo que deberia ser la estadistica básica a la luz de lo s avances en los ultimos 20 años. Estadisitica como si los últimos 20 años realmente existieron

https://www.amazon.com/Computer-Age-Statistical-Inference-Mathematical/dp/1107149894/ref=sr_1_1?ie=UTF8&qid=1482938117&sr=8-1&keywords=statistical+inference+computer+age




Divulgacion

- Stigler, S. (2016), The Seven Pillars of Statistical Wisdom. Siete ideas estadísticas  historicas que cambiaron la ciencia. 

https://www.amazon.com/Seven-Pillars-Statistical-Wisdom/dp/0674088913/ref=sr_1_1?ie=UTF8&qid=1482938289&sr=8-1&keywords=seven+pillars+of+statistical+wisdom


- Pearl et al (2016): Causal Inference in Statistics: A Primer. Pearl no para de soprenderme (con sus textos técnicos) ni de depcionarme (con sus libros para "todo publico"). Pero siempre le doy una nueva oportunidad. 


https://www.amazon.es/Causal-Inference-Statistics-Judea-Pearl/dp/1119186846/ref=sr_1_1?ie=UTF8&qid=1482954310&sr=8-1&keywords=judea+pearl



- Sosa Escudero (2014), Que es (y que no es) la Estadistica. Porque si yo mismo no vendo mis libros, no los vende nadie (y de comprarlos, ni hablemos!)

http://www.queeslaestadistica.com/

Que tengan unas buenas y merecidas vacaciones

Walter



0 Comments

Basta de matrices

11/22/2016

1 Comment

 
Picture


Levanten la mano los que están a favor del uso de matrices en un curso básico. Ahora levanten la mano los que están a favor del uso de matrices en un curso avanzado. Ahora levantenlá los que están a favor de que las matrices desaparezcan por completo. Y ahí parece que me quedo solo como un idiota con mi mano alzada.

La pregunta que nos convoca se refiere a cuánta álgebra matricial usar en un  curso básico de econometría. Antes de argumentar, vayamos a las pruebas por autoridad o enumeración, que son las que menos me satisfacen. En los libros muy básicos (Gujarati, Ashenfelter, etc.) no hay matrices, o están relegadas a un capitulo o un apéndice. En el reciente texto de Angrist y Pischke, que parece querer revolucionar el tratamiento de la econometria básica, no hay ninguna matriz. En los libros más avanzados (Johnston, por ejemplo) hay matrices a troche y moche. Tambien las hay en Greene, y en Davidson y MacKinnon, si vamos al caso. Ahora, en el libro de posgrado de Wooldridge casi no hay matrices (en todo caso, si aparecen, es como productos externos de vectores) y en el capitulo de Newey y McFadden (del Handbook of Economerics IV, un excelente tratamiento de la teoría asintotica estándar, de nivel matemático muy por arriba de todos los textos antes mencionadas) no hay casi ningúna matriz. Estas aprecieciones sugieren que parece haber una suerte de “curva de Kuznets” del uso de las matrices: cuando uno empieza no hay matrices, después aparecen por todos lados, y luego desaparecen paulatinamente, como Simon Kuznets decía que ocurria con la desigualdad a medida que una economía se desarrollaba.

Ahora si en vez de movernos en el “grado de desarrollo” de la econometría (Gujarati, Johnston, Newey y McFadden) nos movemos en el tiempo, las matrices desaparecen aun más rápido: restringiendonos a textos intermedios (para alumnos de licenciatura avanzados, o de posgrado), hay muchas menos matrices en el nuevo texto de Hansen o en las notas de Joris Pinkse que en Johnston y Di Nardo. Ni hablar del revolucionario libro del texto Angrist y Pischke (Mostly Harmless Econometrics) que creo que no tiene ninguna matriz (nuevamente, ¡los productos externos no cuentan!)

Mi primer encuentro con la econometría fue allá lejos en los ochenta, en épocas sin computadoras personales. Más allá de los esfuerzos de mis profesores (a quienes evoco con mucho respeto), el recuerdo que tengo de la econometría de otrora es el de una maraña infame de algebra matricial.

La impresión que le queda a varios es que el derrotero de la madurez econométrica pasa por las matrices, es lo que separa a las niñas de las damas; los machos sabemos matrices, los niñitos no. De hecho cuando esta visión fue compartida en el grupo Econometria Avanzada, recibí durísimas críticas de parte de los foristas, la mayoría en la dirección de la frase “si te gusta el durazno, aguantate la pelusa”, o que “es imposible nadar sin mojares”, sugieriendo que las matrices son una suerte de requisito inciatico ineludible para acceder a las ligas superiores de la econometría.

El punto que intento hacer es preguntar si realmente se justifica el apabullante uso de matrices en un curso básico. Existe un resultado viejo, pero revitalizado por Davidson y MacKinnon, rebautizado como Teorema de Frisch-Waugh-Lovell (TFWL), que casi, casi, tira a las matrices por la borda.

ste teorema dice dos cosas. Supongamos que la variable explicada es Y y que las explicativas son X y Z.  Supongamos que nos interesa el coeficiente de regresar Y en X y Z, y consideremos dos métodos alternativos. El primero consiste en el que todos conocemos: regresar Y en X y Z, y retener el coeficiente correspondiente a X. El segundo es en dos etapas. Primero regresamos X en Z. Luego regresamos Y en los residuos de la regresion anterior como única variable explicativa. Claramente, el metodo funciona si Z en vez de ser una variable explicativa es cualquier vector de variables explicativa. Para lo que viene, es fundamental observar que la segunda regresion del metodo solo involucra a una sola variable explicativa (es una simple regresion bivariada). El TFWL pregona dos cosas. Primero que los resultados obtenidos por ambos métodos son exactamente iguales. No es un resultado asintótico ni una aproximacion, es posible mostrar que ambas estrategias dan idénticos resultados. El segundo resultado es que los residuos del metodo tradicional y los de la segunda étapa del método nuevo son idénticos.
​
Una de las muchas consecuencias de este teorema es que casi cualquier resultado del modelo lineal con K variables estimado por el método de minimos cuadrados (o cualquier otro que proyecte, como minimos cuadrados generalizados o variables instrumentales) es reducible al caso de dos variables, ya que a la larga, y como les anticipe, la segunda étapa del método alternativo es siempre una regresion bivariada. O sea que, y por sorprendente que les parezca, ¡el modelo con K variables es un caso particular del modelo con dos variables!. Si. Los reyes magos son tus padres, la lucha profesional es falsa y el “reduce fat fast” (ese que publicita Erik Estrada para bajar de peso, y que uno se pregunta por qué justamente a él no le funciona) no sirve para nada. El dÍa que me enteré de esto (hace unos 20 años) casi me largo a llorar. ¡Tanto tiempo invertido en esas malditas matrices para que un teoremita me diga que en realidad casi todo puede escribirse sin ellas! Bueno, bueno, uno podría argumentar que para probar este teorema es necesario meter matrices, pero tampoco es estrictamente cierto (y si no me creen, vean el libro de Angrist y Pischke).

Y aquí juego dos cartas fuertes. En primer lugar, estoy casi convencido de que es posible dictar perfectamente un curso básico sin matrices y sin perder rigor. Por el contrario, liberados los alumnos del oprobio del algebra matricial sin sentido, podrían focalizar en interpretar los métodos y resultados o concentrarse en la formalidad correcta. Segundo, y contra lo que muchísima gente cree, uno debería pasar mucho más tiempo con el modelo simple con dos variables, que, teorema de Frisch-Waugh-Lovell mediante, contiene en sus fauces al modelo con K variables.

No es este un argumento en contra de las formalizaciones, sino todo lo contrario. Quizas en un curso más avanzado convenga invertir en demostrar el teorema de Frisch-Waugh-Lovell para muestras finitas, y hasta para la población, lo que justifica una sana inversión en espacios de Hilbert.

Mi invitación honesta es a no formalizar al divino botón. Las cosas relevantes tienden a ser complejas, pero no necesariamente al reves. Y a veces pienso que los docentes complicamos las cosas para hacerles creer a los alumnos que son relevantes. Y en esta espuria reversión de la causalidad perdimos todos.
 
PD: por contadictorio que parezca, opino que el economista medio sabe poco y mal álgebra. Un libro que me cambio mi visión de estas cuestiones es el de Axler (Linear Algebra Done Right), cuyo titulo patotero sugiere que va a hacer las cosas “de otra manera” (sin determinantes, con autovalores). No es lectura fácil, pero es realmente distinto al resto. 

1 Comment

El Perro de Raul Portal (sobre predicciones y predictores)

11/10/2016

 
Picture









​



Extracto de Que es (y que no es) la Estadistica

 

El conductor televisivo Raúl Portal decía que tenía un perro muy obediente (Bobby), al punto tal que le decía “Bobby, ¿venís o no venís?”, tras lo cual Bobby venía o no venía.  Este ejemplo, simple como la mayoría de los de este libro, muestra que una forma bastante trivial de acertarle al futuro es ser ampliamente general (el dólar sube, baja o se queda quieto, algún número entre el cero o el 36 sale en la ruleta, etc., etc.). Naturalmente, cualquier predicción relevante hace referencia a un evento mucho más específico, de compleja deducción en base al conocimiento disponible en el presente. Desde un punto de vista lógico, predecir no es un ejercicio muy diferente a estimar, y consecuentemente, en varias ocasiones amerita un análisis similar.
 
A fines de desentrañar esta cuestión de qué es una buena predicción y de quién es un buen predictor, comencemos con un ejemplo. Supongamos que una persona está interesada en jugar una sola ficha a un solo número en una ruleta estándar (la que tiene números de 0 a 36, no esas raras con doble cero como en Las Vegas). A tal efecto, consulta a dos analistas/predictores. El primero, de sólida formación matemática e ingenieril, luego de observar con detalle el funcionamiento de la ruleta dice:
 
-     Jugále a cualquier número, no veo ninguna razón por la que favorecer a un número por sobre otro. La suerte es loca.
 
Tras lo cual proporciona una larga descripción del movimiento de la ruleta, de la forma en la que el croupier lanza la bolita y sobre la imposibilidad de predecir el número que va a salir.
 
El segundo predictor, sin decir agua va, suelta:
           
- Colorado el 32.
 
Lo interesante del evento predictivo es que la evaluación de “quién es el mejor predictor” hay que hacerla ahora, antes de poner la ficha. Luego de que cantaron el número, ya es pescado viejo, no sirve. ¿Y entonces? ¿Qué hacemos?
 
Podríamos buscar el currículum de ambos. El primero podría ser un experimentado ingeniero, con amplios conocimientos de mecánica, una persona honesta y honrada, de dilatada trayectoria. También podría ser un embustero, amigo de los tecnicismos y las palabras ampulosas. El segundo podría ser un viejo tahúr, de años de paño y whisky, el mago que no revela los trucos. También podría ser un fullero, que disfraza su viveza de mística y solo está detrás de la presa fácil. Podríamos consultar a amigos que hayan usado el servicio de estos analistas. Podríamos consultar sus historias predictivas, y ver cuánto erraron y acertaron en el pasado. Podríamos pedirles a estos predictores que nos aclaren de dónde sale la predicción, y el ingeniero podría explayarse sobre mecánica clásica y sobre la fisiología de los dedos y la estructura de las bolitas. Lo hará en forma clara, y tendremos que confiar en su habilidad explicativa, o quizás seamos víctimas de su facilidad de palabra. Quizás entendamos una parte de su explicación. El segundo predictor posiblemente juegue la carta de la oscuridad, y ponga cara de “si yo digo carnaval, vos ponete la careta y apretá el pomo”.
 
Entre medio de tanto dilema, el croupier, ajeno a estas disquisiciones, ya dijo “no va másssss” y luego grita “¡Colorado el 32!”.
 
¿Quién es el mejor predictor?
 
El grueso de mis alumnos pisa el palito y dice “el segundo, el que le pegó”. Y he aquí la trampa. No lo sabíamos antes de que salga el número, y tampoco lo sabemos ahora. Más que nada porque ninguno se ha equivocado.
 
¿Cómo? Aun cuando no se note, el ingeniero fue bastante más allá de la predicción del perro Bobby de Raúl Portal. No dijo “sale cualquier número” sino “cualquier número sale con la misma chance”, es decir, agregó muchísima más información que una mera descripción de los resultados posibles. En base a su conocimiento de cómo funcionan las ruletas, las bolitas y los dedos, dice, en forma honesta, que no tiene más chance de salir un número que otro. Que haya salido el 32 de ninguna manera refuta su predicción. Es más si lo patoteásemos diciéndole:
 
- Oiga, ¿cómo era esto de que no era más factible que salga ningún número que otro? Entonces, ¿por qué aparece el 32?
 
Diría:
 
- Quedáte cerca de la ruleta, registra mentalmente todos los números que salen (y hacélo hoy, mañana y cuando quieras, pero no saques un papel que vas preso porque está prohibido) y vas a ver que tengo razón.
 
Lo que el ingeniero dice es que si viésemos las historias de números que salen en la ruleta, efectivamente, la proporción de veces que sale cada uno de los números, del 0 al 36, es más o menos la misma para todos. El lector incrédulo debería realizar el experimento por sí mismo. He aquí este libro proporcionando una excusa científica para que a uno lo dejen ir al casino sin culpa.
 
Estudiemos ahora al segundo predictor. Pueden haber pasado varias cosas. La primera es que este tipo tuvo muchísima suerte. Soltó un número y de chiripa salió. ¿Por qué soltó el 32? ¡Vaya uno a saber! Eligió un número cualquiera y lo dijo. Pruebe uno soltar números al voleo, del 1 al 6, y luego tirar un dado, y verá que cada tanto le pega  Es más, quizás ese sea su truco: el tipo se para al lado de un desprevenido, dice un número cualquiera, y de tanto hacerlo alguna vez le va a pegar, y a algún otario le hará creer que es un adivino. Más adelante contaremos una estrategia engañosa en las finanzas, aparentemente más elegante, pero igual de fraudulenta.
 
También hay otra historia posible. Nuestro oscuro personaje quizás sea un experto jugador, conocedor de los detalles del paño, de los mínimos movimientos del croupier. Si este extraño personaje no suelta información antes de que salga el número, es imposible discernir si se trata de chapucero o de un experto. El farsante se revela si en sucesivos tiros sale cualquier cosa, sin relación a lo que predice. Y el experto emerge si, por el contrario, sus predicciones tienden a coincidir con los resultados.
 
En síntesis, los eventos dignos de ser predichos son los eventos complejos, que admiten varios resultados. La disquisición anterior sugiere que es crucial distinguir entre predictores y predicciones, y que hay dos caminos para chequear la confiabilidad de un predictor y, consecuentemente, de sus predicciones. Una consiste en revisar su historia predictiva, su historial de éxitos y fracasos. La otra consiste en explorar su autoridad predictiva, es decir, su capacidad para dar sustento a sus predicciones o cualquier tipo de información que nos permita confiar en él o ella.

Veinte años no es nada (Heckman para todos)

9/16/2016

0 Comments

 
Picture
(Extraido de Que es (y que no es) la Estadística)

Adrianita siempre tuvo alguna tendencia a engordar, y ya pasados los 35 tiró la toalla. Hizo lo que pudo, que no es poco, máxime teniendo en cuenta su meteórica carrera en marketing, y haber criado dos hijos, y sostenido un feliz matrimonio de ya más de 15 años. ¿Una persona exitosa? Seguro, y desde muchos puntos de vista. Pero cuando la llamaron para la reunión de egresados de la secundaria (¡Veinte años no es nada!), algunos viejos fantasmas reaparecieron. De ahí que reservó un día en un spa a fines de aparecer radiante en el mitin. Su sobresaliente performance en la secundaria permitía predecir con precisión su exitoso presente profesional, por eso es que quería que su imagen estuviese acorde a su semejanza. Maxime cuando los organizadores habían reservado el coqueto club house de no sé qué country para hospedar el evento.

Gustavo no tuvo mejor fortuna. La vida, las crisis y los fracasos matrimoniales se le vinieron encima. Y ya estaba harto de que le refrieguen en la cara las consecuencias inevitables de un mal paso por las aulas. De modo que la invitación a este encuentro, del cual se enteró de refilón, como de todo en su vida, no le provocó el menor entusiasmo. Sí le tentaba la idea de verlos a Luis, a Martita, a Marcos, y al resto de la vagancia, pero no quería volver a rendir un examen que sabía que reprobaría. 

Pero como el tren de la vida pasa solo una vez, Gustavo decidió armar una reunión paralela, en donde otrora estaba la vieja pizzería Carlos V, ya con “otro management” como dirían los exitosos del otro grupo. Sí señor, una suerte de contra-reunión, de modo de que el hombre separe lo que Dios no fue capaz de unir ni después de 20 años. Qué tanto. 
Y así es que con sus caras de velocidad, sus mejores galas y sus tarjetas personales recién impresas, los buenos fueron al rencuentro de los otros buenos, en el country. Y el resto a la Carlos V, a disfrutar de una grande de jamón y morrones, y de la folklórica mala onda de los mozos del lugar.   

El clásico “¡estás igual!” se oyó en ambos lados, entre los canapés de rúcula y parmesano, y también entre los cachos de fainá y las aceitunas. Adriana se sorprendió de que sus ex compañeros eran ahora, como ella, exitosos empresarios, hombres y mujeres de bien, bendecidos con un buen pasar y el reconocimiento de sus pares. E intentó razonar que de mucho no parece haberle servido ser el mejor promedio de la clase. Huguito, que siempre estaba dos o tres escalones por debajo, era ahora un emprendedor exitoso, igual que la envidiosa de Claudia, siempre segunda en todo, que se casó con un polista y ahora es dueña de una famosa casa de decoración. ¿Viste Huguito, que el promedio no era tan  importante?

Gustavo tuvo la mismísima impresión. De nada parece haberle valido a Marta tanta batalla que dio por su promedio en la secundaria, y luego haber terminado, a los ponchazos, la carrera de derecho. Luisito tampoco tuvo mejor suerte, aun cuando claramente era mejor que Gustavo y Marta, y terminó trabajando en el taller del padre. ¿Viste Martita que a la larga el promedio no era tan importante?

Esta historia ilustra, artificiosamente, claro, un error clásico de la estadística barrial: sacar conclusiones con muestras sesgadas o incompletas. En este caso, y como el lector habrá ya adivinado, el problema consiste en querer argumentar que “el promedio no importa” utilizando una muestra claramente incompleta. Adriana calculó mentalmente si el promedio de la secundaria podía explicar las diferencias observadas en las performances. Y concluyó que no. Misma cosa hizo Gustavo. Pero ninguno lo hizo con una muestra “justa”. 

La población de interés (todos los compañeros de ese curso) no fue partida al azar en dos grupos. Por el contrario, los “buenos” fueron para un lado y los “malos” al otro. Entonces, tanto Gustavo como Adriana enfrentaron una muestra injusta, sesgada, y concluyeron que el promedio no importa. Sí, no importa dentro del grupo de referencia en el cual sacaron la cuenta. Pero importa, y muchísimo, entre los grupos. 

Este es un clásico razonamiento erróneo: extrapolar la ausencia de relación entre dos variables dentro de un grupo a toda la población, cuando la conformación de los grupos no es al azar.

Increíblemente, este razonamiento tonto y artificioso es el que usan casi todos los que intentan defender que el promedio no importa. La validación de esta aseveración usualmente se basa en comparaciones con personas u objetos cercanos, lo cual, como en nuestro ejemplo, diluye por completo la relación entre cualquier par de variables. Gustavo no ve que los promedios de los muchachos de la pizzería se hayan reflejado en discrepancias en el devenir de sus vidas: más o menos a todos les fue mal. Y Adriana razona de la misma manera: las diferencias en el promedio no logran dar cuentas de las diferencias en las buenas vidas que a todos los del country les ha tocado. Porque justamente el derrotero de sus vidas los ha separado, y a unos los mandó al country y a otros a la Carlos V.

Este tipo de artilugio es usado, conscientemente o no, en forma frecuente para engañar incautos: observar que dentro de un grupo particularmente elegido no hay relación, y extrapolar que no hay relación en general. Técnicamente, a este fenómeno se lo conoce como sesgo por selectividad, es decir, una relación aparece “diluida” por el hecho de focalizar en una muestra artificiosamente elegida. Obviamente, si todos los alumnos hubiesen accedido a la reunión, los viejos fantasmas del promedio podrían dar cuenta de las diferencias en sus vidas. 

Otro ejemplo de este tipo de truco es el siguiente. A las 10 personas que terminaron exitosamente un curso de fotografía, el mismo les parece muy bueno, y así lo reflejan en las encuestas que hicieron los organizadores al finalizar el mismo, que se llenan la boca hablando de los méritos del docente. Ahora, ¿qué hacemos con las 30 personas que huyeron despavoridas durante los primeros cuatro meses y que, consecuentemente, jamás llenaron la encuesta? Sí, adivinó. Los 30 que se fueron muy posiblemente opinen que el curso es una porquería y por eso huyeron. Nuevamente, la muestra de alumnos que resiste hasta al final, no es una muestra aleatoria de los alumnos que empezaron el curso, claramente. 

Bueno, los dejo porque me tengo que ir a ver a mis queridos compañeros de la secundaria. Ni por todo el oro del mundo me pierdo la fugazzeta de La Farola.

0 Comments

El R cuadrado y el Flaco Vivaldo

9/10/2016

0 Comments

 
Picture
.(version revisada y actualizada de algo que escribi en El Lado Oscuro de la Econometria, Ed. TEMAS, 2015). 


Supongamos que viene nuestro hijo de 16 años y nos dice “me saqué un 10 en un examen” (cuyas calificaciones van de 0 a 10). ¿Es una buena noticia? Bueno, si es en uno de mecánica cuántica, del doctorado en física, seguro. ¿Y si el tipo volvió a sentarse con los niñitos de la primaria y tomó el examen de matemática de primer grado? Mmmm. Esta ambivalencia de reacciones debería provocarle a uno la noticia de que el modelo que acaba de estimar tiene un R2 alto.
​
El R2 es una medida de calidad en relación a la pregunta que uno se hizo inicialmente, es decir, el R2 no juzga la respuesta ni la pregunta sino la adecuación de la respuesta a la pregunta. Por ejemplo, si en un modelo la variable explicada es el activo de una empresa, y las variables explicativas son el pasivo y el patrimonio neto, a menos que cometamos algún error al ingresar los datos, el R2 será exactamente igual a uno. Es decir, el modelo proporciona una respuesta perfecta a una pregunta demasiado estúpida: siempre el activo es igual al pasivo más el patrimonio neto, por lo menos desde la época de fray Luca Pacioli. En el otro extremo está cualquier modelo de economía laboral, que aun con miles de datos no puede proporcionar un R2 mayor a 0.3. ¿Cuál de los dos modelos es mejor? Comparar modelos nada más que en base al R2 es como comparar coches en base a su tamaño. Sin otra mención en particular, creer que un modelo es mejor que otro porque tiene R2 más alto es como creer que un desvencijado ómnibus es mejor que un Porsche sólo porque es más grande.

La enorme popularidad del R2 tiene que ver con hacerle creer a los principiantes que se trata de “la” medida de calidad. La estadística clásica tiene enormes dificultades en definir con precisión qué significa que un modelo sea bueno, y de hecho recurre a un conjunto de propiedades deseables, dejándole al usuario que defina (explícita o implícitamente) sus mapa de preferencias sobre ellas, por ejemplo, si es preferible más sesgo que varianza o que un estimador sea robusto o no.

Cualquier modelo es obviamente erróneo como representación de la realidad, y la discusión de si es bueno o malo es un tanto inconducente. Los modelos no son buenos o malos sino útiles o inútiles, en el sentido de lo que decía George Box, eso de que “todos los modelos están mal, pero algunos son útiles”. 

En el caso de las ecuaciones de Mincer (que regresan ingresos de personas en sus determiantes), ¿es el R2 igual a 0.3 bajo? Depende. Depende de para qué se quiera usar al modelo. Si es a fines de  estimar el efecto de la edad sobre los salarios, por ejemplo, posiblemente el modelo sea excelente, a juzgar por la ínfima varianza con la que dicho efecto puede ser estimado. Ahora si el objetivo es usar el modelo para predecir salarios, el modelo es bastante malo. No existe forma de decir si 0.3 es bajo o alto a menos que explicitemos qué pretendíamos del modelo. En el caso de los activos, antes mencionados, un R2 de 0.99999 es patéticamente bajo: ya sabíamos cómo funcionaba el modelo sin necesidad de estimar absolutamente nada.

A veces pienso si no es mejor tirar el R2 a la basura en la enseñanza de la econometría básica. Si ya sé que hay mucho para perder. Pero también hay para ganar, para que el alumno focalice en la complejidad de evaluar multidimensionalmente si un modelo es bueno o no, en particular en base a los objetivos que se propuso con la estimación del modelo.

El mejor favor que alguien me ha hecho es enseñarme a afinar mi guitarra a oído. Una vez que me acostumbré a confiar en mi oído interno, mi afinador electrónico Korg y yo convivimos en sana armonía. El R2 es una característica del modelo, que aún cuando sea elevado, puede dejarnos tan lejos de un buen modelo como de tocar afinado a tocar bien la guitarra.
 
​- - - - - - - - -

Coda big datera: escribí esto hace un tiempo, cuando pocos hablaban de big data. El paradigma de big data, machine learning y sus primos hermanos es, fundamentalmente, el de la predicción por sobre la estimación. De modo que cabe preguntarse si en este nuevo contexto no hay espacio para nuestro viejo amigo el R2, que se puso loco de contento del mero hecho de escuchar la palabra “predicción”, como cuando al flaco Vivaldo le hicieron creer que atajaría en Boca. ¿O acaso el R2 no es una medida de capacidad predictiva? Bueno, lamentablemente no hay buenas noticias. El desafio de machine learning y big data es de prediccion fuera de la muestra, es decir, para datos y circunstancias ajenas al mecanismo que se usa para “aprender” el modelo. El R2 es una medida de ajuste dentro de la muestra. Variantes como el R2 ajustado van en la direccion correcta, pero a fines de medir la capacidad predictiva fuera de la muestra han sido reemplazadas por alternativas como cross-validation.

En una fria noche de julio de 2004 el periodista Marcelo Palacios cometió la imprudencia de anunciarle al aire al Flaco Vivaldo que se frustraba su actuación en Boca Juniors. Injusto para con un tipo querible como el Flaco, e innecesario para cualquiera que ataje con la camiseta de “Jesus te ama” debajo del buzo, como el ex-golero de Chacarita. Asi que si lo ven por ahí al R2, no le digan nada, no es necesario. En algún lugar los códigos del fubtol y de la econometría se dan la mano.
​
0 Comments

Los Simpson y la econometría

9/3/2016

0 Comments

 
Picture
(extracto de El Lado Oscuro de la Econometria, Ed. TEMAS, 2015, Buenos Aires)

Dudo que haya un aspecto de la vida humana que no pueda ser ilustrado por un episodio de Los Simpson, la duradera serie de Matt Groening y la econometría, naturalmente, no lo es. En esta nota utilizaremos el nexo más literal: la paradoja de Simpson, un clásico de la estadística. 

Una de las posibles explicaciones de por qué esta paradoja es mucho más conocida en la estadística que en la econometría se debe a que aparece asociada al problema de tablas de contingencia, una tecnología central en la primera disciplina, pero de aparición circunstancial en la segunda. Entonces, el objetivo de esta nota es presentar una visión econométrica de la paradoja de Simpson. Intentaremos entenderla usando la herramienta atávica por excelencia de nuestra disciplina: el análisis de regresión. Ahí vamos.

Hace muy poco Adrián Paenza, el matemático, periodista y divulgador de la ciencia, escribió una muy bonita nota sobre este problema, presentando una visión clásica de la paradoja de Simpson. A continuación les incluyo una tabla que usa Paenza para presentar y explicar este problema. Los datos son hipotéticos, pero representativos de muchas situaciones reales.
 


​
 
La tabla se refiere al proceso de ingreso a una hipotética universidad, a la cual se presentaron 2200 postulantes (1100 hombres y 1100 mujeres) a las únicas dos carreras que dicta esta universidad: Kinesiología y Medicina. Cada celda presenta la proporción de personas que fue admitida, por género, por carrera y en total. Así, la primera celda dice que 1000 hombres se presentaron a la carrera de Kinesiología, y que 900 fueron admitidos. Similarmente, la segunda celda de la tercera columna indica que de las 1100 mujeres que se presentaron a ser admitidas a la univerisdad, 390 lograron entrar, sumando las 90 que entraron en Kinesiología y las 300 que lo hicieron en Medicina. Los invito a mirar con detalle esta tabla.

La información de esta tabla sugiere tres cosas. Primero que no parece haber habido discriminación en contra de las mujeres: el porcentaje de mujeres admitidas en ambas carreras coincide con el de hombres (90 % en el caso de Kinesiología y 30 % en Medicina). Segundo, que es más difícil entrar a Medicina que a Kinesiología (30 % versus 90 %). Tercero, que las mujeres de esta tabla prefieren enfáticamente ir a Medicina (1000, contra solo 100 hombres).

​La paradoja de Simpson se refiere al siguiente hecho. Si bien ya acordamos que ninguna carrera parece discriminar a las mujeres, la tercera columna sugiere que les fue mucho más difícil ingresar a las mujeres que a los hombres. Algún lector descuidado podría usar esto como sugerencia de que las mujeres fueron discriminadas, cuando ya sabemos que no fue así, y he aquí la paradoja.

Vayamos rápidamente a una lectura econométrica de esta situación, e intentemos hacerla con la herramienta por excelencia de la econometría: el modelo lineal estimado por el método de MCO. En este caso la variable explicada (que denotaremos Y) es una variable binaria, que toma valor 1 si una persona fue admitida (no importa a que carrera) y 0 si no. Las variables explicativas son dos. Una (llamada X) es una variable binaria que indica el género de la persona (1 si es mujer, 0 si es hombre) y la otra es la carrera que eligieron (1 si es Medicina y 0 si es Kinesiología). Si regresásemos Y (admisión) en X (género), encontraríamos que el género correlaciona negativamente con la admisión, es decir, el hecho de ser mujer predice más enfáticamente no ser admitido. Este es el resultado que surge de mirar la columna tres. Ahora, si regresásemos Y en X y agregásemos Z (carrera), encontraríamos que el género no es relevante y que ahora es Z la que correlaciona negativamente con Y, en forma compatible con nuestra discusión de la tabla: el género no cuenta y es el hecho de querer estudiar Medicina lo que tira para abajo las posibilidades de ser admitido.

En nuestro contexto del modelo de regresión, la paradoja de Simpson es claramente un problema de variables omitidas: cuando omitimos la carrera (Z), el género (X) aparece como relevante, y sugiere que ser mujer baja las chances de admisión. Pero, cuando incorporamos ambos factores, el género no es relevante y la carrera sí. ¿Dónde está la trampa? En lo que dice cualquier libro de econometría: la carrera está correlacionada con el sexo, de modo que si la omitimos de la regresión, el estimador MCO es sesgado. Es decir, no es cierto que el género impacte sobre la chance de admisión, sino que el hecho de ser mujer está correlacionado fuertemente con estudiar Medicina, en donde es mucho más difícil ingresar. O sea que lo que explica la discrepancia de la columna tres no es el género per se, sino que las mujeres prefirieron enfáticamente una carrera de más difícil acceso. 

Me resulta raro que la paradoja de Simspon no ocupe un lugar relevante en la econometría, toda vez que proporciona un excelente ejemplo del problema de omisión de variables relevantes.

Los dejo con cuatro lecturas sugeridas. Primero, obviamente, el artículo de Adrián Paenza, escrito en su clásico estilo informal y motivador

http://www.pagina12.com.ar/diario/contratapa/13-250327-2014-07-09.html).

​Segundo, en mi libro Qué es (y qué no es) la estadística, uso la paradoja de Simpson para explicar por qué tomó tanto tiempo concluir que fumar es perjudicial para la salud (www.queeslaestadistica.com). Tercero, el oscuro librito de Thomas Wickens (The Geometry of Multivariate Statistics), el cual alabamos anteriormente, tiene una interesante colección de este tipo de problemas, desde una perspectiva geométrica y que a mí me ha sido particularmente beneficiosa a fin de atravesar las aguas turbulentas entre la estadística y la econometría. Finalmente el trabajo de mi colega Juan Carlos Hallak es un ejemplo claro de esta paradoja en economía.
 
Referencias

Hallak, J. C., 2010, A Product-Quality View of the Linder Hypothesis, The Review of Economics and Statistics, 92(3), 453-466.
Paenza, A., 2014, La paradoja de Simpson, Página/12, 9.9.2014.
Sosa Escudero, W., 2014, Qué es y qué no es la estadística: usos y abusos en una disciplina clave en la vida de los países y las personas, Siglo Veintiuno Editores, Buenos Aires.
Wickens, T. D., 1995, The Geometry of Multivariate Statistics, L. Erlbaum Associates, Hillsdale, N. J.

0 Comments

    crisol de gatos

    Click here to edit.

    Escritos sueltos sobre temas variados. Musica, econometria, estadistica, educacion, fotografia y la vida misma.

    Random writing on several topics, mostly in Spanish. Music, econometrics, statistics, education, photography and life. 

    Archives

    October 2017
    August 2017
    April 2017
    March 2017
    December 2016
    November 2016
    October 2016
    September 2016

    Categories

    All
    Econometria
    Educacion
    Estadistica
    La Vida

    RSS Feed

Powered by Create your own unique website with customizable templates.