(extracto de El Lado Oscuro de la Econometria, Ed. TEMAS, 2015, Buenos Aires)
Dudo que haya un aspecto de la vida humana que no pueda ser ilustrado por un episodio de Los Simpson, la duradera serie de Matt Groening y la econometría, naturalmente, no lo es. En esta nota utilizaremos el nexo más literal: la paradoja de Simpson, un clásico de la estadística.
Una de las posibles explicaciones de por qué esta paradoja es mucho más conocida en la estadística que en la econometría se debe a que aparece asociada al problema de tablas de contingencia, una tecnología central en la primera disciplina, pero de aparición circunstancial en la segunda. Entonces, el objetivo de esta nota es presentar una visión econométrica de la paradoja de Simpson. Intentaremos entenderla usando la herramienta atávica por excelencia de nuestra disciplina: el análisis de regresión. Ahí vamos.
Hace muy poco Adrián Paenza, el matemático, periodista y divulgador de la ciencia, escribió una muy bonita nota sobre este problema, presentando una visión clásica de la paradoja de Simpson. A continuación les incluyo una tabla que usa Paenza para presentar y explicar este problema. Los datos son hipotéticos, pero representativos de muchas situaciones reales.
La tabla se refiere al proceso de ingreso a una hipotética universidad, a la cual se presentaron 2200 postulantes (1100 hombres y 1100 mujeres) a las únicas dos carreras que dicta esta universidad: Kinesiología y Medicina. Cada celda presenta la proporción de personas que fue admitida, por género, por carrera y en total. Así, la primera celda dice que 1000 hombres se presentaron a la carrera de Kinesiología, y que 900 fueron admitidos. Similarmente, la segunda celda de la tercera columna indica que de las 1100 mujeres que se presentaron a ser admitidas a la univerisdad, 390 lograron entrar, sumando las 90 que entraron en Kinesiología y las 300 que lo hicieron en Medicina. Los invito a mirar con detalle esta tabla.
La información de esta tabla sugiere tres cosas. Primero que no parece haber habido discriminación en contra de las mujeres: el porcentaje de mujeres admitidas en ambas carreras coincide con el de hombres (90 % en el caso de Kinesiología y 30 % en Medicina). Segundo, que es más difícil entrar a Medicina que a Kinesiología (30 % versus 90 %). Tercero, que las mujeres de esta tabla prefieren enfáticamente ir a Medicina (1000, contra solo 100 hombres).
La paradoja de Simpson se refiere al siguiente hecho. Si bien ya acordamos que ninguna carrera parece discriminar a las mujeres, la tercera columna sugiere que les fue mucho más difícil ingresar a las mujeres que a los hombres. Algún lector descuidado podría usar esto como sugerencia de que las mujeres fueron discriminadas, cuando ya sabemos que no fue así, y he aquí la paradoja.
Vayamos rápidamente a una lectura econométrica de esta situación, e intentemos hacerla con la herramienta por excelencia de la econometría: el modelo lineal estimado por el método de MCO. En este caso la variable explicada (que denotaremos Y) es una variable binaria, que toma valor 1 si una persona fue admitida (no importa a que carrera) y 0 si no. Las variables explicativas son dos. Una (llamada X) es una variable binaria que indica el género de la persona (1 si es mujer, 0 si es hombre) y la otra es la carrera que eligieron (1 si es Medicina y 0 si es Kinesiología). Si regresásemos Y (admisión) en X (género), encontraríamos que el género correlaciona negativamente con la admisión, es decir, el hecho de ser mujer predice más enfáticamente no ser admitido. Este es el resultado que surge de mirar la columna tres. Ahora, si regresásemos Y en X y agregásemos Z (carrera), encontraríamos que el género no es relevante y que ahora es Z la que correlaciona negativamente con Y, en forma compatible con nuestra discusión de la tabla: el género no cuenta y es el hecho de querer estudiar Medicina lo que tira para abajo las posibilidades de ser admitido.
En nuestro contexto del modelo de regresión, la paradoja de Simpson es claramente un problema de variables omitidas: cuando omitimos la carrera (Z), el género (X) aparece como relevante, y sugiere que ser mujer baja las chances de admisión. Pero, cuando incorporamos ambos factores, el género no es relevante y la carrera sí. ¿Dónde está la trampa? En lo que dice cualquier libro de econometría: la carrera está correlacionada con el sexo, de modo que si la omitimos de la regresión, el estimador MCO es sesgado. Es decir, no es cierto que el género impacte sobre la chance de admisión, sino que el hecho de ser mujer está correlacionado fuertemente con estudiar Medicina, en donde es mucho más difícil ingresar. O sea que lo que explica la discrepancia de la columna tres no es el género per se, sino que las mujeres prefirieron enfáticamente una carrera de más difícil acceso.
Me resulta raro que la paradoja de Simspon no ocupe un lugar relevante en la econometría, toda vez que proporciona un excelente ejemplo del problema de omisión de variables relevantes.
Los dejo con cuatro lecturas sugeridas. Primero, obviamente, el artículo de Adrián Paenza, escrito en su clásico estilo informal y motivador
http://www.pagina12.com.ar/diario/contratapa/13-250327-2014-07-09.html).
Segundo, en mi libro Qué es (y qué no es) la estadística, uso la paradoja de Simpson para explicar por qué tomó tanto tiempo concluir que fumar es perjudicial para la salud (www.queeslaestadistica.com). Tercero, el oscuro librito de Thomas Wickens (The Geometry of Multivariate Statistics), el cual alabamos anteriormente, tiene una interesante colección de este tipo de problemas, desde una perspectiva geométrica y que a mí me ha sido particularmente beneficiosa a fin de atravesar las aguas turbulentas entre la estadística y la econometría. Finalmente el trabajo de mi colega Juan Carlos Hallak es un ejemplo claro de esta paradoja en economía.
Referencias
Hallak, J. C., 2010, A Product-Quality View of the Linder Hypothesis, The Review of Economics and Statistics, 92(3), 453-466.
Paenza, A., 2014, La paradoja de Simpson, Página/12, 9.9.2014.
Sosa Escudero, W., 2014, Qué es y qué no es la estadística: usos y abusos en una disciplina clave en la vida de los países y las personas, Siglo Veintiuno Editores, Buenos Aires.
Wickens, T. D., 1995, The Geometry of Multivariate Statistics, L. Erlbaum Associates, Hillsdale, N. J.
Dudo que haya un aspecto de la vida humana que no pueda ser ilustrado por un episodio de Los Simpson, la duradera serie de Matt Groening y la econometría, naturalmente, no lo es. En esta nota utilizaremos el nexo más literal: la paradoja de Simpson, un clásico de la estadística.
Una de las posibles explicaciones de por qué esta paradoja es mucho más conocida en la estadística que en la econometría se debe a que aparece asociada al problema de tablas de contingencia, una tecnología central en la primera disciplina, pero de aparición circunstancial en la segunda. Entonces, el objetivo de esta nota es presentar una visión econométrica de la paradoja de Simpson. Intentaremos entenderla usando la herramienta atávica por excelencia de nuestra disciplina: el análisis de regresión. Ahí vamos.
Hace muy poco Adrián Paenza, el matemático, periodista y divulgador de la ciencia, escribió una muy bonita nota sobre este problema, presentando una visión clásica de la paradoja de Simpson. A continuación les incluyo una tabla que usa Paenza para presentar y explicar este problema. Los datos son hipotéticos, pero representativos de muchas situaciones reales.
La tabla se refiere al proceso de ingreso a una hipotética universidad, a la cual se presentaron 2200 postulantes (1100 hombres y 1100 mujeres) a las únicas dos carreras que dicta esta universidad: Kinesiología y Medicina. Cada celda presenta la proporción de personas que fue admitida, por género, por carrera y en total. Así, la primera celda dice que 1000 hombres se presentaron a la carrera de Kinesiología, y que 900 fueron admitidos. Similarmente, la segunda celda de la tercera columna indica que de las 1100 mujeres que se presentaron a ser admitidas a la univerisdad, 390 lograron entrar, sumando las 90 que entraron en Kinesiología y las 300 que lo hicieron en Medicina. Los invito a mirar con detalle esta tabla.
La información de esta tabla sugiere tres cosas. Primero que no parece haber habido discriminación en contra de las mujeres: el porcentaje de mujeres admitidas en ambas carreras coincide con el de hombres (90 % en el caso de Kinesiología y 30 % en Medicina). Segundo, que es más difícil entrar a Medicina que a Kinesiología (30 % versus 90 %). Tercero, que las mujeres de esta tabla prefieren enfáticamente ir a Medicina (1000, contra solo 100 hombres).
La paradoja de Simpson se refiere al siguiente hecho. Si bien ya acordamos que ninguna carrera parece discriminar a las mujeres, la tercera columna sugiere que les fue mucho más difícil ingresar a las mujeres que a los hombres. Algún lector descuidado podría usar esto como sugerencia de que las mujeres fueron discriminadas, cuando ya sabemos que no fue así, y he aquí la paradoja.
Vayamos rápidamente a una lectura econométrica de esta situación, e intentemos hacerla con la herramienta por excelencia de la econometría: el modelo lineal estimado por el método de MCO. En este caso la variable explicada (que denotaremos Y) es una variable binaria, que toma valor 1 si una persona fue admitida (no importa a que carrera) y 0 si no. Las variables explicativas son dos. Una (llamada X) es una variable binaria que indica el género de la persona (1 si es mujer, 0 si es hombre) y la otra es la carrera que eligieron (1 si es Medicina y 0 si es Kinesiología). Si regresásemos Y (admisión) en X (género), encontraríamos que el género correlaciona negativamente con la admisión, es decir, el hecho de ser mujer predice más enfáticamente no ser admitido. Este es el resultado que surge de mirar la columna tres. Ahora, si regresásemos Y en X y agregásemos Z (carrera), encontraríamos que el género no es relevante y que ahora es Z la que correlaciona negativamente con Y, en forma compatible con nuestra discusión de la tabla: el género no cuenta y es el hecho de querer estudiar Medicina lo que tira para abajo las posibilidades de ser admitido.
En nuestro contexto del modelo de regresión, la paradoja de Simpson es claramente un problema de variables omitidas: cuando omitimos la carrera (Z), el género (X) aparece como relevante, y sugiere que ser mujer baja las chances de admisión. Pero, cuando incorporamos ambos factores, el género no es relevante y la carrera sí. ¿Dónde está la trampa? En lo que dice cualquier libro de econometría: la carrera está correlacionada con el sexo, de modo que si la omitimos de la regresión, el estimador MCO es sesgado. Es decir, no es cierto que el género impacte sobre la chance de admisión, sino que el hecho de ser mujer está correlacionado fuertemente con estudiar Medicina, en donde es mucho más difícil ingresar. O sea que lo que explica la discrepancia de la columna tres no es el género per se, sino que las mujeres prefirieron enfáticamente una carrera de más difícil acceso.
Me resulta raro que la paradoja de Simspon no ocupe un lugar relevante en la econometría, toda vez que proporciona un excelente ejemplo del problema de omisión de variables relevantes.
Los dejo con cuatro lecturas sugeridas. Primero, obviamente, el artículo de Adrián Paenza, escrito en su clásico estilo informal y motivador
http://www.pagina12.com.ar/diario/contratapa/13-250327-2014-07-09.html).
Segundo, en mi libro Qué es (y qué no es) la estadística, uso la paradoja de Simpson para explicar por qué tomó tanto tiempo concluir que fumar es perjudicial para la salud (www.queeslaestadistica.com). Tercero, el oscuro librito de Thomas Wickens (The Geometry of Multivariate Statistics), el cual alabamos anteriormente, tiene una interesante colección de este tipo de problemas, desde una perspectiva geométrica y que a mí me ha sido particularmente beneficiosa a fin de atravesar las aguas turbulentas entre la estadística y la econometría. Finalmente el trabajo de mi colega Juan Carlos Hallak es un ejemplo claro de esta paradoja en economía.
Referencias
Hallak, J. C., 2010, A Product-Quality View of the Linder Hypothesis, The Review of Economics and Statistics, 92(3), 453-466.
Paenza, A., 2014, La paradoja de Simpson, Página/12, 9.9.2014.
Sosa Escudero, W., 2014, Qué es y qué no es la estadística: usos y abusos en una disciplina clave en la vida de los países y las personas, Siglo Veintiuno Editores, Buenos Aires.
Wickens, T. D., 1995, The Geometry of Multivariate Statistics, L. Erlbaum Associates, Hillsdale, N. J.