Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Apuntes econometria, Apuntes de Geología

Asignatura: Econometria, Profesor: ano anonim, Carrera: Geologia, Universidad: UAB

Tipo: Apuntes

2014/2015

Subido el 10/09/2015

quimbg
quimbg 🇪🇸

5

(1)

1 documento

Vista previa parcial del texto

¡Descarga Apuntes econometria y más Apuntes en PDF de Geología solo en Docsity! Damodar N. UNISS Dawn C. O = [ES ES Pasai E EY ls E E) 22 00_Maq. Preliminares_Gujarati.inii ii 12/21/09 5:28:56 PM Econometría Quinta edición Damodar N. Gujarati Profesor emérito de Economía United States Military Academy, West Point Dawn C. Porter University of Southern California Revisión técnica: Aurora Monroy Alarcón Instituto Tecnológico Autónomo de México (ITAM) José Héctor Cortés Fregoso Centro Universitario de Ciencias Económico-Administrativas (CUCEA) Universidad de Guadalajara MÉXICO • BOGOTÁ • BUENOS AIRES • CARACAS • GUATEMALA MADRID • NUEVA YORK • SAN JUAN • SANTIAGO • SÃO PAULO AUCKLAND • LONDRES • MILÁN • MONTREAL • NUEVA DELHI SAN FRANCISCO • SINGAPUR • SAN LUIS • SIDNEY • TORONTO 00_Maq. Preliminares_Gujarati.iniii iii 12/21/09 5:28:56 PM Director Higher Education: Miguel Ángel Toledo Castellanos Editor sponsor: Jesús Mares Chacón Coordinadora editorial: Marcela I. Rocha M. Editor de desarrollo: Edmundo Carlos Zúñiga Gutiérrez Supervisor de producción: Zeferino García García Diseño de portada: Gemma M. Garita Ramos Traductora: Pilar Carril Villarreal ECONOMETRÍA Quinta edición Prohibida la reproducción total o parcial de esta obra, por cualquier medio, sin la autorización escrita del editor. DERECHOS RESERVADOS © 2010, respecto a la quinta edición en español por McGRAW-HILL/INTERAMERICANA EDITORES, S.A. DE C.V. A Subsidiary of The McGraw-Hill Companies, Inc. Prolongación Paseo de la Reforma 1015, Torre A, Piso 17, Colonia Desarrollo Santa Fe, Delegación Álvaro Obregón C.P. 01376, México, D. F. Miembro de la Cámara Nacional de la Industria Editorial Mexicana, Reg. Núm. 736 ISBN: 978-607-15-0294-0 (ISBN edición anterior: 978-970-10-3971-7) Traducido de la quinta edición de Basic econometrics, by Damodar N. Gujarati, and Dawn C. Porter Copyright © 2009, 2003, 1995, 1988, 1978, published by McGraw-Hill/Irwin, Inc. All rights reserved. 0-07-337577-2 0123456789 109786543210 Impreso en México Printed in Mexico 00_Maq. Preliminares_Gujarati.iniv iv 12/21/09 5:28:57 PM Damodar N. Gujarati Después de enseñar durante más de 25 años en la City University of New York y 17 años en el Departamento de Ciencias Sociales de la U.S. Military Academy en West Point, Nueva York, el doctor Gujarati es actualmente profesor emérito de economía de la Academia. El doctor Gujarati recibió el grado de M.Com de la Universidad de Bombay en 1960, el grado de M.B.A. de la Universidad de Chicago en 1963 y el grado de Ph.D. de la Universidad de Chicago en 1965. El doctor Gujarati ha publicado una gran cantidad de trabajos en reconocidas revistas na- cionales e internacionales, como Review of Economics and Statistics, Economic Journal, Journal of Financial and Quantitative Analysis y Journal of Business. El doctor Gujarati fue miembro del Consejo Editorial de Journal of Quantitative Economics, publicación ofi cial de la Sociedad Econométrica de India. El doctor Gujarati es también autor de Pensions and the New York Fis- cal Crisis (The American Enterprise Institute, 1978), Government and Business (McGraw-Hill, 1984) y Essentials of Econometrics (McGraw-Hill, 3a. ed., 2006). Los libros del doctor Gujarati sobre econometría se han traducido a diversos idiomas. El doctor Gujarati fue profesor visitante de la Universidad de Sheffi eld, Inglaterra (1970- 1971), profesor visitante Fulbright en India (1981-1982), profesor visitante en la Facultad de Ad- ministración de la Universidad Nacional de Singapur (1985-1986) y profesor visitante de eco- nometría de la Universidad de Nueva Gales del Sur, Australia (durante el verano de 1988). El doctor Gujarati ha dictado numerosas conferencias sobre temas micro y macroeconómicos en países como Australia, China, Bangladesh, Alemania, India, Israel, Mauricio y la República de Corea del Sur. Dawn C. Porter Dawn Porter ha sido profesora adjunta del Departamento de Administración de Operaciones de la Marshall School of Business de la University of Southern California (USC) desde el otoño de 2006. En la actualidad imparte clases de introducción a la estadística tanto en licenciatura como en maestría en la Escuela de Administración. Antes de incorporarse al cuerpo docente de la USC, de 2001 a 2006, Dawn fue profesora adjunta de la McDonough School of Business en la Georgetown University, y antes de eso fue profesora visitante del Departamento de Psicología de la Graduate School of Arts and Sciences en la New York University (NYU). En NYU impartió diversos cursos sobre métodos estadísticos avanzados y también fue profesora de la Stern School of Business. Obtuvo su doctorado en Estadística en la Stern School. Las áreas de interés para la investigación de Dawn son análisis categórico, medidas de acuerdo, creación de modelos multivariados y aplicaciones en el campo de la psicología. Su investigación actual examina los modelos de subasta en internet desde una perspectiva estadística. Ha presen- tado sus estudios de investigación en las conferencias de Joint Statistical Meetings, las reuniones del Decision Sciences Institute, la Conferencia Internacional sobre Sistemas de Información, varias universidades, como la London School of Economics y NYU, así como en diversas series de seminarios sobre comercio electrónico y estadística. Dawn es también coautora de Essentials of Business Statistics, 2a. edición, McGraw-Hill/Irwin, 2008. Fuera del ámbito académico, Dawn fue contratada como consultora en estadística de KPMG, Inc. También trabajó como consultora en estadística para muchas otras empresas importantes, entre otras, Ginnie Mae, Inc., Toys R Us Corporation, IBM, Cosmaire, Inc., y New York University (NYU) Medical Center. Acerca de los autores 00_Maq. Preliminares_Gujarati.inv v 12/21/09 5:28:59 PM Prefacio xviii Reconocimientos xxi Introducción 1 I.1 ¿Qué es la econometría? 1 I.2 ¿Por qué una disciplina aparte? 2 I.3 Metodología de la econometría 2 1. Planteamiento de la teoría o hipótesis 3 2. Especifi cación del modelo matemático de consumo 3 3. Especifi cación del modelo econométrico de consumo 4 4. Obtención de información 5 5. Estimación del modelo econométrico 5 6. Pruebas de hipótesis 7 7. Pronóstico o predicción 8 8. Uso del modelo para fi nes de control o de políticas 9 Elección entre modelos rivales 9 I.4 Tipos de econometría 10 I.5 Requisitos matemáticos y estadísticos 11 I.6 La función de la computadora 11 I.7 Lecturas sugeridas 12 PARTE UNO MODELOS DE REGRESIÓN UNIECUACIONALES 13 CAPÍTULO 1 Naturaleza del análisis de regresión 15 1.1 Origen histórico del término regresión 15 1.2 Interpretación moderna de la regresión 15 Ejemplos 16 1.3 Relaciones estadísticas y relaciones deterministas 19 1.4 Regresión y causalidad 19 1.5 Regresión y correlación 20 1.6 Terminología y notación 21 1.7 Naturaleza y fuentes de datos para el análisis económico 22 Tipos de datos 22 Fuentes de datos 25 Precisión de los datos 27 Una observación sobre las escalas de medición de las variables 27 Resumen y conclusiones 28 Ejercicios 29 CAPÍTULO 2 Análisis de regresión con dos variables: algunas ideas básicas 34 2.1 Ejemplo hipotético 34 2.2 Concepto de función de regresión poblacional (FRP) 37 2.3 Signifi cado del término lineal 38 Linealidad en las variables 38 Linealidad en los parámetros 38 2.4 Especifi cación estocástica de la FRP 39 2.5 Importancia del término de perturbación estocástica 41 2.6 Función de regresión muestral (FRM) 42 2.7 Ejemplos ilustrativos 45 Resumen y conclusiones 48 Ejercicios 48 CAPÍTULO 3 Modelo de regresión con dos variables: problema de estimación 55 3.1 Método de mínimos cuadrados ordinarios (MCO) 55 3.2 Modelo clásico de regresión lineal: fundamentos del método de mínimos cuadrados 61 Advertencia sobre estos supuestos 68 3.3 Precisión o errores estándar de las estimaciones de mínimos cuadrados 69 3.4 Propiedades de los estimadores de mínimos cuadrados: teorema de Gauss-Markov 71 3.5 Coefi ciente de determinación r2: una medida de la “bondad del ajuste” 73 3.6 Ejemplo numérico 78 3.7 Ejemplos ilustrativos 81 3.8 Una observación sobre los experimentos Monte Carlo 83 Resumen y conclusiones 84 Ejercicios 85 Apéndice 3A 92 3A.1 Derivación de estimados de mínimos cuadrados 92 3A.2 Propiedades de linealidad e insesgamiento de los estimadores de mínimos cuadrados 92 3A.3 Varianzas y errores estándar de los estimadores de mínimos cuadrados 93 3A.4 Covarianza entre β̂1 y β̂2 93 3A.5 Estimador de mínimos cuadrados de σ2 93 Contenido 00_Maq. Preliminares_Gujarati.inviii viii 12/21/09 5:29:00 PM Contenido ix 3A.6 Propiedad de varianza mínima de los estimadores de mínimos cuadrados 95 3A.7 Consistencia de los estimadores de mínimos cuadrados 96 CAPÍTULO 4 Modelo clásico de regresión lineal normal (MCRLN) 97 4.1 Distribución de probabilidad de las perturbaciones ui 97 4.2 Supuesto de normalidad de ui 98 ¿Por qué debe formularse el supuesto de normalidad? 99 4.3 Propiedades de los estimadores de MCO según el supuesto de normalidad 100 4.4 Método de máxima verosimilitud (MV) 102 Resumen y conclusiones 102 Apéndice 4A 103 4A.1 Estimación de máxima verosimilitud del modelo de regresión con dos variables 103 4A.2 Estimación de máxima verosimilitud del gasto en alimentos en India 105 Apéndice 4A Ejercicios 105 CAPÍTULO 5 Regresión con dos variables: estimación por intervalos y pruebas de hipótesis 107 5.1 Requisitos estadísticos 107 5.2 Estimación por intervalos: algunas ideas básicas 108 5.3 Intervalos de confi anza para los coefi cientes de regresión β1 y β2 109 Intervalo de confi anza para β2 109 Intervalo de confi anza para β1 y β2 simultáneamente 111 5.4 Intervalo de confi anza para σ 2 111 5.5 Prueba de hipótesis: comentarios generales 113 5.6 Pruebas de hipótesis: método del intervalo de confi anza 113 Prueba bilateral o de dos colas 113 Prueba unilateral o de una cola 115 5.7 Pruebas de hipótesis: enfoque de la prueba de signifi cancia 115 Prueba de signifi cancia de los coefi cientes de regresión: La prueba t 115 Prueba de signifi cancia de σ 2: la prueba χ2 118 5.8 Prueba de hipótesis: algunos aspectos prácticos 119 Signifi cado de “aceptar” o “rechazar” una hipótesis 119 Hipótesis nula “cero” y regla práctica “2t” 120 Formación de las hipótesis nula y alternativa 121 Selección del nivel de signifi cancia α 121 Nivel exacto de signifi cancia: Valor p 122 Signifi cancia estadística y signifi cancia práctica 123 Elección entre los enfoques de intervalos de confi anza y pruebas de signifi cancia en las pruebas de hipótesis 124 5.9 Análisis de regresión y análisis de varianza 124 5.10 Aplicación del análisis de regresión: problema de predicción 126 Predicción media 127 Predicción individual 128 5.11 Informe de resultados del análisis de regresión 129 5.12 Evaluación de los resultados del análisis de regresión 130 Pruebas de normalidad 130 Otras pruebas del ajuste del modelo 132 Resumen y conclusiones 134 Ejercicios 135 Apéndice 5A 143 5A.1 Distribuciones de probabilidad relacionadas con la distribución normal 143 5A.2 Derivación de la ecuación (5.3.2) 145 5A.3 Derivación de la ecuación (5.9.1) 145 5A.4 Derivación de las ecuaciones (5.10.2) y (5.10.6) 145 Varianza de la predicción media 145 Varianza de la predicción individual 146 CAPÍTULO 6 Extensiones del modelo de regresión lineal con dos variables 147 6.1 Regresión a través del origen 147 r2 para el modelo de regresión a través del origen 150 6.2 Escalas y unidades de medición 154 Advertencia sobre la interpretación 157 6.3 Regresión sobre variables estandarizadas 157 6.4 Formas funcionales de los modelos de regresión 159 6.5 Cómo medir la elasticidad: modelo log-lineal 159 6.6 Modelos semilogarítmicos: log-lin y lin-log 162 Cómo medir la tasa de crecimiento: modelo log-lin 162 El modelo lin-log 164 6.7 Modelos recíprocos 166 Modelo log hipérbola o recíproco logarítmico 172 6.8 Elección de la forma funcional 172 00_Maq. Preliminares_Gujarati.inix ix 12/21/09 5:29:02 PM x Contenido 6.9 Nota sobre la naturaleza del término de error estocástico: término de error estocástico aditivo o multiplicativo 174 Resumen y conclusiones 175 Ejercicios 176 Apéndice 6A 182 6A.1 Derivación de los estimadores de mínimos cuadrados para la regresión a través del origen 182 6A.2 Prueba de que la variable estandarizada tiene media cero y varianza unitaria 183 6A.3 Logaritmos 184 6A.4 Fórmulas para calcular la tasa de crecimiento 186 6A.5 Modelo de regresión Box-Cox 187 CAPÍTULO 7 Análisis de regresión múltiple: el problema de estimación 188 7.1 Modelo con tres variables: notación y supuestos 188 7.2 Interpretación de la ecuación de regresión múltiple 191 7.3 Signifi cado de los coefi cientes de regresión parcial 191 7.4 Estimación de MCO y MV de los coefi cientes de regresión parcial 192 Estimadores de MCO 192 Varianzas y errores estándar de los estimadores de MCO 194 Propiedades de los estimadores de MCO 195 Estimadores de máxima verosimilitud 196 7.5 El coefi ciente múltiple de determinación R2 y el coefi ciente múltiple de correlación R 196 7.6 Un ejemplo ilustrativo 198 Regresión sobre variables estandarizadas 199 Efecto sobre la variable dependiente de un cambio unitario en más de una regresora 199 7.7 Regresión simple en el contexto de regresión múltiple: introducción al sesgo de especifi cación 200 7.8 R2 y R2 ajustada 201 Comparación de dos valores de R2 203 Asignación de R2 entre regresoras 206 El “juego” de maximizar R̄2 206 7.9 La función de producción Cobb-Douglas: más sobre la forma funcional 207 7.10 Modelos de regresión polinomial 210 7.11 Coefi cientes de correlación parcial 213 Explicación de los coefi cientes de correlación simple y parcial 213 Interpretación de los coefi cientes de correlación simple y parcial 214 Resumen y conclusiones 215 Ejercicios 216 Apéndice 7A 227 7A.1 Derivación de los estimadores de MCO dados en las ecuaciones (7.4.3) a (7.4.5) 227 7A.2 Igualdad entre los coefi cientes del PIBPC en las ecuaciones (7.3.5) y (7.6.2) 229 7A.3 Derivación de la ecuación (7.4.19) 229 7A.4 Estimación de máxima verosimilitud del modelo de regresión múltiple 230 7A.5 Listado de EViews de la función de producción Cobb Douglas de la ecuación (7.9.4) 231 CAPÍTULO 8 Análisis de regresión múltiple: el problema de la inferencia 233 8.1 Una vez más, el supuesto de normalidad 233 8.2 Pruebas de hipótesis en regresión múltiple: comentarios generales 234 8.3 Pruebas de hipótesis sobre coefi cientes de regresión individuales 235 8.4 Prueba de signifi cancia general de la regresión muestral 237 El método del análisis de varianza en las pruebas de signifi cancia general de una regresión múltiple observada: la prueba F 238 Prueba de signifi cancia general de una regresión múltiple: la prueba F 240 Una relación importante entre R2 y F 241 Prueba de signifi cancia general de una regresión múltiple en términos de R2 242 La contribución “incremental” o “marginal” de una variable explicativa 243 8.5 Prueba de igualdad de dos coefi cientes de regresión 246 8.6 Mínimos cuadrados restringidos: pruebas de restriccionesde igualdades lineales 248 El enfoque de la prueba t 249 Enfoque de la prueba F: mínimos cuadrados restringidos 249 Prueba F general 252 8.7 Prueba para la estabilidad estructural o paramétrica de los modelos de regresión: la prueba de Chow 254 8.8 Predicción con regresión múltiple 259 8.9 La tríada de las pruebas de hipótesis: razón de verosimilitud (RV), de Wald (W) y del multiplicador de Lagrange (ML) 259 8.10 Prueba de la forma funcional de la regresión: elección entre modelos de regresión lineal y log-lineal 260 Resumen y conclusiones 262 00_Maq. Preliminares_Gujarati.inx x 12/21/09 5:29:02 PM Contenido xiii 2. Función de consumo real de Estados Unidos, 1947-2000 505 13.12 Errores no normales y regresoras estocásticas 509 1. ¿Qué pasa si el término de error no está distribuido normalmente? 509 2. Variables explicativas estocásticas 510 13.13 Advertencia para el profesional 511 Resumen y conclusiones 512 Ejercicios 513 Apéndice 13A 519 13A.1 Prueba de que E(b1 2) = β2 + β3b3 2 [ecuación (13.3.3)] 519 13A.2 Consecuencias de la inclusión de una variable irrelevante: propiedad de insesgamiento 520 13A.3 Prueba de la ecuación (13.5.10) 521 13A.4 Prueba de la ecuación (13.6.2) 522 PARTE TRES TEMAS DE ECONOMETRÍA 523 CAPÍTULO 14 Modelos de regresión no lineales 525 14.1 Modelos de regresión intrínsecamente lineales e intrínsecamente no lineales 525 14.2 Estimación de modelos de regresión lineales y no lineales 527 14.3 Estimación de modelos de regresión no lineales: método de ensayo y error 527 14.4 Métodos para estimar modelos de regresión no lineales 529 Búsqueda directa o método de ensayo y error, o de libre derivación 529 Optimización directa 529 Método de linealización iterativa 530 14.5 Ejemplos ilustrativos 530 Resumen y conclusiones 535 Ejercicios 535 Apéndice 14A 537 14A.1 Derivación de las ecuaciones (14.2.4) y (14.2.5) 537 14A.2 Método de linealización 537 14A.3 Aproximación lineal de la función exponencial dada en (14.2.2) 538 CAPÍTULO 15 Modelos de regresión de respuesta cualitativa 541 15.1 Naturaleza de los modelos de respuesta cualitativa 541 15.2 Modelo lineal de probabilidad (MLP) 543 No normalidad de las perturbaciones ui 544 Varianzas heteroscedásticas de las perturbaciones 544 No cumplimiento de 0 ≤ E(Yi|Xi) ≤ 1 545 Valor cuestionable de R2 como medida de la bondad del ajuste 546 15.3 Aplicaciones del MLP 549 15.4 Alternativas al MLP 552 15.5 El modelo logit 553 15.6 Estimación del modelo logit 555 Datos de nivel individual 556 Datos agrupados o duplicados 556 15.7 Modelo logit agrupado (glogit): ejemplo numérico 558 Interpretación del modelo logit estimado 558 15.8 El modelo logit para datos no agrupados o individuales 561 15.9 Modelo probit 566 Estimación de probit con datos agrupados: gprobit 567 El modelo probit para datos no agrupados o individuales 570 Efecto marginal de un cambio unitario en el valor de una regresora sobre los diversos modelos de regresión 571 15.10 Modelos logit y probit 571 15.11 Modelo tobit 574 Ilustración del modelo tobit: modelo de Ray Fair para las relaciones extramaritales 575 15.12 Creación de modelos para datos de cuenta: modelo de regresión de Poisson 576 15.13 Otros temas de los modelos de regresión de respuesta cualitativa 579 Modelos ordinales logit y probit 580 Modelos multinomiales logit y probit 580 Modelos de duración 580 Resumen y conclusiones 581 Ejercicios 582 Apéndice 15A 589 15A.1 Estimación de máxima verosimilitud de los modelos probit y logit para datos individuales (no agrupados) 589 CAPÍTULO 16 Modelos de regresión con datos de panel 591 16.1 ¿Por qué datos de panel? 592 16.2 Datos de panel: un ejemplo ilustrativo 593 16.3 Modelo de regresión con MCO agrupados o de coefi cientes constantes 594 00_Maq. Preliminares_Gujarati.inxiii xiii 12/21/09 5:29:05 PM xiv Contenido 16.4 Modelo de mínimos cuadrados con variable dicótoma (MCVD) de efectos fi jos 596 Advertencia sobre el modelo de MCVD de efectos fi jos 598 16.5 Estimador de efectos fi jos dentro del grupo (DG) 599 16.6 Modelo de efectos aleatorios (MEFA) 602 Prueba del multiplicador de Lagrange de Breusch y Pagan 605 16.7 Propiedades de varios estimadores 605 16.8 Modelo de efectos fi jos y modelo de efectos aleatorios: algunos lineamientos 606 16.9 Regresiones con datos de panel: algunos comentarios para concluir 607 16.10 Algunos ejemplos ilustrativos 607 Resumen y conclusiones 612 Ejercicios 613 CAPÍTULO 17 Modelos econométricos dinámicos: modelos autorregresivos y de rezagos distribuidos 617 17.1 El papel del “tiempo” o “rezago” en economía 618 17.2 Razones de los rezagos 622 17.3 Estimación de modelos de rezagos distribuidos 623 Estimación ad hoc de los modelos de rezagos distribuidos 623 17.4 Método de Koyck para los modelos de rezagos distribuidos 624 Mediana de los rezagos 627 Rezago medio 627 17.5 Racionalización del modelo de Koyck: modelo de expectativas adaptativas 629 17.6 Otra racionalización del modelo de Koyck: el modelo de ajuste de existencias o de ajuste parcial 632 17.7 Combinación de los modelos de expectativas adaptativas y de ajuste parcial 634 17.8 Estimación de modelos autorregresivos 634 17.9 Método de variables instrumentales (VI) 636 17.10 Detección de autocorrelación en modelos autorregresivos: prueba h de Durbin 637 17.11 Ejemplo numérico: demanda de dinero en Canadá de I-1979 a IV-1988 639 17.12 Ejemplos ilustrativos 642 17.13 El método de Almon para los modelos de rezagos distribuidos: rezagos distribuidos polinomiales (RDP) o de Almon 645 17.14 Causalidad en economía: prueba de causalidad de Granger 652 Prueba de Granger 653 Nota sobre causalidad y exogeneidad 657 Resumen y conclusiones 658 Ejercicios 659 Apéndice 17A 669 17A.1 Prueba de Sargan para la validez de los instrumentos 669 PARTE CUATRO MODELOS DE ECUACIONES SIMULTÁNEAS Y ECONOMETRÍA DE SERIES DE TIEMPO 671 CAPÍTULO 18 Modelos de ecuaciones simultáneas 673 18.1 Naturaleza de los modelos de ecuaciones simultáneas 673 18.2 Ejemplos de modelos de ecuaciones simultáneas 674 18.3 Sesgo en las ecuaciones simultáneas: inconsistencia de los estimadores de MCO 679 18.4 Sesgo de las ecuaciones simultáneas: ejemplo numérico 682 Resumen y conclusiones 684 Ejercicios 684 CAPÍTULO 19 El problema de la identifi cación 689 19.1 Notación y defi niciones 689 19.2 Problema de identifi cación 692 Subidentifi cación 692 Identifi cación precisa o exacta 694 Sobreidentifi cación 697 19.3 Reglas para la identifi cación 699 Condición de orden para la identifi cación 699 Condición de rango para la identifi cación 700 19.4 Prueba de simultaneidad 703 Prueba de especifi cación de Hausman 703 19.5 Pruebas de exogeneidad 705 Resumen y conclusiones 706 Ejercicios 706 CAPÍTULO 20 Métodos de ecuaciones simultáneas 711 20.1 Enfoques para la estimación 711 20.2 Modelos recursivos y mínimos cuadrados ordinarios 712 00_Maq. Preliminares_Gujarati.inxiv xiv 12/21/09 5:29:06 PM Contenido xv 20.3 Estimación de una ecuación exactamente identifi cada:el método de mínimos cuadrados indirectos (MCI) 715 Ejemplo ilustrativo 715 Propiedades de los estimadores por MCI 718 20.4 Estimación de una ecuación sobreidentifi cada: método de mínimos cuadrados en dos etapas (MC2E) 718 20.5 MC2E: ejemplo numérico 721 20.6 Ejemplos ilustrativos 724 Resumen y conclusiones 730 Ejercicios 730 Apéndice 20A 735 20A.1 Sesgo en los estimadores de mínimos cuadrados indirectos 735 20A.2 Estimación de los errores estándar de los estimadores de MC2E 736 CAPÍTULO 21 Econometría de series de tiempo: algunos conceptos básicos 737 21.1 Repaso rápido a una selección de series de tiempo económicas de Estados Unidos 738 21.2 Conceptos fundamentales 739 21.3 Procesos estocásticos 740 Procesos estocásticos estacionarios 740 Procesos estocásticos no estacionarios 741 21.4 Proceso estocástico de raíz unitaria 744 21.5 Procesos estocásticos estacionarios en tendencia (ET) y estacionarios en diferencias (ED) 745 21.6 Procesos estocásticos integrados 746 Propiedades de las series integradas 747 21.7 El fenómeno de regresión espuria 747 21.8 Pruebas de estacionariedad 748 1. Análisis gráfi co 749 2. Función de autocorrelación (FAC) y correlograma 749 Signifi cancia estadística de los coefi cientes de autocorrelación 753 21.9 Prueba de raíz unitaria 754 La prueba Dickey-Fuller aumentada (DFA) 757 Prueba de la signifi cancia de más de un coefi ciente: prueba F 758 Las pruebas de raíz unitaria Phillips-Perron (PP) 758 Prueba de cambios estructurales 758 Crítica de las pruebas de raíz unitaria 759 21.10 Transformación de las series de tiempo no estacionarias 760 Procesos estacionarios en diferencias 760 Procesos estacionarios en tendencia 761 21.11 Cointegración: regresión de una serie de tiempo con raíz unitaria sobre otra serie de tiempo con raíz unitaria 762 Prueba de cointegración 763 Cointegración y mecanismo de corrección de errores (MCE) 764 21.12 Algunas aplicaciones económicas 765 Resumen y conclusiones 768 Ejercicios 769 CAPÍTULO 22 Econometría de series de tiempo: pronósticos 773 22.1 Enfoques de los pronósticos económicos 773 Métodos de suavizamiento exponencial 774 Modelos de regresión uniecuacionales 774 Modelos de regresión de ecuaciones simultáneas 774 Modelos ARIMA 774 Modelos VAR 775 22.2 Creación de modelos AR, PM y ARIMA para series de tiempo 775 Proceso autorregresivo (AR) 775 Proceso de medias móviles (MA) 776 Proceso autorregresivo y de promedios móviles (ARMA) 776 Proceso autorregresivo integrado de promedios móviles (ARIMA) 776 22.3 Metodología de Box-Jenkins (BJ) 777 22.4 Identifi cación 778 22.5 Estimación del modelo ARIMA 782 22.6 Verifi cación de diagnóstico 782 22.7 Pronóstico 782 22.8 Otros aspectos de la metodología BJ 784 22.9 Vectores autorregresivos (VAR) 784 Estimación de VAR 785 Pronóstico con el modelo VAR 786 VAR y causalidad 787 Algunos problemas en la creación de modelos VAR 788 Una aplicación de VAR: un modelo VAR de la economía de Texas 789 22.10 Medición de la volatilidad de las series de tiempo fi nancieras: modelos ARCH y GARCH 791 ¿Qué hacer cuando ARCH está presente? 795 Advertencia sobre la prueba d de Durbin-Watson y el efecto ARCH 796 Nota sobre el modelo GARCH 796 22.11 Ejemplos para concluir 796 Resumen y conclusiones 798 Ejercicios 799 00_Maq. Preliminares_Gujarati.inxv xv 12/21/09 5:29:07 PM Objetivo del libro La primera edición de Econometría se publicó hace treinta años. Con el transcurso del tiempo se registraron avances importantes en la teoría y la práctica de la econometría. En cada una de las ediciones subsiguientes traté de incorporar los principales adelantos en el campo. La quinta edición continúa con esta tradición. Sin embargo, lo que no ha cambiado a lo largo de todos estos años es mi fi rme convicción de que la econometría puede enseñarse al principiante de manera intuitiva e informativa sin recurrir al álgebra matricial, el cálculo o la estadística, más allá de un nivel elemental. Parte del material es inherentemente técnico. En ese caso, lo coloqué en el apéndice correspondiente o remito al lector a las fuentes apropiadas. Incluso entonces, traté de simplifi car el material técnico para que el lector pueda comprenderlo de manera intuitiva. La longevidad de este libro ha sido para mí una sorpresa muy grata, al igual que el hecho de que no sólo los estudiantes de economía y fi nanzas lo usan comúnmente, sino también los estudiantes e investigadores de otras disciplinas, como ciencias políticas, relaciones internacio- nales, agronomía y ciencias de la salud. La nueva edición, con la ampliación de los temas y las aplicaciones concretas que presenta, será muy útil para todos estos estudiantes. En esta edición dediqué todavía más atención a la pertinencia y oportunidad de los datos reales en el texto. De hecho, agregué unos quince ejemplos ilustrativos y más de treinta ejercicios al fi nal de los capí- tulos. Además, actualicé los datos de aproximadamente dos docenas de ejemplos y más de veinte ejercicios de la edición anterior. Aunque me encuentro en la octava década de mi vida, no he perdido mi amor por la econo- metría, y me esfuerzo por mantenerme al tanto de los principales avances en el campo. Para ayu- darme en este empeño, me complace mucho contar ahora con la doctora Dawn Porter, profesora adjunta de estadística de la Marshall School of Business de la University of Southern California, en Los Ángeles, como coautora. Ambos trabajamos mucho para llevar a buen término la quinta edición de Econometría. Características principales de la quinta edición Antes de explicar los cambios específi cos en diversos capítulos, vale la pena destacar las siguien- tes características de la nueva edición: 1. Se actualizaron prácticamente todos los datos de los ejemplos ilustrativos. 2. Se agregaron varios ejemplos. 3. En varios capítulos incluimos ejemplos fi nales que ilustran los puntos tratados en el texto. 4. Se incluyen en el libro listados de computadora relativos a varios ejemplos concretos. La ma- yoría de estos resultados se basan en EViews (versión 6) y STATA (versión 10), así como en MINITAB (versión 15). 5. Diversos capítulos incluyen varios diagramas y gráfi cos nuevos. 6. Diversos capítulos incluyen varios ejercicios basados en datos nuevos. 7. Los datos de muestras pequeñas se incluyen en el libro, pero los de muestras grandes están en el sitio web del libro con el propósito de reducir el tamaño del texto. El sitio web también publicará todos los datos del libro, mismos que se actualizarán periódicamente. Prefacio 00_Maq. Preliminares_Gujarati.inxviii xviii 12/21/09 5:29:08 PM 8. En algunos capítulos incluimos ejercicios para el aula que requieren que los alumnos obtengan datos por su cuenta y apliquen las distintas técnicas que se explican en el libro. También se incluyen algunas simulaciones Monte Carlo en el libro. Cambios específi cos de la quinta edición A continuación se enumeran algunos cambios que se refi eren de manera específi ca a ciertos capítulos: 1. Los supuestos en los que se basa el modelo clásico de regresión lineal (MCRL) que se pre- sentan en el capítulo 3 ahora marcan una distinción cuidadosa entre regresoras fi jas (varia- bles explicativas) y regresoras aleatorias. Analizamos la importancia de la distinción. 2. En el apéndice del capítulo 6 se analizan las propiedades de los logaritmos, las transforma- ciones Box-Cox y varias fórmulas de crecimiento. 3. El capítulo 7 explica ahora no sólo el efecto marginal de una sola regresora sobre la variable dependiente, sino también los efectos de cambios simultáneos de todas las variables explica- tivas en la variable dependiente. Este capítulo también se reorganizó con la misma estructura que los supuestos del capítulo 3. 4. En el capítulo 11 se presenta una comparación de las diferentes pruebas de heteroscedastici- dad. 5. Hay un nuevo análisis del efecto de las rupturas estructurales en la autocorrelación en el capítulo 12. 6. Los nuevos temas incluidos en el capítulo 13 son datos faltantes, término de error no normal y regresoras estocásticas, o aleatorias. 7. El modelo de regresión no lineal que se analiza en el capítulo 14 tiene una aplicación con- creta de la transformación Box-Cox. 8. El capítulo 15 contiene varios ejemplos nuevos que ilustran el uso de los modelos logit y probit en diversos campos. 9. Revisamos e ilustramos cuidadosamente con varias aplicaciones el capítulo 16 sobre mode- los de regresión con datos en panel. 10. El capítulo 17 incluye un análisis ampliado de las pruebas de causalidad de Sims y Granger. 11. En el capítulo 21 se presenta un análisis minucioso de las series de tiempo estacionarias y no estacionarias, así como algunos problemas relacionados con varias pruebas de estacionarie- dad. 12. El capítulo 22 incluye una exposición de razones por las que tomar las primeras diferencias de una serie de tiempo con el propósito de volverla estacionaria puede no ser la estrategia más adecuada en algunas situaciones. Además de estos cambios específi cos, corregimos los errores tipográfi cos y de otro tipo de edi- ciones anteriores y simplifi camos los análisis de varios temas en los diferentes capítulos. Organización y opciones La extensa cobertura en esta edición proporciona al maestro fl exibilidad considerable para elegir los temas apropiados para el público al que se dirige. Aquí se dan algunas sugerencias respecto a cómo podría utilizarse la obra. Curso de un semestre para los no especialistas: Apéndice A, capítulos 1 al 9 y un repaso general de los capítulos 10, 11 y 12 (sin las demostraciones). Curso de un semestre para estudiantes de economía: Apéndice A y los capítulos 1 al 13. Prefacio xix 00_Maq. Preliminares_Gujarati.inxix xix 12/21/09 5:29:09 PM Curso de dos semestres para estudiantes de economía: Apéndices A, B y C, y capítulos 1 al 22. Los capítulos 14 y 16 son opcionales. Pueden omitirse algunos apéndices técnicos. Estudiantes de maestría y posgrado e investigadores: Este libro es un útil manual de consulta de los temas principales de la econometría. Suplementos Un sitio web muy completo contiene el siguiente material suplementario: – Datos del texto, así como datos adicionales de conjuntos grandes a los que se hace referencia en el libro; los autores actualizarán los datos periódicamente. – Un Manual de soluciones, preparado por Dawn Porter, proporciona las respuestas a todas las preguntas y problemas que se presentan en el texto. – Una biblioteca de imágenes digitales que contiene todos los gráfi cos y fi guras del texto. Encontrará más información en www.mhhe.com/gujarati5e. Consulte términos y condiciones con su representante McGraw-Hill más cercano. xx Prefacio 00_Maq. Preliminares_Gujarati.inxx xx 12/21/09 5:29:09 PM Introducción I.1 ¿Qué es la econometría? En términos literales econometría signifi ca “medición económica”. Sin embargo, si bien es cierto que la medición es una parte importante de la econometría, el alcance de esta disciplina es mucho más amplio, como se deduce de las siguientes citas: La econometría, resultado de cierta perspectiva sobre el papel que desempeña la economía, consiste en la aplicación de la estadística matemática a los datos económicos para dar soporte empírico a los modelos construidos por la economía matemática y obtener resultados numéricos.1 . . . la econometría puede defi nirse como el análisis cuantitativo de fenómenos económicos reales, basados en el desarrollo simultáneo de la teoría y la observación, relacionados mediante métodos apropiados de inferencia.2 La econometría se defi ne como la ciencia social en la cual las herramientas de la teoría económica, las matemáticas y la inferencia estadística se aplican al análisis de los fenómenos económicos.3 La econometría tiene que ver con la determinación empírica de las leyes económicas.4 El arte del econometrista consiste en encontrar un conjunto de supuestos lo bastante específi cos y realistas para que le permitan aprovechar de la mejor manera los datos con que cuenta.5 Los econometristas… son una ayuda decisiva en el esfuerzo por disipar la mala imagen pública de la economía (cuantitativa o de otro tipo) considerada como una materia en la cual se abren cajas vacías, suponiendo la existencia de abrelatas, para revelar un contenido que diez economistas interpretarán de 11 maneras diferentes.6 El método de la investigación econométrica busca en esencia una conjunción entre la teoría econó- mica y la medición real, con la teoría y la técnica de la inferencia estadística como puente.7 1 Gerhard Tintner, Methodology of Mathematical Economics and Econometrics, The University of Chicago Press, Chicago, 1968, p. 74. 2 P.A. Samuelson, T.C. Koopmans y J.R.N. Stone, “Report of the Evaluative Committee for Econometrica”, Econometrica, vol. 22, núm. 2, abril de 1954, pp. 141-146. 3 Arthur S. Goldberger, Econometric Theory, John Wiley & Sons, Nueva York, 1964, p. 1. 4 H. Theil, Principles of Econometrics, John Wiley & Sons, Nueva York, 1971, p. 1. 5 E. Malinvaud, Statistical Methods of Econometrics, Rand McNally, Chicago, 1966, p. 514. 6 Adrian C. Darnell y J. Lynne Evans, The Limits of Econometrics, Edward Elgar, Hants, Inglaterra, 1990, p. 54. 7 T. Haavelmo, “The Probability Approach in Econometrics”, suplemento de Econometrica, vol. 12, 1944, prefacio, p. iii. 01_Maq. Introduccion_Gujarati.in1 1 12/19/09 10:58:04 PM 2 Introducción I.2 ¿Por qué una disciplina aparte? Como indican las defi niciones anteriores, la econometría es una amalgama de teoría económica, economía matemática, estadística económica y estadística matemática. Aun así, la materia me- rece un estudio separado por las siguientes razones. La teoría económica hace afi rmaciones o formula hipótesis de naturaleza sobre todo cuali- tativa. Por ejemplo, la teoría microeconómica establece que, si no intervienen otros factores, se espera que la reducción del precio de un bien aumente la cantidad demandada de ese bien. Así, la teoría económica postula una relación negativa o inversa entre el precio y la cantidad deman- dada de un bien. Pero la teoría por sí sola no proporciona medida numérica alguna de la relación entre los dos; no dice cuánto aumentará o se reducirá la cantidad como resultado de un cambio determinado en el precio del bien. El trabajo del econometrista es proporcionar tales estimacio- nes numéricas. En otras palabras, la econometría da contenido empírico a gran parte de la teoría económica. El interés principal de la economía matemática es expresar la teoría económica en una forma matemática (ecuaciones) sin preocuparse por la capacidad de medición o de verifi cación empí- rica de la teoría. La econometría, como ya apuntamos, se interesa sobre todo en la verifi cación empírica de la teoría económica. Como veremos, el econometrista suele emplear ecuaciones matemáticas, propuestas por el economista matemático, pero las expresa de forma que se presten para la prueba empírica. Y esta conversión de ecuaciones matemáticas en ecuaciones economé- tricas requiere una gran dosis de ingenio y destreza. La estadística económica se relaciona en primer lugar con la recopilación, procesamiento y presentación de cifras económicas en forma de gráfi cos y tablas. Éste es el trabajo del estadístico económico, cuya actividad principal consiste en recopilar cifras sobre el producto nacional bruto (PNB), empleo, desempleo, precios, etc. Los datos así reunidos constituyen la materia prima del trabajo econométrico. Pero el estadístico económico no va más allá de la recolección de informa- ción, pues no le conciernen las cifras recopiladas para probar las teorías económicas. Sin duda, es el econometrista quien se ocupa de realizar esta labor. Aunque la estadística matemática proporciona muchas herramientas para esta ciencia, el eco- nometrista a menudo necesita métodos especiales por la naturaleza única de la mayoría de las cifras económicas, pues no se generan como resultado de un experimento controlado. El econo- metrista, como el meteorólogo, suele depender de cifras que no controla directamente. Como observa Spanos, acertadamente: En econometría, el que construye el modelo a menudo se enfrenta a datos provenientes de la obser- vación más que de la experimentación. Esto tiene dos implicaciones importantes para la creación empírica de modelos en econometría. Primero, se requiere que quien elabore modelos domine muy distintas habilidades en comparación con las que se necesitan para analizar los datos experimenta- les… Segundo, la separación de quien recopila los datos y el analista exige que quien elabora mode- los se familiarice por completo con la naturaleza y la estructura de los datos en cuestión.8 I.3 Metodología de la econometría ¿Cómo proceden los econometristas en el análisis de un problema económico? Es decir, ¿cuál es su metodología? Aunque existen diversas escuelas de pensamiento sobre metodología eco- nométrica, aquí presentaremos la metodología tradicional o clásica, que aún predomina en la investigación empírica en economía y en las ciencias sociales y del comportamiento.9 8 Aris Spanos, Probability Theory and Statistical Inference: Econometric Modeling with Observational Data, Cam- bridge University Press, Reino Unido, 1999, p. 21. 9 Hay un análisis ilustrativo, si bien avanzado, de los métodos econométricos en David F. Hendry, Dynamic Econometrics, Oxford University Press, Nueva York, 1995. Véase también Aris Spanos, op. cit. 01_Maq. Introduccion_Gujarati.in2 2 12/19/09 10:58:04 PM I.3 Metodología de la econometría 3 En términos generales, la metodología econométrica tradicional se ajusta a los siguientes li- neamientos: 1. Planteamiento de la teoría o de la hipótesis. 2. Especifi cación del modelo matemático de la teoría. 3. Especifi cación del modelo econométrico o estadístico de la teoría. 4. Obtención de datos. 5. Estimación de los parámetros del modelo econométrico. 6. Pruebas de hipótesis. 7. Pronóstico o predicción. 8. Utilización del modelo para fi nes de control o de políticas. Para ilustrar estos pasos, consideremos la conocida teoría keynesiana de consumo. 1. Planteamiento de la teoría o hipótesis Keynes plantea: La ley psicológica fundamental… consiste en que los hombres [y las mujeres], como regla general y en promedio, están dispuestos a incrementar su consumo a medida que aumenta su ingreso, pero no en la misma cuantía del aumento en su ingreso.10 En pocas palabras, Keynes postula que la propensión marginal a consumir (PMC), es decir, la tasa de cambio del consumo generado por una unidad (digamos, un dólar) de cambio en el ingreso, es mayor que cero pero menor que uno. 2. Especifi cación del modelo matemático de consumo A pesar de haber postulado una relación positiva entre el consumo y el ingreso, Keynes no espe- cifi ca la forma precisa de la relación funcional entre ambas cosas. Por simplicidad, un economista matemático puede proponer la siguiente forma de la función keynesiana de consumo: Y  β1 + β2 X 0 < β2 < 1 (I.3.1) donde Y = gasto de consumo y X = ingreso, y donde β1 y β2, conocidos como los parámetros del modelo, son, respectivamente, los coefi cientes del intercepto y de la pendiente. El coefi ciente de la pendiente β2 mide la PMC. En la fi gura I.1 se presenta geométricamente la ecuación (I.3.1). Esta ecuación plantea que el consumo está relacionado linealmente con el ingreso, y es un ejemplo de un modelo matemático de la relación entre consumo e ingreso, lla- mada en economía función consumo. Un modelo es simplemente un conjunto de ecuaciones matemáticas. Si el modelo tiene una sola ecuación, como en el ejemplo anterior, se denomina modelo uniecuacional, mientras que si tiene más de una ecuación, se conoce como modelo multiecuacional (consideraremos más adelante este tipo de modelos). En la ecuación (I.3.1), la variable que aparece al lado izquierdo del signo de la igualdad se llama variable dependiente, y la(s) variable(s) del lado derecho se llama(n) variable(s) independiente(s), o explicativa(s). Así, en la función keynesiana de consumo, la ecuación (I.3.1), el consumo (gasto) es la variable dependiente, y el ingreso, la explicativa. 10 John Maynard Keynes, The General Theory of Employment, Interest and Money, Harcourt Brace Jovanovich, Nueva York, 1936, p. 96. 01_Maq. Introduccion_Gujarati.in3 3 12/19/09 10:58:05 PM 6 Introducción TABLA I.1 Datos sobre Y (gasto de consumo personal) y X (producto interno bruto, 1960-2005), en miles de millones de dólares de 2000 Fuente: Economic Report of the President, 2007, tabla B-2, p. 230. Año (GCP Y) PIB(X) 8.10524.79510691 0.06523.03611691 2.51721.11712691 0.43826.18713691 6.89924.88814691 1.19137.70025691 1.99338.12126691 6.48430.58127691 7.25635.01328691 4.56734.69329691 9.17739.15420791 6.89835.54521791 0.50143.10722791 5.14348.33823791 6.91343.21824791 2.11349.67825791 9.04545.53036791 5.05741.46137791 0.51051.30338791 4.37154.38339791 7.16151.47330891 7.19252.22431891 3.98153.07432891 8.32456.86633891 6.31853.36834891 7.35060.46045891 6.36269.82246891 1.57468.96347891 7.24769.64548891 4.18960.57649891 5.21173.07740991 5.00174.87741991 6.63378.43942991 7.23578.99053991 5.53877.09254991 7.13085.33455991 9.82384.91656991 5.30788.13857991 9.66098.52168991 3.07496.83469991 0.71894.93760002 7.09894.01961002 8.840013.99072002 0.103013.59273002 5.307011.77574002 6.840112.14875002 01_Maq. Introduccion_Gujarati.in6 6 12/19/09 10:58:06 PM I.3 Metodología de la econometría 7 Como se aprecia en la fi gura I.3, la línea de regresión se ajusta bien a los datos, pues los puntos que corresponden a los datos están muy cercanos a ella. En esta gráfi ca vemos que de 1960 a 2005 el coefi ciente de la pendiente (es decir, la PMC) fue de alrededor de 0.72, lo que indica que para el periodo muestral un incremento de un dólar en el ingreso real produjo, en promedio, un incremento cercano a 72 centavos en el gasto de consumo real.12 Decimos “en promedio” porque la relación entre consumo e ingreso es inexacta; como se deduce de la fi gura I.3, no todos los puntos correspondientes a los datos están exactamente en la recta de regresión. Con palabras sen- cillas, podemos decir que, de acuerdo con los datos, el promedio o media del gasto de consumo aumentó alrededor de 72 centavos por cada dólar de incremento en el ingreso real. 6. Pruebas de hipótesis En el supuesto de que el modelo ajustado sea una aproximación razonablemente buena de la realidad, tenemos que establecer criterios apropiados para comprobar si los valores estimados obtenidos en una ecuación como la (I.3.3), por ejemplo, concuerdan con las expectativas de la teoría que estamos probando. De acuerdo con los economistas “positivos”, como Milton Fried- man, una teoría o hipótesis no verifi cable mediante la evidencia empírica no puede ser admisible como parte de la investigación científi ca.13 Como ya señalamos, Keynes esperaba que la PMC fuera positiva pero menor que 1. En el ejemplo observamos que la PMC es alrededor de 0.72. Pero antes de aceptar este resultado como confi rmación de la teoría keynesiana de consumo, debemos averiguar si esta estimación está lo 12 No se preocupe aquí por la forma como se obtuvieron estos valores; como veremos en el capítulo 3, el método estadístico de mínimos cuadrados produjo estos valores estimados. Asimismo, por el momento no se preocupe por el valor negativo del intercepto. 13 Véase Milton Friedman, “The Methodology of Positive Economics”, Essays in Positive Economics, Univer- sity of Chicago Press, Chicago, 1953. FIGURA I.3 Gasto de consumo perso- nal (Y ) en relación con el PIB (X ), 1960-2005, en miles de millones de dóla- res de 2000. 12 00010 0008 0006 0004 000 PIB (X) 2 000 1 000 2 000 3 000 4 000 G C P ( Y ) 8 000 7 000 6 000 5 000 01_Maq. Introduccion_Gujarati.in7 7 12/19/09 10:58:06 PM 8 Introducción bastante abajo de la unidad para convencernos de que no se trata de un suceso debido al azar o de una peculiaridad de los datos. En otras palabras, ¿es 0.72 estadísticamente menor que 1? Si lo es, puede apoyar la teoría de Keynes. Tal confi rmación o refutación de las teorías económicas con fundamento en la evidencia mues- tral se basa en una rama de la teoría estadística conocida como inferencia estadística (pruebas de hipótesis). A lo largo de este libro veremos cómo realizar en la práctica este proceso de in- ferencia. 7. Pronóstico o predicción Si el modelo escogido no refuta la hipótesis o la teoría en consideración, servirá para predecir el (los) valor(es) futuro(s) de la variable dependiente Y, o de pronóstico, con base en el (los) valor(es) futuro(s) conocido(s) o esperado(s) de la variable explicativa, o predictora, X. Para ilustrarlo, suponga que queremos predecir la media del gasto de consumo para 2006. El valor del PIB para 2006 fue de 11 319.4 millones de dólares.14 Colocamos esta cifra del PIB en el lado derecho de la ecuación (I.3.3) y obtenemos: Ŷ2006  −299.5913 + 0.7218 (11 319.4)  7 870.7516 (I.3.4) o casi 7 870 millones de dólares. Por tanto, con ese valor del PIB, la media o el promedio del gasto de consumo previsto es de alrededor de 7 870 millones de dólares. El valor real del gasto de consumo registrado en 2006 fue de 8 044 millones de dólares. El modelo estimado (I.3.3), por tanto, subpredijo el gasto de consumo real por casi 174 000 millones de dólares. Se diría que el error de predicción es de aproximadamente 174 000 millones de dólares, que representa alre- dedor de 1.5% del valor real del PIB para 2006. Cuando analicemos a profundidad el modelo de regresión lineal en los siguientes capítulos, trataremos de averiguar si un error de esa naturaleza es “pequeño” o “grande”. Pero lo que ahora importa es observar que tales errores de predicción son inevitables, dada la naturaleza estadística del análisis. Existe otro uso del modelo estimado (I.3.3). Suponga que el presidente decide proponer una reducción del impuesto sobre la renta. ¿Cuál será el efecto de dicha política en el ingreso y por consiguiente en el gasto de consumo, y a fi nal de cuentas en el empleo? Suponga que como resultado de estos cambios de política se incrementa el gasto en inversión. ¿Cuál será el efecto en la economía? De acuerdo con la teoría macroeconómica, el cambio en el ingreso generado por un cambio equivalente a un dólar, por ejemplo, en el gasto en inversión está dado por el multiplicador del ingreso (M), el cual se defi ne como M  1 1 − PMC (I.3.5) Si utilizamos la PMC de 0.72 obtenida en la ecuación (I.3.3), este multiplicador se convierte en M = 3.57. Es decir, un aumento (o reducción) de un dólar en la inversión al fi nal generará un in- cremento (o reducción) de más de tres veces en el ingreso; advierta que el multiplicador demora algún tiempo en actuar. El valor crítico en este cálculo es la PMC, pues M depende de él. Y este valor estimado de la PMC se obtiene de modelos de regresión como el de la ecuación (I.3.3). Así, un valor estimado cuantitativo de la PMC proporciona información valiosa para fi nes de políticas públicas. Al co- nocer la PMC, se puede predecir el curso futuro del ingreso, el gasto de consumo y el empleo que sigue a un cambio en las políticas fi scales del gobierno. 14 Había datos disponibles sobre el GCP y el PIB para 2006, pero los omitimos a propósito con el objeto de ilustrar el tema que estudiamos en esta sección. Como veremos en los capítulos subsiguientes, es buena idea guardar parte de los datos con el objeto de averiguar cómo predicen el modelo ajustado las observaciones ajenas a la muestra. 01_Maq. Introduccion_Gujarati.in8 8 12/19/09 10:58:07 PM La econometría teórica se relaciona con la elaboración de métodos apropiados para medir las relaciones económicas especifi cadas por los modelos econométricos. En este aspecto, la eco- nometría se apoya en gran medida en la estadística matemática. Por ejemplo, un método muy popular en este libro es el de mínimos cuadrados. La econometría teórica debe expresar los supuestos de este método, sus propiedades y lo que les sucede cuando no se cumplen uno o más de los supuestos del método. En la econometría aplicada utilizamos herramientas de la econometría teórica para estudiar algunos campos especiales de la economía y los negocios, como la función de producción, la función de inversión, las funciones de demanda y de oferta, la teoría de portafolio, etcétera. Este libro se refi ere en gran parte al desarrollo de los métodos econométricos, sus supuestos, usos y limitaciones. Ilustramos estos métodos con ejemplos en diversas áreas de la economía y los negocios. Pero éste no es un libro de econometría aplicada en el sentido de que investigue a fondo un campo particular de aplicación económica. Para esa labor existen textos especializados. Al fi nal de esta obra proporcionamos referencias de algunos de ellos. I.5 Requisitos matemáticos y estadísticos A pesar de que este libro está escrito en un nivel elemental, el autor supone que el lector conoce los conceptos básicos de la estimación estadística y las pruebas de hipótesis. Sin embargo, para quienes deseen refrescar sus conocimientos, en el apéndice A se ofrece una revisión amplia pero no técnica de los conceptos estadísticos básicos de esta obra. Respecto de las matemáticas, es deseable, aunque no esencial, estar más o menos al día con las nociones de cálculo diferencial. Si bien la mayoría de los textos universitarios de econometría emplea con libertad el álgebra ma- tricial, deseo aclarar que este libro no la requiere. Sostengo la fi rme convicción de que las ideas fundamentales de econometría pueden transmitirse sin álgebra matricial. Sin embargo, para el benefi cio del estudiante amigo de las matemáticas, el apéndice C resume la teoría de regresión básica en notación matricial. Para estos estudiantes, el apéndice B proporciona un resumen su- cinto de los principales resultados del álgebra matricial. I.6 La función de la computadora El análisis de regresión, herramienta de uso diario de la econometría, no sería posible hoy en día sin la computadora y el software estadístico. (Créanme, yo crecí en la generación de la regla de cálculo.) Por fortuna, ya existen muchos paquetes de regresión excelentes, tanto para las computadoras centrales (mainframe) como para las microcomputadoras, y con el tiempo la lista crece. Los paquetes de software de regresión, como ET, LIMDEP, SHAZAM, MICRO TSP, MINITAB, EVIEWS, SAS, SPSS, BMD, STATA, Microfi t y PcGive tienen la mayoría de las técnicas econométricas y las pruebas analizadas en este libro. FIGURA I.5 Categorías de la econo- metría. Econometría Teórica Clásica Bayesiana Aplicada Clásica Bayesiana I.6 La función de la computadora 11 01_Maq. Introduccion_Gujarati.in11 11 12/19/09 10:58:08 PM 12 Introducción En esta obra ocasionalmente pediremos al lector realizar experimentos Monte Carlo con uno o más paquetes estadísticos. Los experimentos Monte Carlo son ejercicios “divertidos” que capa- citarán al lector para apreciar las propiedades de diversos métodos estadísticos analizados en este libro. Detallaremos sobre los experimentos Monte Carlo en las secciones pertinentes. I.7 Lecturas sugeridas El tema de la metodología econométrica es vasto y controvertido. Para los interesados en este tema, sugiero los siguientes libros: Neil de Marchi y Christopher Gilbert, eds., History and Methodology of Econometrics, Oxford University Press, Nueva York, 1989. En esta colección de lecturas se analizan los primeros traba- jos sobre metodología econométrica. El análisis se extiende al método británico de la econome- tría relacionado con cifras de series de tiempo, es decir, datos recopilados a través de un periodo determinado. Wojciech W. Charemza y Derek F. Deadman, New Directions in Econometric Practice: Gene- ral to Specifi c Modelling, Cointegration and Vector Autoregression, Edward Elgar, Hants, Ingla- terra, 1997. Los autores critican el método tradicional de la econometría y dan una exposición detallada de nuevos enfoques a la metodología econométrica. Adrian C. Darnell y J. Lynne Evans, The Limits of Econometrics, Edward Elgar, Hants, Ingla- terra, 1990. Este libro presenta un análisis, en cierta medida equilibrado, de los diversos enfo- ques metodológicos a la econometría, con una renovada fi delidad a la metodología econométrica tradicional. Mary S. Morgan, The History of Econometric Ideas, Cambridge University Press, Nueva York, 1990. La autora proporciona una perspectiva histórica excelente sobre la teoría y la práctica de la econometría, con un análisis a fondo de las primeras contribuciones de Haavelmo (Premio Nobel de Economía 1990) a la econometría. Con el mismo espíritu, David F. Hendry y Mary S. Morgan antologaron escritos seminales para la econometría en The Foundation of Econometric Analisis, Cambridge University Press, Gran Bretaña, 1995, con el objeto de mostrar la evolución de las ideas econométricas a través del tiempo. David Colander y Reuven Brenner, eds., Educating Economists, University of Michigan Press, Ann Arbor, Michigan, 1992. El texto presenta un punto de vista crítico, en ocasiones agnóstico, de la enseñanza y práctica de la economía. Para consultar sobre los temas de estadística y econometría bayesianas, los siguientes libros pueden ser útiles: John H. Dey, Data in Doubt, Basil Blackwell, Oxford, University Press, Ingla- terra, 1985; Peter M. Lee, Bayesian Statistics: An Introduction, Oxford University Press, Inglate- rra, 1989; y Dale J. Porier, Intermediate Statistics and Econometrics: A Comparative Approach, MIT Press, Cambridge, Massachusetts, 1995. Una referencia avanzada es Arnold Zellner, An Introduction to Bayesian Inference in Econometrics, John Wiley & Sons, Nueva York, 1971. Otro libro de consulta avanzada es Palgrave Handbook of Econometrics. Volumen I. Econometric Theory, Terence C. Mills y Kerry Patterson, eds., Palgrave Macmillan, Nueva York, 2007. 01_Maq. Introduccion_Gujarati.in12 12 12/19/09 10:58:08 PM Capítulo 1 Naturaleza del análisis de regresión 13 1ParteModelos de regresión uniecuacionales En la parte 1 de este texto se presentan los modelos de regresión uniecuacionales. En estos mo- delos se expresa una variable, llamada dependiente, como función lineal de una o más variables, llamadas explicativas. En modelos de este tipo se supone que si existen relaciones causales entre las variables dependientes y las explicativas, éstas van en una sola dirección: de las variables explicativas a la variable dependiente. En el capítulo 1 se hace una exposición relacionada con la interpretación, tanto histórica como moderna, del término regresión y se ilustran las diferencias entre las dos interpretaciones con diversos ejemplos tomados de la economía y de otros campos. En el capítulo 2 se presentan algunos conceptos fundamentales del análisis de regresión con ayuda del modelo de regresión lineal con dos variables, en el cual la variable dependiente se ex- presa como función lineal de una sola variable explicativa. En el capítulo 3 continúa el manejo del modelo con dos variables y se introduce lo que se conoce como el modelo clásico de regresión lineal, que tiene diversos supuestos simplifi cado- res. Con estos supuestos se presenta el método de mínimos cuadrados ordinarios (MCO) para estimar los parámetros del modelo de regresión con dos variables. La aplicación del método de MCO es sencilla y tiene algunas propiedades estadísticas muy convenientes. En el capítulo 4 se introduce el modelo clásico de regresión lineal normal (de dos variables), modelo que supone que la variable aleatoria dependiente sigue una distribución de probabilidad normal. Con este supuesto los estimadores MCO obtenidos en el capítulo 3 adquieren algunas propiedades estadísticas más sólidas que las de los modelos clásicos de regresión lineal no nor- males. Estas propiedades permiten la inferencia estadística y, en particular, las pruebas de hipó- tesis. El capítulo 5 se dedica a las pruebas de hipótesis, y se pretende averiguar si los coefi cientes de regresión estimados son compatibles con los valores hipotéticos de tales coefi cientes, valo- res hipotéticos sugeridos por la teoría y/o por el trabajo empírico previo. En el capítulo 6 se consideran algunas extensiones del modelo de regresión con dos variables. En particular, se analizan temas como: 1) regresión a través del origen, 2) escalas y unidades de medición, y 3) formas funcionales de modelos de regresión, como doblelogarítmicos, semiloga- rítmicos y recíprocos. En el capítulo 7 se considera el modelo de regresión múltiple, en el cual hay más de una va- riable explicativa, y se muestra cómo se extiende el método MCO para estimar los parámetros de tales modelos. 02_Maq. Cap. 01_Gujarati 13 12/19/09 10:59:41 PM 16 Parte Uno Modelos de regresión uniecuacionales La importancia trascendental de este enfoque del análisis de regresión se verá claramente sobre la marcha, pero algunos ejemplos sencillos aclararán este concepto básico. Ejemplos 1. Considere de nuevo la ley de regresión universal de Galton. A él le interesaba averiguar las razones de la estabilidad en la distribución de estaturas dentro de una población. En el enfoque moderno, la preocupación no es esta explicación, sino averiguar cómo cambia la estatura pro- medio de los hijos dada la estatura de los padres. En otras palabras, lo que interesa es predecir la estatura promedio de los hijos a partir de la estatura de sus padres. Para ver cómo hacerlo, considere la fi gura 1.1, que corresponde a un diagrama de dispersión. La fi gura muestra la distribución de las estaturas de los hijos en una población hipotética, correspondiente al conjunto de valores dados o fi jos de las estaturas de los padres. Observe que, para cualquier estatura de un padre, existe un rango (distribución) de estaturas de los hijos. Sin embargo, observe también que, a pesar de la variabilidad de la estatura de los hijos conforme al valor de la estatura de los padres, la estatura promedio de los hijos aumenta, por lo general, en la medida en que lo hace la estatura de los padres. Para demostrar esto con claridad, las cruces dentro de los círculos en la fi - gura indican la estatura promedio de los hijos que corresponde a una estatura determinada de los padres. Estos promedios se conectan para obtener la línea recta de la fi gura. Esta línea, como veremos, se conoce como recta de regresión. Dicha recta muestra que el promedio de la estatura de los hijos aumenta conforme crece la de los padres.3 2. Considere el diagrama de dispersión en la fi gura 1.2, que presenta la distribución de una población hipotética de estaturas de niños en edades fi jas. Observe que existe un rango (distribu- ción) de estaturas correspondiente a cada edad. Es obvia la improbabilidad de que todos los niños de una edad determinada tengan estaturas idénticas. Pero, en promedio, la estatura se incrementa con la edad (por supuesto, hasta cierta edad), que se ve con claridad al trazar una recta (la recta de 3 En esta etapa de estudio del tema, denominaremos a esta recta de regresión simplemente recta que conecta el valor de la media, o promedio, de la variable dependiente (la estatura de los hijos) que corresponde a un valor dado de la variable explicativa (la estatura de los padres). Observe que esta recta tiene una pendiente positiva; pero la pendiente es menor que 1, lo cual está de acuerdo con el concepto de Galton de regresión a la mediocridad. (¿Por qué?) FIGURA 1.1 Distribución hipotética de las estaturas de los hijos correspondientes a las es- taturas de los padres. E st at u ra d el h ij o, e n p u lg ad as Estatura del padre, en pulgadas × ×× ×× ×× ×× × ×× × × × × × × ×× ×× ×× ×× × × × × × × × × × × × ×× ××××××× ××××××××× × × × × × × ××× × 75 70 65 60 60 65 70 75 × × × × × Valor promedio 02_Maq. Cap. 01_Gujarati 16 12/19/09 10:59:42 PM Capítulo 1 Naturaleza del análisis de regresión 17 regresión) por los puntos dentro de los círculos, los cuales representan la estatura promedio de determinadas edades. Por consiguiente, si se conoce la edad, se predice la estatura promedio de di- cha edad mediante la recta de regresión. 3. Al considerar lo referente a la economía, a un economista quizá le interese estudiar la dependencia del consumo personal respecto del ingreso personal neto disponible (después de impuestos). Con un análisis de este tipo se calcula la propensión marginal a consumir (PMC), es decir, el cambio promedio del consumo ante un cambio, digamos, de un dólar en el ingreso real (ver la fi gura 1.3). 4. Un monopolista que puede fi jar el precio o la producción (pero no ambos factores) tal vez desee conocer la demanda de un producto con diversos precios. Tal experimento permite estimar la elasticidad del precio (es decir, la respuesta a variaciones del precio) de la demanda del pro- ducto y permite determinar el precio que maximiza las ganancias. 5. Un economista laboral quizá desee estudiar la tasa de cambio de los salarios monetarios o nominales en relación con la tasa de desempleo. Las cifras históricas aparecen en el diagrama de dispersión de la fi gura 1.3. La curva de esta fi gura es un ejemplo de la célebre curva de Phillips, que relaciona los cambios en los salarios nominales con la tasa de desempleo. Un diagrama de dispersión de este tipo permite al economista laboral predecir el cambio promedio en los salarios nominales con una cierta tasa de desempleo. Tal conocimiento sirve para establecer supuestos so- bre el proceso infl acionario en una economía, pues es probable que los incrementos en los sala- rios monetarios se refl ejen en incrementos de precios. 6. En la economía monetaria se sabe que, si se mantienen constantes otros factores, cuanto mayor sea la tasa de infl ación π, menor será la proporción k del ingreso que la gente deseará man- tener en forma de dinero, como se deduce de la fi gura 1.4. La pendiente de esta recta representa el cambio en k con un cambio en la tasa de infl ación. Un análisis cuantitativo de esta relación permite al economista predecir la cantidad de dinero, como proporción del ingreso, que la gente deseará mantener con diversas tasas de infl ación. 7. El director de marketing de una compañía tal vez quiera conocer la relación entre la de- manda del producto de su compañía con el gasto de publicidad, por ejemplo. Un estudio de este tipo es de gran ayuda para encontrar la elasticidad de la demanda respecto de los gastos publi- citarios, es decir, el cambio porcentual de la demanda en respuesta a un cambio de 1 por ciento, por ejemplo, en el presupuesto de publicidad. Saber esto sirve para determinar el presupuesto “óptimo” de publicidad. FIGURA 1.2 Distribución hipotética de estaturas correspondientes a edades seleccionadas. E st at u ra , e n p u lg ad as 40 50 60 70 Edad, en años 10 11 12 13 14 Valor promedio 02_Maq. Cap. 01_Gujarati 17 12/19/09 10:59:42 PM 18 Parte Uno Modelos de regresión uniecuacionales 8. Por último, un agrónomo tal vez se interese en estudiar la relación entre el rendimiento de un cultivo, digamos de trigo, y la temperatura, lluvia, cantidad de sol y fertilizantes. Un análisis de dependencia de ese tipo facilitaría la predicción o el pronóstico del rendimiento medio del cultivo según la información sobre las variables explicativas. El lector puede proporcionar una amplia gama de ejemplos similares de la dependencia de una variable respecto de otra o más variables. Las técnicas del análisis de regresión que se explican en este texto están diseñadas especialmente para estudiar dicha dependencia entre variables. FIGURA 1.3 Curva hipotética de Phillips. FIGURA 1.4 Tenencia de dinero en relación con la tasa de infl ación π. 0 Tasa de inflación π k = Dinero Ingreso Tasa de desempleo, % Ta sa d e ca m b io d e lo s sa la ri os n om in al es 0 – + 02_Maq. Cap. 01_Gujarati 18 12/19/09 10:59:43 PM Capítulo 1 Naturaleza del análisis de regresión 21 1.6 Terminología y notación Antes de proceder al análisis formal de la teoría de regresión abordaremos brevemente la termi- nología y la notación. En las publicaciones especializadas, los términos variable dependiente y variable explicativa se defi nen de varias maneras; a continuación se presenta una lista represen- tativa: Variable dependiente Variable explicativa   Variable explicada Variable independiente   Predicha Predictora   Regresada Regresora   Respuesta Estímulo   Endógena Exógena   Resultado Covariante   Variable controlada Variable de control Aunque es cuestión de preferencia personal y tradición, en este texto se utiliza la terminología de variable dependiente/variable explicativa, o la más neutral de regresada y regresora. Si se estudia la dependencia de una variable respecto de una única variable explicativa, como el consumo que depende del ingreso real, dicho estudio se conoce como análisis de regresión simple, o con dos variables. Sin embargo, si se estudia la dependencia de una variable respecto de más de una variable explicativa, como el rendimiento de un cultivo, la lluvia, la temperatura, el Sol y los fertilizantes, se trata de un análisis de regresión múltiple. En otras palabras, en una regresión de dos variables sólo hay una variable explicativa, mientras que en la regresión múltiple hay más de una variable explicativa. El término aleatorio es sinónimo de estocástico. Como ya vimos, una variable aleatoria o estocástica es la que toma cualquier conjunto de valores, positivos o negativos, con una proba- bilidad dada.9 A menos que se indique lo contrario, la letra Y representa la variable dependiente, y las X (X1, X2,…, Xk), las variables explicativas, con Xk como la k-ésima variable explicativa. Los subíndices i o t denotan la observación o valor i-ésimo o t-ésimo. Xki (o Xkt) denota la i-ésima (o la t-ésima) observación de la variable Xk. N (o T ) representa el número total de observaciones o valores en la población, y n (o t), el número total de observaciones en una muestra. Por convención, se utiliza el subíndice de observación i para los datos transversales (es decir, información recopilada en un momento determinado), y el subíndice t, para datos de series de tiempo (es decir, informa- ción reunida a lo largo de un periodo). La naturaleza de datos transversales y de series de tiempo, así como el importante tema de la naturaleza y las fuentes de datos para el análisis empírico, se estudian en la siguiente sección. 9 Hay una defi nición formal y más detalles en el apéndice A. 02_Maq. Cap. 01_Gujarati 21 12/19/09 10:59:44 PM 22 Parte Uno Modelos de regresión uniecuacionales 1.7 Naturaleza y fuentes de datos para el análisis económico10 El éxito de todo análisis econométrico depende a fi nal de cuentas de la disponibilidad de los datos recopilados. Por consiguiente, es muy importante dedicar algún tiempo a estudiar la naturaleza, las fuentes y las limitaciones de los datos para el análisis empírico. Tipos de datos Hay tres tipos de datos disponibles para el análisis empírico: series de tiempo, series transver- sales e información combinada (combinación de series de tiempo y transversales). Datos de series de tiempo Los datos de la tabla 1.1 son un ejemplo de datos de series de tiempo. Una serie de tiempo es un conjunto de observaciones sobre los valores de una variable en diferentes momentos. Tal infor- mación debe recopilarse en intervalos regulares, es decir, en forma diaria (precios de acciones, informes del tiempo, etc.), semanal (como cifras de oferta monetaria), mensual (tasa de des- empleo, Índice de Precios al Consumidor [IPC], etc.), trimestral (como el PIB), anual (como los presupuestos del gobierno), quinquenal (como el censo de la industria manufacturera), o decenal (como los censos de población). Algunas veces los datos están disponibles por trimestre y por año, como los datos del PIB y del consumo. Con las computadoras de alta velocidad, ahora se recopilan datos en intervalos muy breves, por ejemplo, precios de acciones, que se obtienen literalmente de manera continua (o cotización en tiempo real). Si bien los datos de series de tiempo se utilizan mucho en estudios econométricos, presentan algunos problemas especiales para los econometristas. Como veremos en los capítulos sobre econometría de series de tiempo, la mayor parte del trabajo empírico con datos de series de tiempo supone que éstas son estacionarias. Aunque es muy pronto para introducir el signifi cado técnico preciso de estacionariedad, en términos generales, una serie de tiempo es estacionaria si su media y varianza no varían sistemáticamente con el tiempo. Para entender esto, observe, en la fi gura 1.5, el comportamiento de la oferta de dinero M1 en Estados Unidos durante el periodo del primero de enero de 1959 a septiembre de 1999. (Los datos reales se proporcionan en el ejercicio 1.4.) Como se observa, la oferta de dinero M1 presenta una tendencia ascendente constante, así como variabilidad con el transcurso de los años, lo cual indica que la serie de tiempo M1 no es estacionaria.11 En el capítulo 21 se analiza a fondo este tema. Datos transversales Los datos transversales consisten en datos de una o más variables recopilados en el mismo punto del tiempo, como el censo de población realizado por la Ofi cina del Censo de Estados Unidos cada 10 años (el último fue en 2000), las encuestas de gastos del consumidor levantadas por la Universidad de Michigan y, sin duda, las encuestas de opinión de Gallup y diversas empresas especializadas. Un ejemplo concreto de datos transversales se presenta en la tabla 1.1, con datos sobre la producción y precios del huevo en Estados Unidos para los 50 estados durante 1990 y 10 En Michael D. Intriligator, Econometric Models, Techniques, and Applications, Prentice Hall, Englewood Cliffs, Nueva Jersey, 1978, cap. 3, hay una explicación ilustrativa. 11 Para que resulte más claro, los datos se dividen en cuatro periodos: enero de 1951 a diciembre de 1962; enero de 1963 a diciembre de 1974; enero de 1975 a diciembre de 1986; y enero de 1987 a septiembre de 1999. En estos subperiodos, los valores de la media para la oferta de dinero (con sus correspondientes desviaciones estándar, entre paréntesis) fueron, respectivamente: 165.88 (23.27), 323.20 (72.66), 788.12 (195.43) y 1 099 (27.84); todas las cifras representan miles de millones de dólares. Ésta es una indicación aproximada de que la oferta de dinero no fue estacionaria a lo largo de todo el periodo. 02_Maq. Cap. 01_Gujarati 22 12/19/09 10:59:44 PM Capítulo 1 Naturaleza del análisis de regresión 23 1991. Para cada año, los datos sobre los 50 estados son transversales. Así, en la tabla 1.1 aparecen dos muestras de corte transversal. Así como los datos de series de tiempo crean problemas especiales (por la estacionariedad), los datos transversales también tienen sus propios problemas, en concreto, el de la heteroge- neidad. En los datos de la tabla 1.1 se observa que hay algunos estados que producen grandes cantidades de huevo (como Pensilvania) y otros que producen muy poco (por ejemplo, Alaska). Cuando se incluyen unidades heterogéneas en un análisis estadístico, debe tenerse presente el efecto de tamaño o de escala con el fi n de no mezclar manzanas con naranjas. Para ver esto con claridad, en la fi gura 1.6 se representan gráfi camente los datos sobre la producción y los precios del huevo en los 50 estados de Estados Unidos en 1990. Esta fi gura muestra la amplia disper- sión de las observaciones. En el capítulo 11 veremos que el efecto de escala puede ser importante al evaluar las relaciones entre variables económicas. Datos combinados Los datos combinados reúnen elementos de series de tiempo y transversales. Los datos de la tabla 1.1 son datos combinados. Hay 50 observaciones transversales por año, y dos observaciones de series de tiempo sobre precios y producción de huevo por estado: un total de 100 observaciones combinadas. De igual forma, los datos del ejercicio 1.1 son combinados, pues el índice de precios al consumidor de cada país de 1980 a 2005 representa datos de series de tiempo, en tanto que los datos del IPC de los siete países correspondientes a un solo año son transversales. Los datos combinados consisten en 182 observaciones: 26 observaciones anuales para cada uno de los siete países. Datos en panel, longitudinales o en micropanel Hay un tipo especial de datos combinados en el cual se estudia a través del tiempo la misma unidad transversal (por ejemplo, una familia o una empresa). Por ejemplo, el Departamento de Comercio de Estados Unidos realiza un censo de vivienda en intervalos periódicos. En cada encuesta periódica se entrevista a la misma unidad familiar (o a la gente que vive en la misma di- rección) para averiguar si ha habido algún cambio en las condiciones de vivienda o fi nancieras de esa unidad familiar desde la última encuesta. Los datos en panel que se obtienen de las entrevistas periódicas de la misma unidad familiar proporcionan información muy útil sobre la dinámica del comportamiento de las unidades familiares, como veremos en el capítulo 16. FIGURA 1.5 Oferta de dinero M1: Estados Unidos, enero de 1951-septiembre de 1999. 55 0 60 65 70 75 80 85 90 95 200 400 600 800 1 000 1 200 02_Maq. Cap. 01_Gujarati 23 12/19/09 10:59:44 PM 26 Parte Uno Modelos de regresión uniecuacionales Notas: Y = I = inversión bruta = adiciones a planta y equipo más mantenimiento y reparaciones, en millones de dólares defl acionados por P1. X2 = F = valor de la empresa = precio de las acciones comunes y preferentes al 31 de diciembre (o precio promedio del 31 de diciembre y 31 de enero del año siguiente) multiplicado por el número de acciones comunes y preferentes en circulación más el valor total de la deuda en libros al 31 de diciembre, en millones de dólares defl acionados por P2. X3 = C = existencias de planta y equipo = suma acumulada de adiciones netas a planta y equipo defl acionadas por P1 menos provisión para depreciación defl acionada por P3 en estas defi niciones. P1 = factor de defl ación implícito de los precios de equipo duradero de los productores (1947 = 100). P2 = factor de defl ación implícito de los precios del PIB (1947 = 100). P3 = factor de defl ación del gasto de depreciación = promedio móvil de 10 años del índice de precios al mayoreo de metales y productos metálicos (1947 = 100). Fuente: Reproducido de H. D. Vinod y Aman Ullah, Recent Advances in Regression Methods, Marcel Dekker, Nueva York, 1981, pp. 259-261. TABLA 1.2 Datos de inversión de cuatro empresas, 1935-1954 Observación I F−1 C−1 Observación I F−1 C−1 GE US 1935 33.1 1 170.6 97.8 1935 209.9 1 362.4 53.8 1936 45.0 2 015.8 104.4 1936 355.3 1 807.1 50.5 1937 77.2 2 803.3 118.0 1937 469.9 2 673.3 118.1 1938 44.6 2 039.7 156.2 1938 262.3 1 801.9 260.2 1939 48.1 2 256.2 172.6 1939 230.4 1 957.3 312.7 1940 74.4 2 132.2 186.6 1940 361.6 2 202.9 254.2 1941 113.0 1 834.1 220.9 1941 472.8 2 380.5 261.4 1942 91.9 1 588.0 287.8 1942 445.6 2 168.6 298.7 1943 61.3 1 749.4 319.9 1943 361.6 1 985.1 301.8 1944 56.8 1 687.2 321.3 1944 288.2 1 813.9 279.1 1945 93.6 2 007.7 319.6 1945 258.7 1 850.2 213.8 1946 159.9 2 208.3 346.0 1946 420.3 2 067.7 232.6 1947 147.2 1 656.7 456.4 1947 420.5 1 796.7 264.8 1948 146.3 1 604.4 543.4 1948 494.5 1 625.8 306.9 1949 98.3 1 431.8 618.3 1949 405.1 1 667.0 351.1 1950 93.5 1 610.5 647.4 1950 418.8 1 677.4 357.8 1951 135.2 1 819.4 671.3 1951 588.2 2 289.5 341.1 1952 157.3 2 079.7 726.1 1952 645.2 2 159.4 444.2 1953 179.5 2 371.6 800.3 1953 641.0 2 031.3 623.6 1954 189.6 2 759.9 888.9 1954 459.3 2 115.5 669.7 GM WEST 1935 317.6 3 078.5 2.8 1935 12.93 191.5 1.8 1936 391.8 4 661.7 52.6 1936 25.90 516.0 0.8 1937 410.6 5 387.1 156.9 1937 35.05 729.0 7.4 1938 257.7 2 792.2 209.2 1938 22.89 560.4 18.1 1939 330.8 4 313.2 203.4 1939 18.84 519.9 23.5 1940 461.2 4 643.9 207.2 1940 28.57 628.5 26.5 1941 512.0 4 551.2 255.2 1941 48.51 537.1 36.2 1942 448.0 3 244.1 303.7 1942 43.34 561.2 60.8 1943 499.6 4 053.7 264.1 1943 37.02 617.2 84.4 1944 547.5 4 379.3 201.6 1944 37.81 626.7 91.2 1945 561.2 4 840.9 265.0 1945 39.27 737.2 92.4 1946 688.1 4 900.0 402.2 1946 53.46 760.5 86.0 1947 568.9 3 526.5 761.5 1947 55.56 581.4 111.1 1948 529.2 3 245.7 922.4 1948 49.56 662.3 130.6 1949 555.1 3 700.2 1 020.1 1949 32.04 583.8 141.8 1950 642.9 3 755.6 1 099.0 1950 32.24 635.2 136.7 1951 755.9 4 833.0 1 207.7 1951 54.38 732.8 129.7 1952 891.2 4 924.9 1 430.5 1952 71.78 864.1 145.5 1953 1 304.4 6 241.7 1 777.3 1953 90.08 1 193.5 174.8 1954 1 486.7 5 593.6 2 226.3 1954 68.60 1 188.9 213.5 02_Maq. Cap. 01_Gujarati 26 12/19/09 10:59:46 PM Capítulo 1 Naturaleza del análisis de regresión 27 Precisión de los datos15 Si bien se dispone de numerosos datos para la investigación económica, su calidad no siempre es adecuada, y por múltiples razones. 1. Como ya vimos, en su mayoría, los datos de las ciencias sociales son de naturaleza no ex- perimental. Por consiguiente, es posible incurrir en errores de observación, sea por acción u omisión. 2. Aun en datos reunidos experimentalmente surgen errores de medición debido a las aproxima- ciones o al redondeo. 3. En encuestas por cuestionarios, el problema de la falta de respuesta puede ser grave; un inves- tigador tiene suerte si obtiene una tasa de respuesta de 40%. El análisis basado en dicha tasa de respuesta parcial quizá no refl eje de verdad el comportamiento del 60% que no respondió, y ocasione, por consiguiente, un sesgo de selectividad (muestral). Además, existe el problema de quienes responden el cuestionario pero no todas las preguntas, sobre todo las que son deli- cadas por tratar cuestiones fi nancieras, lo que genera un sesgo adicional de selectividad. 4. Los métodos de muestreo para obtención de datos llegan a variar tanto que a menudo es difícil comparar los resultados de las diversas muestras. 5. Las cifras económicas suelen estar disponibles en niveles muy agregados. Por ejemplo, la mayor parte de los macrodatos (como el PIB, empleo, infl ación, desempleo) están disponibles para la economía en su conjunto, o, en el mejor de los casos, para algunas regiones geográfi cas muy amplias. Los datos con estos niveles tan elevados de agregación tal vez no ilustren mucho sobre los sujetos o las microunidades objeto de estudio. 6. Debido a su carácter confi dencial, ciertos datos sólo pueden publicarse en forma muy agregada. En el caso de Estados Unidos, por ejemplo, la ley prohíbe al IRS (hacienda) revelar información sobre declaraciones de impuestos individuales; sólo puede revelar algunos datos generales. Por consiguiente, si se desea conocer el monto gastado en salud por los individuos con cierto nivel de ingresos, sólo es posible en un nivel muy agregado. Pero los macroanálisis de este tipo con frecuencia resultan insufi cientes para revelar la dinámica del comportamiento de las microuni- dades. De igual forma, el Departamento de Comercio estadounidense, que levanta el censo de empresas cada cinco años, no tiene autorización para revelar información sobre produc- ción, empleo, consumo de energía, gastos de investigación y desarrollo, etc., de las empresas. Así, es difícil estudiar las diferencias entre las empresas en estos aspectos. Por estos problemas, y muchos más, el investigador debe tener siempre en mente que el resultado de la investigación será tan bueno como lo sea la calidad de los datos. Por tanto, si en algunas situaciones los investigadores concluyen que los resultados de la investi- gación son “insatisfactorios”, la causa puede ser la mala calidad de los datos y no un modelo equivocado. Por desgracia, debido a la naturaleza no experimental de los datos de la mayoría de los estudios de ciencias sociales, los investigadores con frecuencia no tienen más remedio que depender de la información disponible. Sin embargo, siempre deben tener presente que los datos pueden no ser los mejores y tratar de no ser muy dogmáticos sobre los resultados de un estudio dado, sobre todo cuando la calidad de los datos no es confi able. Una observación sobre las escalas de medición de las variables16 Las variables que a menudo encontrará se clasifi can en cuatro categorías generales: escala de razón, escala de intervalo, escala ordinal y escala nominal. Es importante comprender cada una. 15 Para un examen crítico, ver O. Morgenstern, The Accuracy of Economic Observations, 2a. ed., Princeton University Press, Princeton, Nueva Jersey, 1963. 16 El siguiente análisis se basa en gran medida en Aris Spanos, Probability Theory and Statistical Inference: Eco- nometric Modeling with Observational Data, Cambridge University Press, Nueva York, 1999, p. 24. 02_Maq. Cap. 01_Gujarati 27 12/19/09 10:59:47 PM 28 Parte Uno Modelos de regresión uniecuacionales Escala de razón Para la variable X, al tomar dos valores (X1 y X2), la razón X1/X2 y la distancia (X2 − X1) son can- tidades con un signifi cado. Asimismo, hay un ordenamiento natural (ascendente o descendente) de los valores a lo largo de la escala. En virtud de lo anterior, son sensatas las comparaciones como X2 ≤ X1 o X2 ≥ X1. En su mayoría, las variables económicas pertenecen a esta categoría. Por consiguiente, no es descabellado preguntar a cuánto asciende el PIB de este año en compa- ración con el del año anterior. El ingreso personal, en dólares, es una variable de razón; alguien que gana 100 000 dólares recibe el doble que quien percibe 50 000 (antes de impuestos, desde luego). Escala de intervalo Una variable en escala de intervalo satisface las dos últimas propiedades de la variable en escala de razón, pero no la primera. Por tanto, la distancia entre dos periodos, (digamos 2000-1995), tiene signifi cado, no así la razón de dos periodos (2000/1995). A las 11 de la mañana (hora de la costa del Pacífi co de Estados Unidos) del 11 de agosto de 2007 se registró en Portland, Oregon, una temperatura de 60° Fahrenheit (15.5° Celsius), y en Tallahassee, Florida, de 90° F (32° C). La temperatura con esta escala no se mide en escala de razón pues no tiene sentido decir que en Tallahassee hizo 50% más calor que en Portland. Esto se debe sobre todo a que la escala Fahren- heit no usa 0° como base natural. Escala ordinal Una variable pertenece a esta categoría sólo si satisface la tercera propiedad de la escala de razón (es decir, el orden natural), como los sistemas de califi caciones por letras (A, B, C) o los niveles de ingresos alto, medio y bajo). Para estas variables hay un orden, pero las distancias entre las ca- tegorías no son cuantifi cables. Los estudiantes de economía recordarán las curvas de indiferencia entre dos bienes, en donde una curva superior de indiferencia señala un mayor nivel de utilidad, pero no se puede cuantifi car en qué medida una curva de indiferencia es mayor que otra. Escala nominal Las variables de esta categoría no tienen ninguna característica de las variables en escala de razón. Las variables como el género (masculino y femenino) y el estado civil (casado, soltero, divorciado, separado) simplemente denotan categorías. Pregunta: ¿por qué no expresar dichas variables con las escalas de razón, intervalo u orden? Como veremos, las técnicas econométricas adecuadas para las variables en escala de razón no resultarían pertinentes para las variables en escala nominal. En consecuencia, es importante tener en mente las diferencias entre los cuatro tipos de escalas de medición recién analizadas. Resumen y conclusiones 1. La idea fundamental del análisis de regresión es la dependencia estadística de una variable, la dependiente, respecto de otra o más variables, las explicativas. 2. El objetivo de tal análisis es estimar o predecir la media o el valor promedio de la variable dependiente con base en los valores conocidos o fi jos de las explicativas. 3. En la práctica, un buen análisis de regresión depende de la disponibilidad de datos apropiados. En este capítulo analizamos la naturaleza, fuentes y limitaciones de los datos disponibles para la investigación, en especial en las ciencias sociales. 4. En toda investigación se debe señalar con claridad las fuentes de los datos para el análisis, sus defi niciones, sus métodos de recolección y cualquier laguna u omisión en ellos, así como toda revisión que se les haya aplicado. Tenga en cuenta que los datos macroeconómicos que publica el gobierno con frecuencia son objeto de revisión. 5. Como el lector tal vez no tenga tiempo, energía o recursos para llegar a la fuente original de los datos, tiene el derecho de suponer que el investigador los recopiló de manera apropiada, y que los cálculos y análisis son correctos. 02_Maq. Cap. 01_Gujarati 28 12/19/09 10:59:47 PM Capítulo 1 Naturaleza del análisis de regresión 31 TABLA 1.5 Oferta de dinero M1 ajustada por estacionalidad: enero de 1959-julio de 1999 (miles de millones de dólares) Fuente: Board of Governors, Federal Reserve Bank, Estados Unidos. 1959:01 138.8900 139.3900 139.7400 139.6900 140.6800 141.1700 1959:07 141.7000 141.9000 141.0100 140.4700 140.3800 139.9500 1960:01 139.9800 139.8700 139.7500 139.5600 139.6100 139.5800 1960:07 140.1800 141.3100 141.1800 140.9200 140.8600 140.6900 1961:01 141.0600 141.6000 141.8700 142.1300 142.6600 142.8800 1961:07 142.9200 143.4900 143.7800 144.1400 144.7600 145.2000 1962:01 145.2400 145.6600 145.9600 146.4000 146.8400 146.5800 1962:07 146.4600 146.5700 146.3000 146.7100 147.2900 147.8200 1963:01 148.2600 148.9000 149.1700 149.7000 150.3900 150.4300 1963:07 151.3400 151.7800 151.9800 152.5500 153.6500 153.2900 1964:01 153.7400 154.3100 154.4800 154.7700 155.3300 155.6200 1964:07 156.8000 157.8200 158.7500 159.2400 159.9600 160.3000 1965:01 160.7100 160.9400 161.4700 162.0300 161.7000 162.1900 1965:07 163.0500 163.6800 164.8500 165.9700 166.7100 167.8500 1966:01 169.0800 169.6200 170.5100 171.8100 171.3300 171.5700 1966:07 170.3100 170.8100 171.9700 171.1600 171.3800 172.0300 1967:01 171.8600 172.9900 174.8100 174.1700 175.6800 177.0200 1967:07 178.1300 179.7100 180.6800 181.6400 182.3800 183.2600 1968:01 184.3300 184.7100 185.4700 186.6000 187.9900 189.4200 1968:07 190.4900 191.8400 192.7400 194.0200 196.0200 197.4100 1969:01 198.6900 199.3500 200.0200 200.7100 200.8100 201.2700 1969:07 201.6600 201.7300 202.1000 202.9000 203.5700 203.8800 1970:01 206.2200 205.0000 205.7500 206.7200 207.2200 207.5400 1970:07 207.9800 209.9300 211.8000 212.8800 213.6600 214.4100 1971:01 215.5400 217.4200 218.7700 220.0000 222.0200 223.4500 1971:07 224.8500 225.5800 226.4700 227.1600 227.7600 228.3200 1972:01 230.0900 232.3200 234.3000 235.5800 235.8900 236.6200 1972:07 238.7900 240.9300 243.1800 245.0200 246.4100 249.2500 1973:01 251.4700 252.1500 251.6700 252.7400 254.8900 256.6900 1973:07 257.5400 257.7600 257.8600 259.0400 260.9800 262.8800 1974:01 263.7600 265.3100 266.6800 267.2000 267.5600 268.4400 1974:07 269.2700 270.1200 271.0500 272.3500 273.7100 274.2000 1975:01 273.9000 275.0000 276.4200 276.1700 279.2000 282.4300 1975:07 283.6800 284.1500 285.6900 285.3900 286.8300 287.0700 1976:01 288.4200 290.7600 292.7000 294.6600 295.9300 296.1600 1976:07 297.2000 299.0500 299.6700 302.0400 303.5900 306.2500 1977:01 308.2600 311.5400 313.9400 316.0200 317.1900 318.7100 1977:07 320.1900 322.2700 324.4800 326.4000 328.6400 330.8700 1978:01 334.4000 335.3000 336.9600 339.9200 344.8600 346.8000 1978:07 347.6300 349.6600 352.2600 353.3500 355.4100 357.2800 1979:01 358.6000 359.9100 362.4500 368.0500 369.5900 373.3400 1979:07 377.2100 378.8200 379.2800 380.8700 380.8100 381.7700 1980:01 385.8500 389.7000 388.1300 383.4400 384.6000 389.4600 1980:07 394.9100 400.0600 405.3600 409.0600 410.3700 408.0600 1981:01 410.8300 414.3800 418.6900 427.0600 424.4300 425.5000 1981:07 427.9000 427.8500 427.4600 428.4500 430.8800 436.1700 1982:01 442.1300 441.4900 442.3700 446.7800 446.5300 447.8900 1982:07 449.0900 452.4900 457.5000 464.5700 471.1200 474.3000 1983:01 476.6800 483.8500 490.1800 492.7700 499.7800 504.3500 1983:07 508.9600 511.6000 513.4100 517.2100 518.5300 520.7900 1984:01 524.4000 526.9900 530.7800 534.0300 536.5900 540.5400 1984:07 542.1300 542.3900 543.8600 543.8700 547.3200 551.1900 1985:01 555.6600 562.4800 565.7400 569.5500 575.0700 583.1700 1985:07 590.8200 598.0600 604.4700 607.9100 611.8300 619.3600 1986:01 620.4000 624.1400 632.8100 640.3500 652.0100 661.5200 (continúa) 02_Maq. Cap. 01_Gujarati 31 12/19/09 10:59:48 PM 32 Parte Uno Modelos de regresión uniecuacionales 1.6. Experimentos controlados en economía: El 7 de abril de 2000, el presidente Clinton con- virtió en ley una propuesta aprobada por ambas cámaras legislativas estadounidenses me- diante la cual se eliminaban las limitaciones de benefi cios para los derechohabientes del sistema de seguridad social. Antes de esa ley, los derechohabientes de entre 65 y 69 años con percepciones mayores de 17 000 dólares al año perdían el equivalente a un dólar de las prestaciones de seguridad social por cada 3 dólares de ingresos que excedieran 17 000 dó- lares. ¿Cómo se planearía un estudio que evaluara el efecto de este cambio en la ley? Nota: En la ley derogada no había restricción de ingresos para los derechohabientes de más de 70 años. 1.7. Los datos de la tabla 1.6 se publicaron el primero de marzo de 1984 en el periódico The Wall Street Journal. Se refi eren al presupuesto publicitario (en millones de dólares) de 21 empresas en 1983 y a los millones de impactos semanales (veces que los clientes ven los anuncios de los productos de dichas compañías por semana). La información se basa en una encuesta a 4 000 adultos en la que se pidió a los usuarios de los productos que mencionaran un comercial que hubieran visto en la semana anterior y que tuviera que ver con la categoría del producto. a) Trace una gráfi ca con los impactos en el eje vertical y el gasto publicitario en el hori- zontal. b) ¿Qué se puede decir sobre la relación entre ambas variables? c) Al observar la gráfi ca, ¿cree que es redituable el gasto en publicidad? Piense en todos los comerciales que se transmiten el domingo que se juega el Super Bowl o durante la Serie Mundial del beisbol estadounidense. Nota: En los siguientes capítulos estudiaremos más a fondo los datos de la tabla 1.6. TABLA 1.5 (continuación) 1986:07 672.2000 680.7700 688.5100 695.2600 705.2400 724.2800 1987:01 729.3400 729.8400 733.0100 743.3900 746.0000 743.7200 1987:07 744.9600 746.9600 748.6600 756.5000 752.8300 749.6800 1988:01 755.5500 757.0700 761.1800 767.5700 771.6800 779.1000 1988:07 783.4000 785.0800 784.8200 783.6300 784.4600 786.2600 1989:01 784.9200 783.4000 782.7400 778.8200 774.7900 774.2200 1989:07 779.7100 781.1400 782.2000 787.0500 787.9500 792.5700 1990:01 794.9300 797.6500 801.2500 806.2400 804.3600 810.3300 1990:07 811.8000 817.8500 821.8300 820.3000 822.0600 824.5600 1991:01 826.7300 832.4000 838.6200 842.7300 848.9600 858.3300 1991:07 862.9500 868.6500 871.5600 878.4000 887.9500 896.7000 1992:01 910.4900 925.1300 936.0000 943.8900 950.7800 954.7100 1992:07 964.6000 975.7100 988.8400 1 004.340 1 016.040 1 024.450 1993:01 1 030.900 1 033.150 1 037.990 1 047.470 1 066.220 1 075.610 1993:07 1 085.880 1 095.560 1 105.430 1 113.800 1 123.900 1 129.310 1994:01 1 132.200 1 136.130 1 139.910 1 141.420 1 142.850 1 145.650 1994:07 1 151.490 1 151.390 1 152.440 1 150.410 1 150.440 1 149.750 1995:01 1 150.640 1 146.740 1 146.520 1 149.480 1 144.650 1 144.240 1995:07 1 146.500 1 146.100 1 142.270 1 136.430 1 133.550 1 126.730 1996:01 1 122.580 1 117.530 1 122.590 1 124.520 1 116.300 1 115.470 1996:07 1 112.340 1 102.180 1 095.610 1 082.560 1 080.490 1 081.340 1997:01 1 080.520 1 076.200 1 072.420 1 067.450 1 063.370 1 065.990 1997:07 1 067.570 1 072.080 1 064.820 1 062.060 1 067.530 1 074.870 1998:01 1 073.810 1 076.020 1 080.650 1 082.090 1 078.170 1 077.780 1998:07 1 075.370 1 072.210 1 074.650 1 080.400 1 088.960 1 093.350 1999:01 1 091.000 1 092.650 1 102.010 1 108.400 1 104.750 1 101.110 1999:07 1 099.530 1 102.400 1 093.460 02_Maq. Cap. 01_Gujarati 32 12/19/09 10:59:49 PM Capítulo 1 Naturaleza del análisis de regresión 33 TABLA 1.6 Efecto del gasto en publicidad Fuente: http://lib.stat.cmu.edu/ DASL/Datafi les/tvadsdat.html. Empresa Impactos, millones Gasto, millones de dólares de 1983 1. Miller Lite 32.1 50.1 2. Pepsi 99.6 74.1 3. Stroh’s 11.7 19.3 4. Fed’l Express 21.9 22.9 5. Burger King 60.8 82.4 6. Coca-Cola 78.6 40.1 7. McDonald’s 92.4 185.9 8. MCl 50.7 26.9 9. Diet Cola 21.4 20.4 10. Ford 40.1 166.2 11. Levi’s 40.8 27.0 12. Bud Lite 10.4 45.6 13. ATT/Bell 88.9 154.9 14. Calvin Klein 12.0 5.0 15. Wendy’s 29.2 49.7 16. Polaroid 38.0 26.9 17. Shasta 10.0 5.7 18. Meow Mix 12.3 7.6 19. Oscar Meyer 23.4 9.2 20. Crest 71.1 32.4 21. Kibbles ‘N Bits 4.4 6.1 02_Maq. Cap. 01_Gujarati 33 12/19/09 10:59:50 PM 36 Parte Uno Modelos de regresión uniecuacionales tabla 2.1 varían respecto del valor esperado incondicional de Y, igual a 121.20 dólares. Cuando se plantea la pregunta “¿cuál es el valor esperado del consumo semanal de una familia?”, la res- puesta es 121.20 dólares (la media incondicional). Pero si se pregunta “¿cuál es el valor esperado del consumo semanal de una familia cuyo ingreso mensual es de 140 dólares?”, la respuesta es 101 (la media condicional). En otras palabras, a la pregunta “¿cuál es la mejor predicción (media) del gasto semanal de las familias con un ingreso semanal de 140 dólares?”, la respuesta es 101 dólares. Por consiguiente, conocer el nivel de ingreso permite predecir mejor el valor medio del consumo que si se ignora esa información.4 Tal vez sea ésta la esencia del análisis de regresión, como lo descubriremos a lo largo de este libro. Los puntos oscuros dentro de círculos de la fi gura 2.1 muestran los valores medios condicio- nales de Y, grafi cados en función de los diferentes valores de X. Al unir esos valores obtenemos la línea de regresión poblacional (LRP), o, más general, la curva de regresión poblacional (CRP).5 Con palabras más sencillas, es la regresión de Y sobre X. El adjetivo “poblacional” se debe a que en este ejemplo trabajamos con la población total de 60 familias. Por supuesto, en realidad una población tendría más familias. Así, desde el punto de vista geométrico, una curva de regresión poblacional es tan sólo el lugar geométrico de las medias condicionales de la variable dependiente para los valores fi jos de la(s) variable(s) explicativa(s). En palabras más simples, es la curva que conecta las medias de las subpoblaciones de Y que corresponden a los valores dados de la regresora X. Lo anterior se ve de manera gráfi ca en la fi gura 2.2. Esta fi gura muestra que para cada X (es decir, el nivel de ingresos) existe una población de valores Y (consumo semanal) que se distribuyen alrededor de la media (condicional) de di- chos valores Y. Por simplicidad, suponemos que tales valores Y están distribuidos simétricamente alrededor de sus respectivos valores medios (condicionales). Asimismo, la recta (o curva) de regresión pasa a través de los mencionados valores medios (condicionales). Con estos antecedentes, es útil para el lector leer de nuevo la defi nición de regresión de la sección 1.2. TABLA 2.2 Probabilidades condicionales p(Y | Xi) para los datos de la tabla 2.1 4 Estoy en deuda con James Davidson por esta perspectiva. Ver James Davidson, Econometric Theory, Blackwell, Oxford, Gran Bretaña, 2000, p. 11. 5 En el presente ejemplo, la LRP es una recta, pero podría ser una curva (ver la fi gura 2.3). X→ p(Y |Xi) 80 100 120 140 160 180 200 220 240 260 Probabilidades 1 5 1 6 1 5 1 7 1 6 1 6 1 5 1 7 1 6 1 7 condicionales 1 5 1 6 1 5 1 7 1 6 1 6 1 5 1 7 1 6 1 7p(Y |Xi) 1 5 1 6 1 5 1 7 1 6 1 6 1 5 1 7 1 6 1 7 1 5 1 6 1 5 1 7 1 6 1 6 1 5 1 7 1 6 1 7 1 5 1 6 1 5 1 7 1 6 1 6 1 5 1 7 1 6 1 7 – 1 6 – 1 7 1 6 1 6 – 1 7 1 6 1 7 – – – 1 7 – – – 1 7 – 1 7 Medias 65 77 89 101 113 125 137 149 161 173 condicionales de Y ↓ 03_Maq. Cap. 02_Gujarati.indd 36 12/19/09 11:01:40 PM Capítulo 2 Análisis de regresión con dos variables: algunas ideas básicas 37 2.2 Concepto de función de regresión poblacional (FRP) De la anterior exposición, y en especial de las fi guras 2.1 y 2.2, es claro que cada media condicio- nal E(Y | Xi) es función de Xi, donde Xi es un valor dado de X. Simbólicamente, E(Y | Xi )  f (Xi ) (2.2.1) donde ƒ(Xi) denota alguna función de la variable explicativa X. En el ejemplo, E(Y | Xi) es una función lineal de Xi. La ecuación (2.2.1) se conoce como función de esperanza condicional (FEC), función de regresión poblacional (FRP) o regresión poblacional (RP), para abreviar. Dicha función sólo denota que el valor esperado de la distribución de Y dada Xi se relaciona funcionalmente con Xi. En otras palabras, dice cómo la media o respuesta promedio de Y varía con X. ¿Qué forma adopta la función ƒ(Xi)? Esta pregunta es importante porque en una situación real no disponemos de toda la población para efectuar el análisis. La forma funcional de la FRP es por consiguiente una pregunta empírica, aunque en casos específi cos la teoría tiene algo que decir. Por ejemplo, un economista puede plantear que el consumo manifi esta una relación lineal con el ingreso. Por tanto, como primera aproximación o hipótesis de trabajo, podemos suponer que la FRP E(Y | Xi) es una función lineal de Xi, del tipo E(Y | Xi )  β1 + β2 Xi (2.2.2) donde β1 y β2 son parámetros no conocidos pero fi jos que se denominan coefi cientes de regre- sión; β1 y β2 se conocen también como coefi cientes de intersección y de pendiente, respecti- vamente. La ecuación (2.2.1) se conoce como función de regresión poblacional lineal. En la bibliografía aparecen otras expresiones, como modelo de regresión poblacional lineal o sólo regresión poblacional lineal. En lo sucesivo, consideraremos sinónimos los términos regresión, ecuación de regresión y modelo de regresión. C on su m o se m an al , $ Media condicional Y X E(Y | Xi) Distribución de Y dada X = $220 149 101 65 80 140 220 Ingreso semanal, $ FIGURA 2.2 Línea de regresión po- blacional (datos de la tabla 2.1). 03_Maq. Cap. 02_Gujarati.indd 37 12/19/09 11:01:40 PM 38 Parte Uno Modelos de regresión uniecuacionales En el análisis de regresión, la idea es estimar las FRP como la ecuación (2.2.2); es decir, es- timar los valores no conocidos de β1 y β2 con base en las observaciones de Y y X. Veremos este tema con más detalle en el capítulo 3. 2.3 Signifi cado del término lineal Como este texto se relaciona sobre todo con modelos lineales, como la ecuación (2.2.2), es esen- cial entender a cabalidad el término lineal, pues se interpreta de dos formas. Linealidad en las variables El primer signifi cado, y tal vez el más “natural”, de linealidad es aquel en que la esperanza condicional de Y es una función lineal de Xi, como en la ecuación (2.2.2).6 Geométricamente, la curva de regresión en este caso es una recta. En esta interpretación, una función de regresión como E(Y | Xi )  β1 + β2X 2i no es una función lineal porque la variable X aparece elevada a una potencia o índice de 2. Linealidad en los parámetros La segunda interpretación de linealidad se presenta cuando la esperanza condicional de Y, E(Y | Xi), es una función lineal de los parámetros, los β; puede ser o no lineal en la variable X. 7 De acuerdo con esta interpretación, E(Y | Xi )  β1 + β2X 2i es un modelo de regresión lineal (en el parámetro). Para ver lo anterior, supongamos que X tiene un valor de 3. Por tanto, E(Y | X  3)  β1 + 9β2, ecuación a todas luces lineal en β1 y β2. En consecuencia, todos los modelos de la fi gura 2.3 son de regresión lineal; es decir, son modelos lineales en los parámetros. Ahora consideremos el modelo E(Y | Xi )  β1 + β22 Xi. Supongamos también que X  3; así obtenemos E(Y | Xi )  β1 + 3β22, que es no lineal respecto del parámetro β2. El anterior es un ejemplo de modelo de regresión no lineal (en el parámetro). Analizaremos dichos modelos en el capítulo 14. De las dos interpretaciones de linealidad, la linealidad en los parámetros es pertinente para el desarrollo de la teoría de regresión que presentaremos en breve. Por consiguiente, en adelante, el término regresión “lineal” siempre signifi cará una regresión lineal en los parámetros; los β (es decir, los parámetros) se elevan sólo a la primera potencia. Puede o no ser lineal en las variables explicativas X. Esquemáticamente tenemos la tabla 2.3. Así, E(Y | Xi)  β1 + β2 Xi, lineal en los parámetros igual que en las variables, es un modelo de regresión lineal (MRL), lo mismo que E(Y | Xi )  β1 + β2X 2i , lineal en los parámetros pero no lineal en la variable X. 6 Se dice que una función Y  f (X) es lineal en X si X aparece elevado a una potencia o índice de 1 sola- mente (es decir, se excluyen términos como X2, √X y demás), y dicha variable no está multiplicada ni divi- dida por alguna otra variable (por ejemplo, X · Z o X/Z, donde Z es otra variable). Si Y sólo depende de X, otra forma de plantear que Y se relaciona linealmente con X es que la tasa de cambio de Y respecto de X (es decir, la pendiente, o la derivada, de Y respecto de X, dY/dX) es independiente del valor de X. Así, si Y  4X, dY/dX  4, valor independiente del valor de X. Pero si Y  4X2, dY/dX  8X, término que no es indepen- diente del valor tomado por X. Por consiguiente, la función no es lineal en X. 7 Se dice que una función es lineal en el parámetro, digamos β1, si β1 aparece elevado a una potencia de 1 solamente y no está multiplicado ni dividido por ningún otro parámetro (por ejemplo, β1β2, β2/β1, etcé- tera). 03_Maq. Cap. 02_Gujarati.indd 38 12/19/09 11:01:41 PM Capítulo 2 Análisis de regresión con dos variables: algunas ideas básicas 41 Así, el supuesto de que la línea de regresión pasa a través de las medias condicionales de Y (ver la fi gura 2.2) implica que los valores de la media condicional de ui (condicionados al valor dado de X ) son cero. De la exposición anterior es claro que (2.2.2) y (2.4.2) son formas equivalentes si E(ui | Xi)  0.9 Pero la especifi cación estocástica (2.4.2) tiene la ventaja que muestra claramente otras varia- bles, además del ingreso, que afectan el consumo, y que el consumo de una familia no se explica en su totalidad sólo por la(s) variable(s) en el modelo de regresión. 2.5 Importancia del término de perturbación estocástica Como anotamos en la sección 2.4, el término de perturbación ui es un sustituto de todas las varia- bles que se omiten en el modelo, pero que, en conjunto, afectan a Y. La pregunta obvia es: ¿por qué no se introducen explícitamente estas variables en el modelo? O de otra forma, ¿por qué no se crea un modelo de regresión múltiple con tantas variables como sea posible? Las razones son muchas. 1. Vaguedad de la teoría: De existir una teoría que determine el comportamiento de Y, podría estar incompleta, y con frecuencia lo está. Se tendría quizá la certeza de que el ingreso semanal X afecta el consumo semanal Y, pero también ignoraríamos, o no tendríamos la seguridad, sobre las demás variables que afectan a Y. Por consiguiente, ui sirve como sustituto de todas las variables excluidas u omitidas del modelo. 2. Falta de disponibilidad de datos: Aunque se conozcan algunas variables excluidas y se considerara por tanto una regresión múltiple en lugar de una simple, tal vez no se cuente con in- formación cuantitativa sobre esas variables. Es común en el análisis empírico que no se disponga de los datos que idealmente se desearía tener. Por ejemplo, en principio se puede introducir la ri- queza familiar como variable explicativa adicional a la variable ingreso para explicar el consumo familiar. Pero, por desgracia, la información sobre riqueza familiar por lo general no está dispo- nible. Así, no habría mas que omitir la variable riqueza del modelo a pesar de su gran relevancia teórica para explicar el consumo. 3. Variables centrales y variables periféricas: Suponga en el ejemplo consumo-ingreso que además del ingreso X1 hay otras variables que afectan también el consumo, como el número de hijos por familia X2, el sexo X3, la religión X4, la educación X5 y la región geográfi ca X6. Pero es muy posible que la infl uencia conjunta de todas o algunas de estas variables sea muy pequeña, o a lo mejor no sistemática ni aleatoria, y que desde el punto de vista práctico y por consideracio- nes de costo no se justifi que su introducción explícita en el modelo. Cabría esperar que su efecto combinado pueda tratarse como una variable aleatoria ui.10 4. Aleatoriedad intrínseca en el comportamiento humano: Aunque se logre introducir en el modelo todas las variables pertinentes, es posible que se presente alguna aleatoriedad “intrín- seca” en Y que no se explique, a pesar de todos los esfuerzos que se inviertan. Las perturbaciones, u, pueden refl ejar muy bien esta aleatoriedad intrínseca. 5. Variables representantes (proxy) inadecuadas: A pesar de que el modelo clásico de regre- sión (que veremos en el capítulo 3) supone que las variables Y y X se miden con precisión, en la práctica, los datos pueden estar plagados de errores de medición. Consideremos, por ejemplo, 9 En efecto, en el método de mínimos cuadrados que veremos en el capítulo 3 se supone explícitamente que E(ui | Xi)  0. Ver la sección 3.2. 10 Otra difi cultad es que no es fácil cuantifi car variables como sexo, educación y religión. 03_Maq. Cap. 02_Gujarati.indd 41 12/19/09 11:01:42 PM 42 Parte Uno Modelos de regresión uniecuacionales la famosa teoría de la función de consumo postulada por Milton Friedman.11 Él considera el consumo permanente (Y p) como función del ingreso permanente (X p). Pero como la información sobre estas variables no es observable directamente, en la práctica se utilizan variables repre- sentantes (proxy), como el consumo actual (Y ) y el ingreso actual (X ), que sí son observables. Como las Y y las X observadas pueden no ser iguales a Y p y X p, existe el problema de errores de medición. El término de perturbación u en este caso puede representar también los errores de medición. Como veremos en un capítulo posterior, de existir tales errores de medición, pueden tener graves repercusiones en la estimación de los coefi cientes de regresión, β. 6. Principio de parsimonia: De acuerdo con el principio de la navaja de Occam,12 conviene mantener el modelo de regresión lo más sencillo posible. Si se explica “sustancialmente” el com- portamiento de Y con dos o tres variables explicativas, y si la teoría no es bastante fuerte para in- dicar otras variables que pueden incluirse, ¿para qué introducir más variables? Que ui represente todas las demás variables. Por supuesto, no se deben excluir variables pertinentes e importantes sólo para que el modelo de regresión no se complique. 7. Forma funcional incorrecta: Aunque se cuente con variables teóricamente correctas para explicar un fenómeno y se obtengan datos sobre ellas, con frecuencia no se conoce la forma de la relación funcional entre la variable regresada y las regresoras. ¿Es el consumo una función lineal (invariable) del ingreso, o es una función no lineal (invariable)? Si se trata de lo primero, Yi  β1 + β2 X1 + ui es la relación funcional adecuada entre Y y X, pero en el segundo caso, Yi = β1 + β2 Xi + β3X 2i + ui puede ser la forma funcional correcta. En los modelos con dos varia- bles, la forma funcional de la relación a menudo se puede inferir del diagrama de dispersión. Sin embargo, en un modelo de regresión múltiple no es fácil determinar la forma funcional apropiada, pues los diagramas de dispersión no se visualizan gráfi camente en múltiples dimensiones. Por todas estas razones, las perturbaciones estocásticas ui asumen un papel muy valioso en el análisis de regresión, que apreciaremos a medida que avancemos. 2.6 Función de regresión muestral (FRM) Hasta el momento, nos hemos limitado a la población de valores Y que corresponden a valores fi jos de X. Con toda deliberación evitamos consideraciones muestrales (observe que los datos de la tabla 2.1 representan la población, no una muestra). No obstante, es momento de enfrentar los problemas muestrales, porque en la práctica lo que se tiene al alcance no es más que una muestra de valores de Y que corresponden a algunos valores fi jos de X. Por tanto, la labor ahora es estimar la FRP con base en información muestral. A manera de ilustración, supongamos que no se conocía la población de la tabla 2.1 y que la única información que se tenía era una muestra de valores de Y seleccionada al azar para valores dados de X como se presentan en la tabla 2.4. A diferencia de la tabla 2.1, ahora se tiene sólo un valor de Y correspondiente a los valores dados de X; cada Y (dada Xi) en la tabla 2.4 se selecciona aleatoriamente de las Y similares que corresponden a la misma Xi de la población de la tabla 2.1. 11 Milton Friedman, A Theory of the Consumption Function, Princeton University Press, Princeton, Nueva Jer- sey, 1957. 12 “That descriptions be kept as simple as possible until proved inadequate”, The World of Mathematics, vol. 2, J.R. Newman (ed), Simon & Schuster, Nueva York, 1956, p. 1247, o “Entities should not be multiplied beyond necessity”, Donald F. Morrison, Applied Linear Statistical Methods, Prentice Hall, Englewood Cliffs, Nueva Jersey, 1983, p. 58. 03_Maq. Cap. 02_Gujarati.indd 42 12/19/09 11:01:43 PM Capítulo 2 Análisis de regresión con dos variables: algunas ideas básicas 43 La cuestión es la siguiente: con base en la muestra de la tabla 2.4, ¿es posible predecir el consumo semanal promedio Y de la población en su conjunto correspondiente a los valores de X seleccionados? En otras palabras, ¿se puede estimar la FRP a partir de los datos de la muestra? Como el lector con seguridad sospecha, quizá no pueda calcularse la FRP con “precisión” debido a las fl uctuaciones muestrales. Para ver esto, supongamos que se toma otra muestra aleatoria de la población de la tabla 2.1, la cual se presenta en la tabla 2.5. Al grafi car los datos de las tablas 2.4 y 2.5 se obtiene el diagrama de dispersión de la fi gura 2.4. En el diagrama de dispersión se trazaron dos líneas de regresión muestral con el fi n de “ajustar” razonablemente bien las dispersiones: FRM1 se basa en la primera muestra y FRM2 en la segunda. ¿Cuál de las dos líneas de regresión representa a la línea de regresión poblacional “verdadera”? Si evitamos la tentación de mirar la fi gura 2.1, que a propósito representa la RP, no hay forma de estar por completo seguro de que alguna de las líneas de regresión de la fi gura 2.4 representa la verdadera recta (o curva) de regresión poblacional. Las líneas de regresión en TABLA 2.4 Muestra aleatoria de la población de la tabla 2.1 Y X 70 80 65 100 90 120 95 140 110 160 115 180 120 200 140 220 155 240 150 260 TABLA 2.5 Otra muestra aleatoria de la población de la tabla 2.1 Y X 55 80 88 100 90 120 80 140 118 160 120 180 145 200 135 220 145 240 175 260 C on su m o se m an al , $ Primera muestra (tabla 2.4) 150 50 80 180 220 Ingreso semanal, $ 160140120100 200 260240 200 Segunda muestra (tabla 2.5) × × × × × × × × × 100 Regresión basada en la segunda muestra Regresión basada en la primera muestra FRM2 FRM1 FIGURA 2.4 Líneas de regresión ba- sadas en dos muestras diferentes. 03_Maq. Cap. 02_Gujarati.indd 43 12/19/09 11:01:43 PM 46 Parte Uno Modelos de regresión uniecuacionales 14 Ernst R. Berndt, The Practice of Econometrics: Classic and Contemporary, Addison Wesley, Reading, Mas- sachusetts, 1991. Por cierto, es un excelente libro que el lector tal vez quiera leer para averiguar cómo inves- tigan los econometristas. La tabla 2.6 proporciona datos sobre el nivel de estudios (medido en años de escolaridad), el salario promedio por hora devengado por las personas por nivel de escolaridad y el número de personas en un nivel de estudios. Ernst Berndt obtuvo originalmente los datos de la tabla de la encuesta de población de mayo de 1985.14 Al trazar el salario promedio (condicional) en función del grado de escolaridad, se obtiene la gráfi ca de la fi gura 2.6. La curva de regresión de la gráfi ca muestra la variación de los salarios promedio de acuerdo con el grado de escolaridad; por lo general, aquéllos se incrementan a la par que el grado de escolaridad, conclusión que no debe causar sorpresa. En un capítulo poste- rior examinaremos la infl uencia de otras variables en el salario promedio. EJEMPLO 2.1 Salario promedio por hora según la escolaridad TABLA 2.6 Salario promedio por hora según la escolaridad Fuente: Arthur S. Goldberger, Introductory Econometrics, Harvard University Press, Cambridge, Massachusetts, 1998, tabla 1.1, p. 5 (adaptada). FIGURA 2.6 Relación entre salario promedio y escolaridad. Años de Salario Número de escolaridad promedio, $ personas 6 4.4567 3 7 5.7700 5 8 5.9787 15 9 7.3317 12 10 7.3182 17 11 6.5844 27 12 7.8182 218 13 7.8351 37 14 11.0223 56 15 10.6738 13 16 10.8361 70 17 13.6150 24 18 13.5310 31 Total 528 181614121086 4 6 8 10 12 14 Escolaridad S al ar io p ro m ed io Valor promedio 03_Maq. Cap. 02_Gujarati.indd 46 12/19/09 11:01:45 PM Capítulo 2 Análisis de regresión con dos variables: algunas ideas básicas 47 En la tabla 2.10 del ejercicio 2.17 hay datos sobre el promedio de califi caciones del examen de aptitud académica (SAT, Scholastic Aptitude Test) de lectura crítica, matemáticas y redacción de 947 347 estudiantes que solicitaron su admisión a licenciatura en 2007. Se representó gráfi - camente la califi cación promedio de matemáticas en función del ingreso familiar promedio para obtener la ilustración de la fi gura 2.7. Nota: En virtud de los intervalos abiertos de ingreso para la primera y última categorías de la tabla 2.10, se supone que el ingreso promedio familiar más bajo es de 5 000 dólares, y el más alto, de 150 000 dólares. EJEMPLO 2.2 Califi caciones de matemáticas en el examen SAT según ingreso familiar FIGURA 2.7 Relación entre la cali- fi cación promedio de matemáticas en el exa- men SAT y el ingreso familiar promedio. Como muestra la fi gura 2.7, la califi cación promedio de matemáticas aumenta conforme lo hace el ingreso familiar. Como el número de estudiantes que presentaron el examen SAT es muy grande, es probable que represente a toda la población de estudiantes que presentaron el exa- men. Por tanto, también es probable que la línea de regresión trazada en la fi gura 2.7 represente la línea de regresión poblacional. Puede haber varias razones para la relación positiva entre ambas variables. Por ejemplo, se puede argumentar que los estudiantes con un mayor ingreso familiar están en mejores condicio- nes de costear clases privadas para el examen. Además, es más probable que los estudiantes de mayores ingresos tengan padres con educación superior. También es posible que los estudiantes con califi caciones más altas de matemáticas procedan de mejores escuelas. A usted se le pueden ocurrir otras explicaciones de la relación positiva entre las dos variables. 160 000120 00080 00040 000 Ingreso promedio familiar, $ 0 440 460 480 C al if ic ac ió n p ro m ed io d e m at em át ic as 560 540 520 500 03_Maq. Cap. 02_Gujarati.indd 47 12/19/09 11:01:45 PM 48 Parte Uno Modelos de regresión uniecuacionales Preguntas 2.1. ¿Cuál es la función de esperanza condicional o función de regresión poblacional? 2.2. ¿Cuál es la diferencia entre la función de regresión poblacional y la función de regresión muestral? ¿Se trata de distintos nombres para la misma función? 2.3. ¿Qué papel desempeña el término de error estocástico ui en el análisis de regresión? ¿Cuál es la diferencia entre el término de error estocástico y el residual ûi? 2.4. ¿Por qué es necesario el análisis de regresión? ¿Por qué no tan sólo utilizar el valor medio de la variable regresada como su mejor valor? 2.5. ¿Qué se quiere dar a entender con modelo de regresión lineal? 2.6. Determine si los siguientes modelos son lineales en los parámetros, en las variables o en ambos. ¿Cuáles de estos modelos son de regresión lineal? 1. El concepto fundamental del análisis de regresión es el de función de esperanza condicional (FEC), o función de regresión poblacional (FRP). El objetivo del análisis de regresión es averiguar la forma en que varía el valor promedio de la variable dependiente (o regresada) de acuerdo con el valor dado de la variable explicativa (o regresora). 2. Este libro trata sobre todo de FRP lineales, es decir, regresiones lineales en los parámetros. Éstas pueden ser o no lineales en la variable regresada o las regresoras. 3. Para efectos prácticos, la FRP estocástica es la que importa. El término de perturbación estocástica ui desempeña una función crucial para estimar la FRP. 4. La FRP es un concepto idealizado, pues en la práctica pocas veces se tiene acceso al total de la población de interés. Por lo general se cuenta sólo con una muestra de observaciones de la población. En consecuencia, se utiliza la función de regresión muestral estocástica (FRM) para estimar la FRP; la forma de lograrlo se analiza en el capítulo 3. Resumen y conclusiones Título descriptivoloedoM a) Yi  β1 + β2 1Xi + ui Recíproco b) Yi  β1 + β2 ln Xi + ui Semilogarítmico c) ln Yi  β1 + β2 Xi + ui Semilogarítmico inverso d ) ln Yi  ln β1 + β2 ln Xi + ui Logarítmico o doble logarítmico e) ln Yi  β1 − β2 1Xi + ui Logarítmico recíproco Nota: ln  logaritmo natural (es decir, logaritmo base e); ui es el término de perturbación estocástica. Estudiaremos estos modelos en el capítulo 6. EJERCICIOS 2.7. ¿Son modelos de regresión lineal los siguientes? ¿Por qué? a) Yi  eβ1+β2 Xi +u i b) Yi  1 1 + eβ1+β2 Xi +u i c) ln Yi  β1 + β2 1 X i + ui d ) Yi  β1 + (0.75 − β1)e−β2(Xi −2) + ui e) Yi  β1 + β32 Xi + ui 03_Maq. Cap. 02_Gujarati.indd 48 12/19/09 11:01:45 PM Capítulo 2 Análisis de regresión con dos variables: algunas ideas básicas 51 de los puntos de dispersión. Mencione a priori la relación esperada entre ambas tasas y comente cuál es la teoría económica que sirve de fundamento. ¿Este diagrama de dis- persión apoya dicha teoría? b) Repita el inciso a) para las mujeres. c) Ahora grafi que las tasas de participación laboral de ambos sexos en función de los ingresos promedio por hora (en dólares de 1982). (Quizá convenga utilizar diagramas independientes.) Ahora, ¿qué concluye? ¿Cómo racionalizaría esa conclusión? d) ¿Se puede trazar la tasa de participación de la fuerza laboral en función de la tasa de desempleo y de los ingresos promedio por hora, de manera simultánea? Si no fuera así, ¿cómo expresaría verbalmente la relación entre esas tres variables? 2.15. En la tabla 2.8 se proporcionan los datos sobre gasto en comida y gasto total (en rupias) para una muestra de 55 familias rurales de India. (A principios de 2000, un dólar estado- unidense equivalía a casi 40 rupias indias.) a) Grafi que los datos con el eje vertical para el gasto en comida y el eje horizontal para el gasto total; trace una línea de regresión a través de los puntos de dispersión. b) ¿Qué conclusiones generales se pueden deducir de este ejemplo? Año TPFLCM1 TPFLCF2 TDCH3 TDCM4 IPH825 IPH6 1980 77.40000 51.50000 6.900000 7.400000 7.990000 6.840000 1981 77.00000 52.10000 7.400000 7.900000 7.880000 7.430000 1982 76.60000 52.60000 9.900000 9.400000 7.860000 7.860000 1983 76.40000 52.90000 9.900000 9.200000 7.950000 8.190000 1984 76.40000 53.60000 7.400000 7.600000 7.950000 8.480000 1985 76.30000 54.50000 7.000000 7.400000 7.910000 8.730000 1986 76.30000 55.30000 6.900000 7.100000 7.960000 8.920000 1987 76.20000 56.00000 6.200000 6.200000 7.860000 9.130000 1988 76.20000 56.60000 5.500000 5.600000 7.810000 9.430000 1989 76.40000 57.40000 5.200000 5.400000 7.750000 9.800000 1990 76.40000 57.50000 5.700000 5.500000 7.660000 10.190000 1991 75.80000 57.40000 7.200000 6.400000 7.580000 10.500000 1992 75.80000 57.80000 7.900000 7.000000 7.550000 10.760000 1993 75.40000 57.90000 7.200000 6.600000 7.520000 11.030000 1994 75.10000 58.80000 6.200000 6.000000 7.530000 11.320000 1995 75.00000 58.90000 5.600000 5.600000 7.530000 11.640000 1996 74.90000 59.30000 5.400000 5.400000 7.570000 12.030000 1997 75.00000 59.80000 4.900000 5.000000 7.680000 12.490000 1998 74.90000 59.80000 4.400000 4.600000 7.890000 13.000000 1999 74.70000 60.00000 4.100000 4.300000 8.000000 13.470000 2000 74.80000 59.90000 3.900000 4.100000 8.030000 14.000000 2001 74.40000 59.80000 4.800000 4.700000 8.110000 14.530000 2002 74.10000 59.60000 5.900000 5.600000 8.240000 14.950000 2003 73.50000 59.50000 6.300000 5.700000 8.270000 15.350000 2004 73.30000 59.20000 5.600000 5.400000 8.230000 15.670000 2005 73.30000 59.30000 5.100000 5.100000 8.170000 16.110000 2006 73.50000 59.40000 4.600000 4.600000 8.230000 16.730000 Las siguientes menciones se refi eren al documento original. 1 TPFLCM  Tasa de participación de la fuerza laboral civil masculina (%), tabla B-39, p. 277. 2 TPFLCF  Tasa de participación de la fuerza laboral civil femenina (%), tabla B-39, p. 277. 3 TDCH  Tasa de desempleo civil, hombres (%), tabla B-42, p. 280. 4 TDCM  Tasa de desempleo civil, mujeres (%), tabla B-42, p. 280. 5 IPH82  Ingresos promedio por hora (dólares de 1982), tabla B-47, p. 286. 6 IPH  Ingresos promedio por hora (dólares actuales), tabla B-47, p. 286. TABLA 2.7 Datos sobre la participación de la fuerza laboral de Estados Unidos en 1980- 2006 Fuente: Economic Report of the President, 2007. 03_Maq. Cap. 02_Gujarati.indd 51 12/19/09 11:01:46 PM 52 Parte Uno Modelos de regresión uniecuacionales c) Diga a priori si se esperaría que el gasto en comida se incrementara de manera lineal conforme el gasto total aumentase, independientemente del nivel de gasto. ¿Por qué? Puede emplear el gasto total como representante del ingreso total. 2.16. La tabla 2.9 presenta datos sobre el promedio de califi caciones del examen de aptitud académica SAT de los estudiantes que solicitaron admisión a licenciatura de 1972 a 2007. Estos datos representan las califi caciones en el examen de lectura crítica y matemáticas de hombres y mujeres. La categoría de redacción se introdujo en 2006. Por tanto, estos datos no se incluyen. a) Con el eje horizontal para los años y el vertical para las califi caciones del examen SAT, grafi que las califi caciones de lectura crítica y matemáticas de hombres y mujeres por separado. b) ¿Qué conclusiones generales se obtienen? c) Al conocer las califi caciones de lectura crítica de hombres y mujeres, ¿cómo haría para predecir las califi caciones de matemáticas? d ) Grafi que las califi caciones de matemáticas de las mujeres contra las califi caciones de matemáticas de los hombres. ¿Qué observa? Observación Gasto en comida Gasto total Observación Gasto en comida Gasto total 1 217.0000 382.0000 29 390.0000 655.0000 2 196.0000 388.0000 30 385.0000 662.0000 3 303.0000 391.0000 31 470.0000 663.0000 4 270.0000 415.0000 32 322.0000 677.0000 5 325.0000 456.0000 33 540.0000 680.0000 6 260.0000 460.0000 34 433.0000 690.0000 7 300.0000 472.0000 35 295.0000 695.0000 8 325.0000 478.0000 36 340.0000 695.0000 9 336.0000 494.0000 37 500.0000 695.0000 10 345.0000 516.0000 38 450.0000 720.0000 11 325.0000 525.0000 39 415.0000 721.0000 12 362.0000 554.0000 40 540.0000 730.0000 13 315.0000 575.0000 41 360.0000 731.0000 14 355.0000 579.0000 42 450.0000 733.0000 15 325.0000 585.0000 43 395.0000 745.0000 16 370.0000 586.0000 44 430.0000 751.0000 17 390.0000 590.0000 45 332.0000 752.0000 18 420.0000 608.0000 46 397.0000 752.0000 19 410.0000 610.0000 47 446.0000 769.0000 20 383.0000 616.0000 48 480.0000 773.0000 21 315.0000 618.0000 49 352.0000 773.0000 22 267.0000 623.0000 50 410.0000 775.0000 23 420.0000 627.0000 51 380.0000 785.0000 24 300.0000 630.0000 52 610.0000 788.0000 25 410.0000 635.0000 53 530.0000 790.0000 26 220.0000 640.0000 54 360.0000 795.0000 27 403.0000 648.0000 55 305.0000 801.0000 28 350.0000 650.0000 Fuente: Chandan Mukherjee, Howard White y Marc Wuyts, Econometrics and Data Analysis for Developing Countries, Routledge, Nueva York, 1998, p. 457. TABLA 2.8 Gasto total y en comida (rupias) 03_Maq. Cap. 02_Gujarati.indd 52 12/19/09 11:01:47 PM Capítulo 2 Análisis de regresión con dos variables: algunas ideas básicas 53 2.17. La tabla 2.10 presenta datos sobre las califi caciones del examen de razonamiento SAT cla- sifi cadas por ingreso para tres tipos de pruebas: lectura crítica, matemáticas y redacción. En el ejemplo 2.2 se presentó la fi gura 2.7, que contiene una gráfi ca de la media de las califi caciones de matemáticas en función del ingreso familiar promedio. a) Consulte la fi gura 2.7 y prepare una gráfi ca parecida que relacione el promedio de cali- fi caciones en lectura crítica con el ingreso familiar promedio. Compare sus resultados con los de la fi gura 2.7. TABLA 2.9 Promedio grupal total de las califi caciones del examen de razonamiento SAT: estudiantes que solicitaron ingreso a licenciatura, 1972-2007 Fuente: College Board, 2007. Lectura crítica Matemáticas Año Hombres Mujeres Total Hombres Mujeres Total 1972 531 529 530 527 489 509 1973 523 521 523 525 489 506 1974 524 520 521 524 488 505 1975 515 509 512 518 479 498 1976 511 508 509 520 475 497 1977 509 505 507 520 474 496 1978 511 503 507 517 474 494 1979 509 501 505 516 473 493 1980 506 498 502 515 473 492 1981 508 496 502 516 473 492 1982 509 499 504 516 473 493 1983 508 498 503 516 474 494 1984 511 498 504 518 478 497 1985 514 503 509 522 480 500 1986 515 504 509 523 479 500 1987 512 502 507 523 481 501 1988 512 499 505 521 483 501 1989 510 498 504 523 482 502 1990 505 496 500 521 483 501 1991 503 495 499 520 482 500 1992 504 496 500 521 484 501 1993 504 497 500 524 484 503 1994 501 497 499 523 487 504 1995 505 502 504 525 490 506 1996 507 503 505 527 492 508 1997 507 503 505 530 494 511 1998 509 502 505 531 496 512 1999 509 502 505 531 495 511 2000 507 504 505 533 498 514 2001 509 502 506 533 498 514 2002 507 502 504 534 500 516 2003 512 503 507 537 503 519 2004 512 504 508 537 501 518 2005 513 505 508 538 504 520 2006 505 502 503 536 502 518 2007 504 502 502 533 499 515 Nota: Para 1972-1986 se aplicó una fórmula a la media y a la desviación estándar originales para convertir la media a la escala re- centrada. Para 1987-1995, las califi caciones de cada estudiante se convirtieron a la escala recentrada y luego se volvió a calcular la media. De 1996 a 1999, casi todos los estudiantes recibieron califi caciones según la escala recentrada. Toda califi cación basada en la escala original se convirtió a la escala recentrada antes de calcular la media. De 2000 a 2007, todas las califi caciones se basaron en la escala recentrada. 03_Maq. Cap. 02_Gujarati.indd 53 12/19/09 11:01:48 PM 56 Parte Uno Modelos de regresión uniecuacionales que muestra que los ûi (los residuos) son simplemente las diferencias entre los valores observados y los estimados de Y. Ahora, dados n pares de observaciones de Y y X, nos interesa determinar la FRM de manera que quede lo más cerca posible de la Y observada. Con este fi n, se adopta el siguiente criterio: se- leccionar la FRM de modo que la suma de los residuos û i  (Yi − Ŷi ) sea la menor posible. Este criterio, aunque es intuitivamente atractivo, no es muy bueno, como se ve en el diagrama de dispersión hipotético de la fi gura 3.1. Si se adopta el criterio de reducir û i, la fi gura 3.1 muestra que los residuos û2 y û3, al igual que los residuos û1 y û4, reciben el mismo peso en la suma (û1 + û2 + û3 + û4), aunque los dos primeros están mucho más cerca la FRM que los dos últimos. En otras palabras, a todos los re- siduos se les da la misma importancia sin considerar cuán cerca o cuán dispersas estén las ob- servaciones individuales de la FRM. Debido a lo anterior, es muy posible que la suma algebraica de las ûi sea pequeña (aun cero) a pesar de que las ûi estén muy dispersas respecto de la FRM. Para verifi car lo anterior, û1, û2, û3 y û4 en la fi gura 3.1 asumirán respectivamente los valores de 10, −2, +2 y −10. La suma algebraica de estos residuos es cero a pesar de que û1 y û4 presentan una mayor dispersión alrededor de FRM que û2 y û3. Se evita este problema con el criterio de mínimos cuadrados, el cual establece que la FRM se determina en forma tal que û2i  (Yi − Ŷi )2  (Yi − β̂1 − β̂2 Xi )2 (3.1.2) sea lo más pequeña posible, donde û2i son los residuos elevados al cuadrado. Al elevar al cuadrado ûi, este método da más peso a los residuos como û1 y û4 en la fi gura 3.1 que a los residuos û2 y û3. Como ya anotamos, con el criterio de ∑ ûi mínima, la suma puede ser pequeña a pesar de que los ûi estén muy dispersos alrededor de la FRM. La situación anterior no se presenta con el pro- cedimiento de mínimos cuadrados, pues, entre mayor sea ûi (en valor absoluto), mayor será û2i . Otra justifi cación del método de mínimos cuadrados es que los estimadores obtenidos con este método tienen algunas propiedades estadísticas muy deseables, como veremos en breve. FIGURA 3.1 Criterio de mínimos cua- drados. FRM X1 Y X Yi = β β1 + 2Xi Yi X2 X3 X4 u1 u2 u3 u4 04_Maq. Cap. 03_Gujarati.indd 56 12/19/09 11:02:36 PM Capítulo 3 Modelo de regresión con dos variables: problema de estimación 57 A partir de la ecuación (3.1.2) es evidente que û2i  f (β̂1, β̂2) (3.1.3) es decir, la suma de los residuos elevados al cuadrado es algún tipo de función de los estimadores β̂1 y β̂2. Por cada conjunto dado de datos con diferentes valores para β̂1 y β̂2, se obtendrá como resultado û diferentes y, por consiguiente, valores diferentes de û2i . Para ver esto claramente, consideremos las cifras hipotéticas de Y y de X de las primeras dos columnas de la tabla 3.1. Rea- licemos ahora dos experimentos. En el experimento 1, sea β̂1  1.572 y β̂2  1.357 (por ahora no preocupa la forma como se obtuvieron estos valores; es decir, se trata sólo de conjeturas).1 Con estos valores β̂ y los valores de X dados en la columna (2) de la tabla 3.1, se calcula fácilmente la Yi estimada dada en la columna (3) de la tabla y denotada Ŷ1i (el subíndice 1 indica el primer experimento). Ahora realicemos otro experimento, pero esta vez con los valores de β̂1  3 y β̂2  1. Los valores estimados de Yi a partir de este experimento están dados por Ŷ2i en la columna (6) de la tabla 3.1. Como los valores de β̂ en los dos experimentos son diferentes, se obtienen también valores diferentes para los residuos estimados, como aparece en la tabla; û1i correspon- den a los del primer experimento y û2i corresponden a los del segundo. Los cuadrados de estos residuos están dados en las columnas (5) y (8). Como es lógico, según se esperaba de la ecuación (3.1.3), estas sumas de residuos al cuadrado son diferentes, pues se basan en conjuntos diferentes de valores de β̂ . Ahora, ¿qué conjuntos de β̂ se deben escoger? Como los valores de β̂ del primer experimento dan una û2i ( 12.214) inferior a la que se obtiene con los valores de β̂ del segundo experi- mento ( 14), se puede decir que las β̂ estimadas del primer experimento son los “mejores” va- lores. Pero, ¿cómo saberlo?: si se tuviera tiempo y paciencia infi nitos, se podrían realizar muchos más experimentos de este tipo, escogiendo cada vez diferentes conjuntos de β̂ y comparando las û2i resultantes, y luego escogiendo el conjunto de valores de β̂ que diera el menor valor posible de û2i , y suponiendo, desde luego, que se consideraron todos los valores posibles de β1 y β2. Pero como el tiempo y, sin duda, la paciencia suelen ser escasos, se necesitan considerar algunos atajos ante este proceso de ensayo y error. Por fortuna, el método de mínimos cuadrados ofrece un atajo. El principio o método de mínimos cuadrados elige β̂1 y β̂2 de manera que, para una muestra o conjunto de datos determinados, û2i es la más pequeña posible. En otras palabras, para una muestra dada, proporciona valores estimados únicos de β1 y β2 que producen el valor más pequeño o reducido posible de û2i . ¿Cómo es esto posible? Se trata de un ejercicio sencillo 1 Para los curiosos, estos valores se obtienen por el método de mínimos cuadrados, que explicaremos en breve. Véanse las ecuaciones (3.1.6) y (3.1.7). TABLA 3.1 Determinación experi- mental de la FRM Notas: Ŷ1i  1.572 + 1.357Xi (es decir, β̂1  1.572 y β̂2  1.357) Ŷ2i  3.0 + 1.0Xi (es decir, β̂1  3 y β̂2  1.0) û1i  (Yi − Ŷ1i) û2i  (Yi − Ŷ2i) Yi (1) Xt (2) Ŷ1i (3) û1i (4) û1i2 (5) Ŷ2i (6) û2i (7) û2i2 (8) 4 1 2.929 1.071 1.147 4 0 0 5 4 7.000 −2.000 4.000 7 −2 4 7 5 8.357 −1.357 1.841 8 −1 1 12 6 9.714 2.286 5.226 9 3 9 Suma: 28 16 0.0 12.214 0 14 04_Maq. Cap. 03_Gujarati.indd 57 12/19/09 11:02:37 PM 58 Parte Uno Modelos de regresión uniecuacionales de cálculo diferencial. Como se observa en el apéndice 3A, sección 3A.1, el proceso de diferen- ciación genera las siguientes ecuaciones para estimar β1 y β2: Yi  nβ̂1 + β̂2 Xi (3.1.4) Yi Xi  β̂1 Xi + β̂2 X2i (3.1.5) donde n es el tamaño de la muestra. Estas ecuaciones simultáneas se conocen como ecuaciones normales. Al resolver las ecuaciones normales al mismo tiempo, obtenemos β̂2  n Xi Yi − Xi Yi n X2i − Xi 2  (Xi − X̄)(Yi − Ȳ ) (Xi − X̄)2  xi yi x2i (3.1.6) donde X̄ y Ȳ son las medias muestrales de X y Y, y donde se defi nen xi  (Xi − X̄) y yi  (Yi − Ȳ ). De aquí en adelante adoptaremos la convención de utilizar letras minúsculas para representar desviaciones respecto de los valores medios. β̂1  X 2 i Yi − Xi Xi Yi n X2i − Xi 2  Ȳ − β̂2 X̄ (3.1.7) El último paso en (3.1.7) se obtiene directamente de la ecuación (3.1.4) mediante manipulación algebraica simple. Por cierto, advierta que, con identidades algebraicas simples, la fórmula (3.1.6) para estimar β2 se expresa también como β̂2  xi yi x2i  xi Yi X 2i − nX̄ 2  X i yi X 2i − nX̄ 2 (3.1.8)2 2 Nota 1: x2i  (Xi − X̄)2  X2i − 2 Xi X̄ + X̄2  X2i − 2X̄ Xi + X̄2, pues X̄ es una cons- tante. Además, aprecie que, como Xi  nX̄ y X̄2  nX̄2 porque X̄ es una constante, fi nalmente obtene- mos x2i  X2i − nX̄2. Nota 2: xi yi  xi (Yi − Ȳ )  xi Yi − Ȳ xi  xi Yi − Ȳ (Xi − X̄)  xi Yi , pues Ȳ es una cons- tante y la suma de las desviaciones de una variable de su valor medio [por ejemplo, (Xi − X̄) siempre es cero. De la misma manera, yi  (Yi − Ȳ )  0. 04_Maq. Cap. 03_Gujarati.indd 58 12/19/09 11:02:37 PM Capítulo 3 Modelo de regresión con dos variables: problema de estimación 61 La ecuación (3.1.13) se conoce como forma de desviación. Observe que el término del intercepto β̂1 ha desaparecido. Pero este término siempre podrá estimarse mediante (3.1.7), pues la línea de regresión muestral pasa a través de las medias muestrales de Y y X. Una ventaja de la forma de desviación es que ésta simplifi ca a menudo los cálculos de las fórmulas. Observe de paso que, en la forma de desviación, la FRM se escribe como ŷi  β̂2xi (3.1.14) mientras que en las unidades de medición originales, dicha expresión era Ŷi  β̂1 + β̂2 Xi, como en (2.6.1). 4. Los residuos ûi no están correlacionados con el valor pronosticado de Yi, lo cual se verifi ca de la siguiente manera: con la forma de desviación se escribe ŷi û i  β̂2 xi û i  β̂2 xi (yi − β̂2xi )  β̂2 xi yi − β̂22 x2i  β̂22 x2i − β̂22 x2i  0 (3.1.15) donde se aprovecha que β̂2  xi yi/ x2i . 5. Los residuos ûi no están correlacionados con Xi; es decir, û i Xi  0. Esto se desprende de la ecuación (2) en el apéndice 3A, sección 3A.1. 3.2 Modelo clásico de regresión lineal: fundamentos del método de mínimos cuadrados Si deseamos estimar sólo β1 y β2, basta el método MCO presentado de la sección anterior. Pero recuerde del capítulo 2 que en el análisis de regresión el objetivo es no sólo obtener β̂1 y β̂2, sino también inferir los verdaderos β1 y β2; por ejemplo, si quisiéramos saber cuán cerca están β̂1 y β̂2 de sus contrapartes en la población, o cuán cerca está Ŷi de la verdadera E(Y | Xi). Para esto no sólo se debe especifi car la forma funcional del modelo, como aparece en (2.4.2), sino también hacer ciertos supuestos sobre la forma como se genera Yi. Para ver por qué es necesario este re- quisito, observemos la FRP: Yi  β1 + β2Xi + ui. Esta expresión muestra que Yi depende de Xi y de ui. Por consiguiente, mientras no se especifi que la forma como se crean o se generan Xi y ui, no hay manera de hacer alguna inferencia estadística sobre Yi, ni tampoco, como veremos, sobre β1 y β2. Así, los supuestos sobre la(s) variable(s) Xi y el término de error son relevantes para lograr una interpretación válida de los valores estimados de la regresión. El modelo de Gauss, modelo clásico o estándar de regresión lineal (MCRL), es el cimiento de la mayor parte de la teoría econométrica y plantea siete supuestos.7 Primero los estudiaremos en el contexto del modelo de regresión con dos variables y, en el capítulo 7, se extenderán a los mo- delos de regresión múltiple, es decir, modelos en los cuales hay más de una regresora. 7 Es un modelo clásico en el sentido de que Gauss lo empleó por primera vez en 1821 y desde entonces sirve como norma o patrón con el cual comparar los modelos de regresión que no satisfacen los supuestos gaussianos. 04_Maq. Cap. 03_Gujarati.indd 61 12/19/09 11:02:39 PM 62 Parte Uno Modelos de regresión uniecuacionales Ya vimos el modelo (2.4.2) en el capítulo 2. Como los modelos de regresión lineal en los pará- metros son el punto de partida del MCRL, mantendremos este supuesto a lo largo del libro.8 Re- cuerde que la regresada Y y la regresora X pueden no ser lineales, como vimos en el capítulo 2. 8 Sin embargo, se presenta un análisis breve de los modelos de regresión no lineales en los parámetros, en el capítulo 14, en benefi cio de los estudiantes más avanzados. SUPUESTO 1 Modelo de regresión lineal: El modelo de regresión es lineal en los parámetros, aunque puede o no ser lineal en las variables. Es decir, el modelo de regresión como se muestra en la ecuación (2.4.2) Yi  β1 + β2 Xi + ui (2.4.2) Como analizaremos en el capítulo 7, este modelo puede extenderse para incluir más variables explicativas. Esto puede explicarse en términos del ejemplo de la tabla 2.1 (página 35). Consideremos las diversas poblaciones de Y correspondientes a los niveles de ingreso en esa tabla. Al mantener el valor del ingreso X fi jo al nivel de 80 dólares, se selecciona al azar una familia y se observa su consumo semanal Y, 60 dólares. Mantengamos X en 80 y seleccionamos aleatoriamente a otra familia, y observamos su valor Y de 75 dólares. En cada una de estas selecciones (es decir, mues- treo repetido), el valor de X está fi jo en 80. Se puede repetir este proceso para todos los valores de X de la tabla 2.1. De hecho, los datos muestrales de las tablas 2.4 y 2.5 se seleccionaron así. ¿Por qué suponemos que los valores de X son no estocásticos? En virtud de que en la mayoría de las ciencias sociales los datos suelen recopilarse de manera aleatoria para las variables Y y X, parece natural suponer lo contrario: que la variable X, lo mismo que la variable Y, es aleatoria o estocástica. Sin embargo, al principio suponemos que las variable(s) X son no estocásticas por las siguientes razones: Primera, al principio, esto sirve para simplifi car el análisis e introducir poco a poco al lector a las complejidades del análisis de regresión. Segunda, en situaciones experimentales tal vez no sea irreal suponer que los valores de X son fi jos. Por ejemplo, un agricultor puede dividir su tierra en varias parcelas y aplicarles diferentes cantidades de fertilizante para ver el efecto en el rendimiento del cultivo. Asimismo, una tienda de departamentos puede ofrecer diferentes tasas de descuento en un producto para ver su efecto en los consumidores. En ocasiones conviene fi jar los valores de X para un propósito específi co. Supongamos que deseamos obtener el in- greso promedio semanal de los trabajadores (Y ) con varios niveles de escolaridad (X ), como los datos presentados en la tabla 2.6. En este caso, la variable X se puede considerar fi ja o no alea- toria. Tercera, como se muestra en el capítulo 13, aunque las variables X sean estocásticas, los resultados estadísticos de la regresión lineal basada en el caso de las regresoras fi jas también SUPUESTO 2 Valores fi jos de X, o valores de X independientes del término de error: Los valores que toma la regresora X pueden considerarse fi jos en muestras repetidas (el caso de la regresora fi ja), o haber sido muestreados junto con la variable dependiente Y (el caso de la regresora esto- cástica). En el segundo caso se supone que la(s) variable(s) X y el término de error son indepen- dientes, esto es, cov(Xi, ui)  0. 04_Maq. Cap. 03_Gujarati.indd 62 12/19/09 11:02:40 PM Capítulo 3 Modelo de regresión con dos variables: problema de estimación 63 son válidos cuando las variables X son aleatorias, en tanto se cumplan algunas condiciones; una de ellas es que la regresora X y el término de error ui sean independientes. Como señala James Davidson: “…este modelo [es decir, el de la regresora estocástica] ‘imita’ al modelo de regresora fi ja, y […] muchas propiedades estadísticas de los mínimos cuadrados del modelo de regreso- ra fi ja siguen siendo válidos”.9 Por todas estas razones, primero analizaremos con detalle el MCRL (regresora fi ja). Sin em- bargo, en el capítulo 13 veremos el caso de las regresoras estocásticas en cierto detalle y seña- laremos las ocasiones en que es necesario considerar los modelos de regresora estocástica. Por cierto, anote que si la variable X es estocástica, el modelo resultante se llama modelo neoclásico de regresión lineal (MNRL),10 en contraste con el MCRL, donde las X se tratan como variables fi jas o no aleatorias. Para efectos de análisis, denominaremos al primero modelo de regresora estocástica, y al segundo, modelo de regresora fi ja. 9 James Davidson, Econometric Theory, Blackwell, Reino Unido, 2000, p. 10. 10 Término acuñado por Arthur S. Goldberger, A Course in Econometrics, Harvard University Press, Cambridge, Massachusetts, 1991, p. 264. El supuesto 3 establece que el valor de la media de ui, que depende de las Xi dadas, es cero. Geométricamente, este supuesto se representa mediante una gráfi ca, como en la fi gura 3.3, que muestra algunos valores de la variable X y las poblaciones Y asociadas a cada uno de ellos. Puede X1 X2 X3 X4 X Y Media Yi = β β1 + 2XiFRP: +ui –ui FIGURA 3.3 Distribución condicional de las perturbaciones ui. SUPUESTO 3 El valor medio de la perturbación ui es igual a cero: Dado el valor de Xi, la media o el valor esperado del término de perturbación aleatoria ui es cero. Simbólicamente, tenemos que E(ui |Xi)  0 (3.2.1) O, si X no es estocástica, E(ui )  0 04_Maq. Cap. 03_Gujarati.indd 63 12/19/09 11:02:40 PM 66 Parte Uno Modelos de regresión uniecuacionales Para diferenciar claramente las dos situaciones, sea Y el gasto de consumo semanal y X el in- greso semanal. Las fi guras 3.4 y 3.5 muestran que, a medida que el ingreso aumenta, el consumo promedio también aumenta. Pero en la fi gura 3.4 la varianza del consumo permanece igual para todos los niveles de ingreso, mientras que en la fi gura 3.5 aumenta con incrementos en el ingreso. En otras palabras, en promedio, las familias más ricas consumen más que las familias más po- bres, pero hay también mayor variabilidad en el consumo que en las primeras. Para entender el fundamento de este supuesto, observe la fi gura 3.5. Como lo muestra esta fi gura, var(u|X1) < var(u|X2), . . . , < var(u|Xi). Por consiguiente, lo más probable es que las ob- servaciones de Y que provienen de la población con X  X1 estarían más cercanas a la FRP que las que vienen de poblaciones correspondientes a X  X2, X  X3, y así sucesivamente. En resu- men, no todos los valores de Y que corresponden a las diversas X serán igualmente confi ables, si juzgamos la confi abilidad por la cercanía o el alejamiento con que se distribuyan los valores de Y alrededor de sus medias, es decir, los puntos sobre la FRP. Si, de hecho, éste es el caso, ¿no sería preferirible obtener muestras de las poblaciones Y más cercanas a su media que de las muy dispersas? Sin embargo, actuar así restringiría la variación que se obtiene mediante los valores de X. Al invocar el supuesto 4, se sostiene que en esta etapa todos los valores de Y correspondientes a diversos valores de X revisten la misma importancia. En el capítulo 11 veremos lo que sucede cuando se presenta heteroscedasticidad. Note que el supuesto 4 implica que las varianzas condicionales de Yi también son homosce- dásticas. Es decir, var (Yi |Xi)  σ2 (3.2.4) Por supuesto, la varianza incondicional de Y es σ2Y . Más adelante veremos la importancia de distinguir entre varianza condicional e incondicional de Y (en el apéndice A hay detalles de va- rianzas condicionales e incondicionales). En palabras, (3.2.5) postula que las perturbaciones ui y uj no están correlacionadas. Técnica- mente, éste es el supuesto de no correlación serial, o no autocorrelación. Esto signifi ca que, dado Xi, las desviaciones de dos valores cualesquiera de Y de sus valores promedio no muestran patrones como los de la fi gura 3.6a) y b). En la fi gura 3.6a) se ve que las u están correlacionadas positivamente, pues a una u positiva sigue una u positiva, o a una u negativa sigue una u negativa. En la fi gura 3.6b), las u están correlacionadas negativamente, pues a una u positiva sigue una u negativa y viceversa. Si las perturbaciones (desviaciones) siguen patrones sistemáticos, como los que de las fi gu- ras 3.6a) y b), hay correlación serial o autocorrelación, y lo que requiere el supuesto 5 es que dichas correlaciones estén ausentes. La fi gura 3.6c) muestra que no hay un patrón sistemático para las u, lo que indica cero correlación. SUPUESTO 5 No hay autocorrelación entre las perturbaciones: Dados dos valores cualesquiera de X, Xi y Xj (i  j ), la correlación entre dos ui y uj cualesquiera (i  j ) es cero. En pocas palabras, estas observaciones se muestrean de manera independiente. Simbólicamente, cov(ui, uj |Xi, Xj)  0 cov(ui, uj)  0, si X no es estocástica (3.2.5) donde i y j son dos observaciones diferentes y cov signifi ca covarianza. 04_Maq. Cap. 03_Gujarati.indd 66 12/19/09 11:02:42 PM Capítulo 3 Modelo de regresión con dos variables: problema de estimación 67 Explicaremos con amplitud la importancia de este supuesto en el capítulo 12. No obstante, mediante la intuición, podemos analizar este supuesto de la siguiente forma. Supongamos que en la FRP (Yt  β1 + β2Xt + ut) ut y ut−1 están correlacionadas positivamente. Entonces Yt depende no sólo de Xt sino también de ut−1, pues ut−1 determina en cierta medida a ut. En esta etapa del desarrollo de la materia, al invocar el supuesto 5, se afi rma que se considerará el efecto sistemá- tico, si existe, de Xt sobre Yt, sin preocuparse por las demás infl uencias que podrían actuar sobre Y como resultado de las posibles correlaciones entre las u. Pero, como se anota en el capítulo 12, veremos cómo incorporar en el análisis las correlaciones entre las perturbaciones, y sus conse- cuencias. No obstante, debe añadirse aquí que la justifi cación de este supuesto depende del tipo de datos para el análisis. Si los datos son transversales y se obtienen como muestra aleatoria de la población pertinente, a menudo es posible justifi car este supuesto. Sin embargo, si los datos corresponden a una serie de tiempo, es difícil mantener el supuesto de independencia, porque las observaciones sucesivas de una serie de tiempo, como el PIB, están muy correlacionadas. Ana- lizaremos esta situación cuando estudiemos la econometría de series de tiempo, más adelante en este texto. +ui –ui +ui –ui +ui –ui +ui –ui +ui –ui +ui –ui a) b) c) SUPUESTO 6 El número de observaciones n debe ser mayor que el número de parámetros por estimar: Sucesivamente, el número de observaciones n debe ser mayor que el número de variables explicativas. FIGURA 3.6 Patrones de correlación entre las perturbaciones: a) correlación serial posi- tiva; b) correlación serial negativa; c) correlación cero. 04_Maq. Cap. 03_Gujarati.indd 67 12/19/09 11:02:42 PM 68 Parte Uno Modelos de regresión uniecuacionales Este supuesto no es tan ingenuo como parece. En el ejemplo hipotético de la tabla 3.1, imagi- nemos que sólo había el primer par de observaciones sobre Y y X (4 y 1). De esta sola observación no hay forma de estimar los dos parámetros desconocidos, β1 y β2. Se necesitan por lo menos dos pares de observaciones para estimar dichos parámetros. En un capítulo posterior veremos la importancia crítica de este supuesto. 13 Milton Friedman, Essays in Positive Economics, University of Chicago Press, Chicago, 1953, p. 14. SUPUESTO 7 La naturaleza de las variables X: No todos los valores X en una muestra determinada deben ser iguales. Técnicamente, var(X) debe ser un número positivo. Además, no puede haber valores atípicos de la variable X, es decir, valores muy grandes en relación con el resto de las observaciones. El supuesto de variabilidad en los valores de X tampoco es tan ingenuo como parece. Veamos la ecuación (3.1.6). Si todos los valores de X son idénticos, Xi  X̄ (¿por qué?) y el denominador de esa ecuación será cero, lo que imposibilita la estimación de β2 y, por consiguiente, de β1. Por intuición, pronto advertimos la razón por la que este supuesto es importante. Observe el ejemplo del consumo familiar del capítulo 2. Si hay muy poca variación en el ingreso familiar, no será posible explicar buena parte de la variación en el consumo. El lector debe recordar que la variación tanto en Y como en X es esencial para utilizar el análisis de regresión como herramienta de investigación. En pocas palabras, ¡las variables deben variar! El requisito de que no existan valores atípicos de X es para evitar que los resultados de la regresión estén dominados por tales valores atípicos. Si hay algunos valores de X que, por ejem- plo, sean 20 veces el promedio de los valores de X, las líneas de regresión estimadas con o sin dichas observaciones serían muy diferentes. Con mucha frecuencia, estos valores atípicos son el resultado de errores humanos de aritmética o de mezclar muestras de diferentes poblaciones. En el capítulo 13 estudiaremos a fondo este tema. El análisis de los supuestos en los que se basa el modelo clásico de regresión lineal ha fi nali- zado. Es importante señalar que todos estos supuestos sólo se refi eren a la FRP y no a la FRM. Sin embargo, es interesante observar que el método de mínimos cuadrados que tratamos antes tiene algunas propiedades semejantes a los supuestos que acabamos de plantear sobre la FRP. Por ejemplo, la conclusión de que ûi  0 y, por tanto, ¯̂u  0, es semejante al supuesto de que E(ui |Xi)  0. Asimismo, la conclusión de que ûi Xi  0 es similar al supuesto de que cov(ui, Xi)  0. Es reconfortante observar que el método de mínimos cuadrados trata de “dupli- car” algunos de los supuestos impuestos a la FRP. Desde luego, la FRM no duplica todos los supuestos del MCRL. Como mostraremos más adelante, aunque cov(ui, uj)  0(i  j) por el supuesto, no es válido que la covarianza muestral cov(ûi, ûj)  0(i  j). De hecho, habremos de demostrar que los residuos no sólo están autoco- rrelacionados, sino que también son heteroscedásticos (véase el capítulo 12). Advertencia sobre estos supuestos La pregunta del millón de dólares es: ¿son realistas todos estos supuestos? La “realidad de los supuestos” se cuestiona desde hace muchos años en la fi losofía de las ciencias. Algunos ar- gumentan que no importa si los supuestos son realistas, sino las predicciones basadas en esos supuestos. Entre quienes apoyan la “tesis de la irrelevancia de los supuestos” sobresale Milton Friedman. Para él, la irrealidad de los supuestos es una ventaja positiva: “para que una hipótesis sea importante... debe ser descriptivamente falsa en sus supuestos”.13 Es posible coincidir o no completamente con este punto de vista, pero recuerde que en cual- quier estudio científi co se plantean ciertos supuestos porque facilitan el desarrollo de la materia en pasos graduales, no porque sean necesariamente realistas en el sentido de que reproduzcan la 04_Maq. Cap. 03_Gujarati.indd 68 12/19/09 11:02:43 PM Capítulo 3 Modelo de regresión con dos variables: problema de estimación 71 Observe las siguientes características de las varianzas (y por consiguiente, de los errores es- tándar) de β̂1 y β̂2. 1. La varianza de β̂2 es directamente proporcional a σ2 pero inversamente proporcional a x2i . Es decir, dada σ 2, entre más grande sea la variación en los valores X, menor será la va- rianza de β̂2 y, por tanto, mayor será la precisión con la cual estimar β2. En resumen, dada σ2 si hay una variación sustancial en los valores de X, β2 se mide en forma más precisa que cuando las Xi no varían sustancialmente. También, dado x2i , entre mayor sea la varianza de σ 2, mayor será la de β2. Advierta que a medida que aumenta el tamaño n de la muestra, lo hace también el número de términos en la suma, x2i . A medida que aumenta n, también es mayor la precisión para estimar β2. (¿Por qué?) 2. La varianza de β̂1 es directamente proporcional a σ2 y a X 2i , pero inversamente propor- cional a x2i y al tamaño n de la muestra. 3. Como β̂1 y β̂2 son estimadores, no sólo variarán de una muestra a otra, sino también, en una muestra dada, es probable que dependan entre sí; esta dependencia se mide por la covarianza entre ellos. En el apéndice 3A, sección 3A.4, se muestra que: cov (β̂1, β̂2)  −X̄ var (β̂2)  −X̄ σ 2 x2i (3.3.9) Como var(β̂2) es siempre positiva, al igual que la varianza de cualquier variable, la naturaleza de la covarianza entre β̂1 y β̂2 depende del signo de X̄ . Si X̄ es positiva, entonces, como indica la fórmula, la covarianza será negativa. Así, si el coefi ciente de la pendiente β2 está sobrestima- do (es decir, la pendiente es muy pronunciada), el coefi ciente del intercepto β1 estará subesti- mado (es decir, el intercepto será muy pequeño). Más adelante (sobre todo en el capítulo 10, sobre multicolinealidad), veremos la utilidad de estudiar las covarianzas entre los coefi cientes estimados de regresión. ¿Cómo permiten las varianzas y los errores estándar de los coefi cientes estimados de regre- sión evaluar la confi abilidad de estos valores estimados? Éste es un problema de la inferencia estadística, y lo trataremos en los capítulos 4 y 5. 3.4 Propiedades de los estimadores de mínimos cuadrados: teorema de Gauss-Markov17 Como ya mencionamos, dados los supuestos del modelo clásico de regresión lineal, las estima- ciones de mínimos cuadrados poseen algunas propiedades ideales u óptimas, las cuales están contenidas en el famoso teorema de Gauss-Markov. Para entender este teorema necesitamos con- siderar la propiedad del mejor estimador lineal insesgado.18 Como se explica en el apéndice A, se dice que un estimador, por ejemplo, el estimador de MCO β̂2, es el mejor estimador lineal insesgado (MELI) de β2 si se cumple lo siguiente: 1. Es lineal, es decir, función lineal de una variable aleatoria, como la variable dependiente Y en el modelo de regresión. 17 Aunque se conoce teorema de Gauss-Markov, el método de Gauss de mínimos cuadrados antecede (1821) al de Markov de varianza mínima (1900). 18 Consulte el apéndice A, donde se explica la importancia de los estimadores lineales y se presenta un análisis general sobre las propiedades deseables de los estimadores estadísticos. 04_Maq. Cap. 03_Gujarati.indd 71 12/19/09 11:02:45 PM 72 Parte Uno Modelos de regresión uniecuacionales 2. Es insesgado, es decir, su valor promedio o esperado, E(β̂2), es igual al valor verdadero, β2. 3. Tiene varianza mínima dentro de la clase de todos los estimadores lineales insesgados; un estimador insesgado con varianza mínima se conoce como estimador efi ciente. En el contexto de regresión puede probarse que los estimadores de MCO son MELI. Ésta es la clave del famoso teorema de Gauss-Markov, el cual se puede enunciar de la siguiente forma: 19 Por ejemplo, puede demostrarse que cualquier combinación lineal de las β, (β1 – 2β2), puede estimarse por (β̂1 – 2β̂2), y este estimador es MELI. Para más detalles, véase Henri Theil, Introduction to Econometrics, Prentice-Hall, Englewood Cliffs, Nueva Jersey, 1978, pp. 401-402. Una observación sobre un asunto técnico del teorema de Gauss-Markov: sólo establece la condición sufi ciente (pero no la necesaria) para que los MCO sean efi cientes. El autor está en deuda con Michael McAleer, de la Universidad de Western Australia, por hacerle notar este punto. β2, β2 β2 β2 β2 β2 β2 c) Distribución muestral de b2y bβ2 β2 b) Distribución muestral de 2β E(β2) = β2 a) Distribución muestral de 2β E(β2) = β2 * * * * * * FIGURA 3.7 Distribución muestral del estimador de MCO β̂2 y el estimador alterno β∗2. Teorema de Gauss-Markov Dados los supuestos del modelo clásico de regresión lineal, los estimadores de mínimos cua- drados, dentro de la clase de estimadores lineales insesgados, tienen varianza mínima, es decir, son MELI. La prueba de este teorema se presenta en el apéndice 3A, sección 3A.6. Conforme avance- mos, percibirá con mayor claridad la trascendencia del teorema de Gauss-Markov. Es sufi ciente anotar aquí que el teorema tiene importancia teórica y práctica a la vez.19 Lo que todo esto signifi ca se comprende con ayuda de la fi gura 3.7. En la fi gura 3.7a se presenta la distribución muestral del estimador de MCO β̂2, es decir, la distribución de los valores asumidos por β̂2 en experimentos repetidos de muestreo (véase la 04_Maq. Cap. 03_Gujarati.indd 72 12/19/09 11:02:45 PM Capítulo 3 Modelo de regresión con dos variables: problema de estimación 73 tabla 3.1). Por conveniencia, supusimos que β̂2 está distribuido simétricamente (en el capítulo 4 abundaremos al respecto). Como indica la fi gura, la media de los valores β̂2, E(β̂2), es igual al verdadero β2. En esta situación se dice que β̂2 es un estimador insesgado de β2. En la fi gura 3.7b) se aprecia la distribución muestral de β∗2, estimador alterno de β2 obtenido con otro método (es decir, diferente al de MCO). Por conveniencia, suponga que β∗2, al igual que β̂2, es insesgado, es decir, que su valor promedio o esperado es igual a β2. Supongamos además que β̂2 y β∗2 son estimadores lineales, es decir, funciones lineales de Y. ¿Cuál estimador escogería, β̂2 o β∗2? Para responder, sobreponga las dos fi guras, como en la fi gura 3.7c). Es obvio que si bien β̂2 y β∗2 son insesgados, la distribución de β ∗ 2 está más difusa o dispersa alrededor del valor de la media que la distribución de β̂2. En otras palabras, la varianza de β∗2 es mayor que la varianza de β̂2. Ahora, dados dos estimadores a la vez lineales e insesgados, sería preferible el estimador con la menor varianza, porque es probable que esté más cercano a β2, que el estimador alterno. En resumen, se escogería el estimador MELI. El teorema de Gauss-Markov es notable, pues no hace ninguna suposición respecto de la distribución de probabilidad de la variable aleatoria ui, y por consiguiente, tampoco respecto de Yi (en el siguiente capítulo abordaremos esta cuestión). En la medida en que se satisfagan los supuestos del MCRL, el teorema será válido. Como resultado, no se necesita buscar otro esti- mador insesgado lineal, pues no habrá otro estimador cuya varianza sea más pequeña que la del estimador de MCO. Por supuesto, si no se cumple una o más de tales suposiciones, el teorema ya no es válido. Por ejemplo, si consideramos los modelos de regresión no lineales en los paráme- tros (que analizaremos en el capítulo 14), quizá se obtendrían estimadores que funcionen mejor que los estimadores de MCO. Asimismo, como veremos en el capítulo sobre heteroscedasticidad, si no se cumple el supuesto sobre la varianza homoscedástica, los estimadores de MCO (aunque sean insesgados y consistentes) ya no son los estimadores de varianza mínima, incluso dentro de la clase de los estimadores lineales. Las propiedades estadísticas que acabamos de exponer se conocen como propiedades de muestras fi nitas: estas propiedades se mantienen sin importar el tamaño de la muestra en que se basen los estimadores. Más adelante tendremos ocasión de considerar las propiedades asintóti- cas, es decir, propiedades válidas sólo si el tamaño de la muestra es muy grande (técnicamente hablando, infi nito). En el apéndice A se presenta un análisis general de las propiedades de los estimadores con muestras fi nitas y muestras grandes. 3.5 Coefi ciente de determinación r2: una medida de la “bondad del ajuste” Hasta el momento, nuestro análisis se centró en el problema de estimar los coefi cientes de re- gresión, sus errores estándar y algunas de sus propiedades. Veremos ahora la bondad del ajuste de la línea de regresión a un conjunto de datos; es decir, veremos cuán “bien” se ajusta la línea de regresión a los datos. De la fi gura 3.1, es claro que si todas las observaciones cayesen en la línea de regresión, obtendríamos un ajuste “perfecto”, pero rara vez se presenta este caso. Por lo gene- ral hay algunas ûi positivas y algunas ûi negativas. Se tiene la esperanza de que estos residuos al- rededor de la línea de regresión sean lo más pequeños posibles. El coefi ciente de determinación r 2 (caso de dos variables) o R2 (regresión múltiple) es una medida comprendida que dice cuán bien se ajusta la línea de regresión muestral a los datos. Antes de mostrar cómo calcular r 2, consideremos una explicación heurística de r 2 en términos de una herramienta gráfi ca, conocida como el diagrama de Venn o de Ballentine, que aparece en la fi gura 3.8.20 20 Véase Peter Kennedy, “Ballentine: A Graphical Aid for Econometrics”, Australian Economics Papers, vol. 20, 1981, pp. 414-416. El nombre Ballentine se deriva del emblema de la conocida cerveza Ballantine con sus círculos. 04_Maq. Cap. 03_Gujarati.indd 73 12/19/09 11:02:46 PM
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved