Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

estadistics descriptiva y probabilitat, Apuntes de Probabilidad

Asignatura: Probabilitat i Processos Estocàstics, Profesor: paco montes, Carrera: Matemàtiques, Universidad: UV

Tipo: Apuntes

Antes del 2010

Subido el 12/06/2007

xequebo2
xequebo2 🇪🇸

4

(211)

406 documentos

Vista previa parcial del texto

¡Descarga estadistics descriptiva y probabilitat y más Apuntes en PDF de Probabilidad solo en Docsity! Estad́ıstica Descriptiva y Probabilidad Angel Corberán Francisco Montes Departament d’Estad́ıstica i Investigació Operativa Universitat de València 3 Caṕıtulo 1 Estad́ıstica Descriptiva 1.1. Descripción de datos La Tabla 1 recoge, parcialmente, el resultado de una encuesta a la que fueron some- tidas 250 personas con edad igual o superior a 15 años, tabla que aparece completa en el Anexo. Las columnas de las respuestas están encabezadas por nombres, abreviados en algunos casos, que hacen referencia a la pregunta formulada. Su significado y el de la codificación correspondiente es el siguiente: La primera columna indica el número de caso. Sexo indica el sexo del entrevistado, v = varón, m = mujer. ECivil indica el estado civil, 1 = casado/a, 2 = soltero/a, 3 = viudo/a, 4 = div/sep. Edad edad expresada en años. NivEst indica el nivel de estudios, 1 = analfabeto/a, 2 = sin estudios, 3 = est. primarios, 4 = BUP o similares, 5 = est. universitarios. Peso corresponde al peso expresado en kilogramos. Altura corresponde a la altura expresada en cent́ımetros. 35horas indica la opinión sobre la semana laboral de 35 horas 1 = a favor, 2 = en contra, 3 =ns/nc. CAlcohol indica el consumo medio diario de alcohol medido en el equivalente a vasos de vino de 200cc. La escala va de 1 a 5, indicando esta última cifra 5 o más vasos diarios. 4 Caṕıtulo 1. Estad́ıstica Descriptiva Caso Sexo ECivil Edad NivEst Peso Altura 35Horas CAlcohol 01 v 1 63 3 80,30 190 1 3 02 v 1 79 4 56,16 155 1 2 03 m 1 52 3 64,37 151 1 2 04 m 3 41 3 63,02 146 2 2 05 v 2 18 4 75,50 164 1 3 06 m 2 68 3 35,00 136 2 2 07 v 2 35 2 62,79 145 1 2 08 m 2 46 2 78,92 190 1 3 09 m 2 20 3 58,27 171 1 0 10 v 1 61 4 52,17 159 2 2 11 m 1 69 3 70,82 169 2 2 12 m 2 50 3 41,10 167 1 3 13 m 1 67 2 49,46 171 3 1 Tabla 1.- Reproducción parcial de las 250 observaciones del Anexo Describir e interpretar los datos que aparecen en una tabla como las anteriores pre- senta dificultades incluso para las personas con conocimientos de Estad́ıstica y, desde luego, es prácticamente imposible para lo que podŕıamos denominar gran público. No por casualidad cuando se ofrece información de este tipo aparece resumida y trans- formada para hacerla fácilmente comprensible, resumen que pretende llamar nuestra atención sobre los aspectos más relevantes de los datos y que para conseguirlo utiliza las herramientas propias de la Estad́ıstica Descriptiva o Descripción de datos, a saber: distribuciones de frecuencia, gráficos, medidas de posición o centrales, y medidas de dispersión. Comenzaremos introduciendo el lenguaje y las definiciones que nos permitan des- cribir un conjunto de datos. 1.1.1. Muestra y variables Como ya dijimos, la Tabla 1 recoge, parcialmente, el resultado de una encuesta a la que fueron sometidas 250 personas con edad igual o superior a 15 años. Estos datos no representan más que a una parte, que denominamos muestra, del total de individuos con edad igual o superior a 15 años, total al que denominamos población. Una mues- tra está constituida por las observaciones muestrales a cuyo número denominaremos tamaño muestral. En cada observación hay una o varias variables observadas que en el caso de nuestra tabla son: sexo, estado civil, edad, nivel de educación, peso, altura, opinión sobre la semana laboral de 35 horas y consumo medio diario de alcohol. 1.1 Descripción de datos 5 Las variables, lógicamente, centran prioritariamente nuestra atención, razón por la cual conviene establecer una clasificación de las mismas: variables cualitativas: son variables que describen categoŕıas, razón por la cual se las denomina también categóricas. Cuando las categoŕıas admiten algún tipo de or- denación se las denomina ordinales (por ejemplo, la variable nivel de educación) y no ordinales en otro caso (por ejemplo, las variables sexo y estado civil) variables cuantitativas: son variables que expresan valores numéricos, discretas o continuas según la naturaleza de la observación. El consumo de alcohol es un ejemplo de las primeras y peso, altura son ejemplos de las segundas. La frontera entre variables discretas y continuas es, en ocasiones, difusa, debido a la acción discretizadora que todo proceso de medida comporta. En efecto, si consideramos la variable edad nadie pon- drá en duda su carácter continuo pues mide el tiempo transcurrido desde el nacimiento de una persona, pero, en general, las fracciones de año son irrelevantes, razón por la cual viene medida en años y aparece expresada mediante valores enteros positivos. tipos de variables    cualitativas    ordinales no ordinales cuantitativas    discretas continuas 1.1.2. Distribuciones de frecuencias Una primera descripción resumida de los datos puede llevarse a cabo mediante la distribución de frecuencias de cada una de las variables. Como luego pondremos de manifiesto, el tipo de variables es determinante a la hora de analizar los datos con esta herramienta. Para variables categóricas y discretas con un rango pequeño de valores utilizaremos distribuciones de frecuencias no agrupadas de las que nos ocupamos a con- tinuación: Frecuencias no agrupadas Se trata simplemente de obtener y representar gráfi- camente el número de ocurrencias (frecuencia absoluta) de las distintas categorias o valores de la variable. En ocasiones es conveniente utilizar la frecuencia relativa, defi- nida como: frecuencia relativa = frecuencia absoluta n , donde n es el tamaño muestral. La frecuencia relativa se suele expresar también en porcentaje. Obtengamos la distribución de frecuencias asociada a alguna de las variables de la tabla. 8 Caṕıtulo 1. Estad́ıstica Descriptiva ¿Qué información de interés nos proporciona el anterior histograma? Aunque más tarde estudiaremos con mayor detalle este problema, adelantemos ya algunos aspectos relevantes de la forma de la distribución de frecuencias. El pico, que representa la mayor frecuencia es la moda, valor alrededor del cual se distribuyen los valores que toma la variable, cuyas frecuencias van disminuyendo a derecha e izquierda para formar en los extremos las llamadas colas de la distribución. En nuestro caso, la cola izquierda es más pesada que la derecha, indicando con ello que hay mayor presencia de edades inferiores que de superiores y dando lugar a una distribución sin simetŕıa y sesgada a la izquierda. Número de clases a establecer. La pregunta que surge al observar la distribu- ción de frecuencias anterior es ¿por qué 8 clases y no 14? No es dif́ıcil imaginar que un número de clases distinto producirá una gráfica de aspecto diferente, como puede observarse en los histogramas que aparecen a continuación; en ellos la variable edad ha sido representada con 3 y 30 clases, respectivamente. Figura 6.- Histogramas de barras para Edad con 3 y 30 clases No debemos olvidar que el objetivo de cualquier agrupación de datos es destacar los rasgos esenciales y eliminar los detalles irrelevantes, aún cuando esto se haga a expensas de perder una información que no consideramos esencial, de ah́ı la importancia de elegir adecuadamente el número y amplitud de las clases. Las siguientes recomendaciones pueden ayudarnos, aunque puede ser conveniente llevar a cabo distintas elecciones y comparar los resultados: si el tamaño de la muestra no excede de 50, un número de clases entre 5 y 15 suele ser apropiado; para muestras mayores este número puede superar las 20 clases. el rango de la variable, que es rango = valor mayor - valor menor, y la amplitud que deseamos para cada clase nos permitirán determinar su número. Por ejemplo, para la tabla de frecuencias e histograma de la variable edad que hemos represen- tado en la Figura 5, hemos calculado su rango = 92-15 = 77 y como deseábamos una amplitud de 10 años para cada clase, hemos obtenido un número de 7.7, que 1.1 Descripción de datos 9 lógicamente se ha redondeado a 8, lo que supone que la última clase cubre el intervalo [85, 95[. Clases con amplitudes distintas. Los histogramas que hemos utilizado hasta ahora provienen de distribuciones de frecuencias agrupadas cuyas clases tienen todas igual amplitud, razón por la cual su altura es directamente proporcional a su frecuencia. Cuando las frecuencias de clases contiguas son bajas pueden agruparse en clases mayores cuya frecuencia será la suma de las frecuencias de las clases que constituyen la nueva clase. Por ejemplo, los datos siguientes son una muestra de 30 valores de la variable peso, extraidos de entre los 250 que constituyen los datos originales. La tabla de frecuencias muestra que la segunda clase, [35, 45[, tiene una frecuencia 0. 81,72 52,44 69,24 58,34 81,43 52,35 28,60 92,78 87,82 59,44 86,39 68,26 57,29 83,62 26,14 68,47 56,00 96,97 57,79 65,10 78,37 56,74 45,41 65,85 48,95 81,84 74,82 91,93 71,48 68,34 Peso Frec. FrecRel 25-35 2 0.066 35-45 0 0.000 45-55 4 0.134 55-65 6 0.200 65-75 8 0.267 75-85 5 0.166 85-95 4 0.134 95-105 1 0.033 Total 30 1.00 Figura 7.- Tabla de frecuencias e Histograma de los 30 valores del peso Puede pensarse en la conveniencia de agrupar las dos primeras clases en una sola, [25, 45[, para conseguir una distribución de frecuencias más suavizada que evite la frecuencia 0. La consecuencia de esta agrupación es una distribución de frecuencias con clases de distinta amplitud, una de ellas el doble que las restantes, y debemos cambiar el método de representación del histograma para evitar distorsiones en su forma. En efecto, si, como hasta ahora, la altura de la barra correspondiente a cada clase es proporcional a su frecuencia, obtendremos el histograma B de la Figura 8, que transmite visualmente la idea de una presencia de la primera clase mayor de la que en realidad le corresponde. Esto se evita haciendo que las áreas de las barras sean proporcionales a la frecuencia, como se ha hecho en el histograma A, lo que conduce en nuestro caso a una altura que es la mitad de la anterior puesto que la base del rectángulo es el doble. 10 Caṕıtulo 1. Estad́ıstica Descriptiva Figura 8.- Histogramas de frecuencias para distribuciones con clases de distinta amplitud 1.1.3. Medidas de Posición Para las variables categóricas, las distribuciones de frecuencias y sus distintas re- presentaciones gráficas nos proporcionan información concisa y completa, pero si las variables son cuantitativas es posible, y conveniente, completar aquella información con caracteŕısticas numéricas asociadas a los datos. Estas caracteŕısticas reciben el nombre de estad́ısticos descriptivos y los hay de dos tipos: de posición, o centrales, y de dispersión. Los primeros nos proporcionan información acerca de la posición de los datos si los representamos en una recta, mediante la obtención de lo que podŕıamos llamar centro de la distribución. Existen distintas formas de definir el centro de una distribución de datos, las más utilizadas son: la media, la mediana, la moda y los per- centiles. En adelante designaremos mediante las últimas letras mayúsculas del abecedario, X, Y, Z, . . . , a las variables observadas y con las minúsculas, x, y, z, . . . , las obser- vaciones (datos), a las que cuando sea conveniente añadiremos un ı́ndice. Por ejemplo, si queremos designar las n observaciones de la variable X lo podemos hacer mediante x1, x2, x3, . . . , xn. La media. Es sin duda la más conocida de las medidas de posición y es, sencillamen- te, la media aritmética de las observaciones correspondientes a la variable en estudio. Se le denomina media muestral y se le designa mediante el śımbolo x. Su expresión es, x = suma de las x’s n = ∑n i=1 xi n . Retomemos los datos de las 30 observaciones de pesos, para calcular su media x = 81, 72 + 52, 44 + . . . + 71, 48 + 68, 34 30 = 2013, 92 30 = 67, 13 kgs. La mediana. Es aquel valor que, al ordenar las observaciones de menor a mayor, ocupa el lugar central, dividiendo el conjunto de observaciones en partes iguales. Es 1.1 Descripción de datos 13 Figura 9.- Histogramas de las notas de las clases I y II. La Figura 9 muestra que los valores se distribuyen simétricamente respecto de la nota 5, pero en la clase I existe una dispersión menor que en la clase II. ¿Cómo medir la distinta manera en que los valores se agrupan alrededor de la media? Las distintas medidas de dispersión proporcionan esta información. Al igual que ocurre para la posición, existen diversas formas de medir la dispersión, de entre ellas vamos a ocuparnos de las siguientes: rango, desviación tipica, varianza y rango intercuart́ılico. El rango Es la diferencia entre el máximo y el mı́nimo de las observaciones. Aśı, para los datos anteriores tendremos que rango de las notas en la clase I vale 4 y el rango en la clase II vale 8, denotando la mayor dispersión de la variable en el segundo grupo de observaciones. La varianza y la desviación t́ıpica Puesto que se trata de medir cómo se agrupan los valores alrededor de la media, podŕıamos utilizar como criterio las desviaciones de dichos valores respecto de aquella, es decir, la diferencias entre la media y los distintos valores y más concretamente la media de ellas. Aunque a primera vista la sugerencia pueda ser buena, vamos a aplicarla a los valores de las notas de clase para evidenciar el inconveniente insalvable que una medida de este tipo tiene. En el cuadro aparecen las notas de cada clase y en columnas sucesivas sus des- viaciones respecto de la media y el cuadrado de estas desviaciones, al que más tarde aludiremos. Al tratar de obtener la media de las diferencias, que recordemos es la suma de todas ellas dividida por su número, nos encontramos que dicha media será 0 en am- bos casos, porque existiendo desviaciones positivas y negativas, unas anulan los efectos de las otras. En realidad eso nos ocurrirá con cualquier otro conjunto de datos, porque puede demostrarse que esa es una propiedad que tienen las desviaciones respecto de la media. Clase I Clase II nota di d2i nota di d 2 i 4 -1 1 1 -4 16 3 -2 4 4 -1 1 5 0 0 3 -2 4 6 1 1 5 0 0 4 -1 1 6 1 1 5 0 0 8 3 9 5 0 0 2 -3 9 7 2 4 7 2 4 5 0 0 5 0 0 6 1 1 9 4 16 Suma 0 12 Suma 0 60 Tabla 3.- Desviaciones respecto de la media y sus cuadrados para las notas de las clase I y II. Puesto que el uso de las desviaciones respecto de la media parece razonable, ¿cómo soslayar el problema? Una manera sencilla de hacerlo es utilizar, no las desviaciones, 14 Caṕıtulo 1. Estad́ıstica Descriptiva sino sus cuadrados. Al ser estos cantidades positivas, su suma nunca podrá ser cero. Aśı, la media de los cuadrados de las desviaciones parece una medida adecuada, pero, por razones técnicas que están fuera del alcance y objetivos de este curso, la utilizaremos con una ligera modificación: en lugar de dividir por n, como se hace habitualmente para calcular una media, dividiremos por n− 1. De acuerdo con esto, la varianza de un conjunto de observaciones se define mediante la fórmula: s2 = suma del cuadrado de las desviaciones n− 1 = ∑n i=1(xi − x)2 n− 1 . Una expresión alternativa, que facilita su cálculo es s2 = ∑n i=1 x 2 i n− 1 − ( ∑n i=1 xi) 2 n(n− 1) . La desviación t́ıpica se define como la ráız cuadrada de la varianza y la designa- mos por s. Para el caso de las clases I y II, las sumas de los cuadrados de las desviaciones aparecen en la Tabla 4, sus varianzas y desviaciones t́ıpicas son: clase I : s2 = 129 = 1, 33 s = 1, 15 clase II : s2 = 609 = 6, 66 s = 2, 58 que ponen de manifiesto la diferente distribución de los valores en un caso y otro. Para los 30 valores del peso, peso : s2 = 9040,7629 = 311, 75 Kgs 2 s = 17, 65 Kgs. Obsérvese que las unidades de la varianza son el cuadrado de las unidades en las que venga expresada la variable, sin embargo la desviación no cambia de unidades. Señalemos por último que si el tamaño de la muestra es grande, la diferencia entre dividir por n o por n-1 es inapreciable y la varianza coincide, prácticamente, con la media de los cuadrados de las desviaciones. Porcentajes t́ıpicos La desviación t́ıpica tiene una propiedad interesante, para distribuciones de frecuencias con una sola moda, de apariencia simétrica y con colas ni demasiado largas ni demasiado cortas, se suele verificar: aproximadamente el 68 % de las observaciones distan como mucho una desviación t́ıpica de la media aproximadamente el 95% de las observaciones distan como mucho dos desviacio- nes t́ıpicas de la media aproximadamente más del 99 % de las observaciones distan como mucho tres desviaciones t́ıpicas de la media. 1.1 Descripción de datos 15 El rango intercuart́ılico Se define como la diferencia entre el tercer y el primer cuartil, IQR = Q3 − Q1. Directamente relacionado con él se define el intervalo in- tercuart́ılico, que es el intervalo definido por los cuartiles primero y tercero, [Q1, Q3], cuya longitud es, precisamente, IQR. Contiene el 50% de las observaciones centrales. Para las 250 observaciones correspondientes a la altura estas medidas valen: altura Q1 = 160 cms, Q3 = 182 cms, IQR = 22 cms. El coeficiente de variación Aún cuando no se trata, estrictamente, de una medida de dispersión este es el momento de definir esta nueva caracteŕıstica asociada a las observaciones. Para comprender mejor su interés tratemos de responder a la pregunta, ¿dónde hay mayor dispersión, en las observaciones del peso o en las notas de la clase I? La pregunta tiene dif́ıcil respuesta si, por ejemplo, pretendemos comparar directamente las correspondientes desviaciones t́ıpicas. En efecto, la del peso es mucho mayor que la de las notas, pero a nadie se le escapa que la magnitud de aquel es mucho mayor que las de éstas y, además, se trata de unidades diferentes, kilogramos en un caso y puntuación en el otro. Para resolver el problema se define el coeficiente de variación como el cociente entre la desviación t́ıpica y la media multiplicado por 100, CV = s x ∗ 100 que expresa la desviación t́ıpica como porcentaje de la media y que al no tener unidades permite comparaciones entre observaciones de distinta naturaleza. Volviendo a la pregunta inicial, para el peso, CVpeso = 26,29 %, y para las notas, CVnotas = 23%, lo que nos dice que en términos de porcentaje de sus medias, ambas distribuciones tienen dispersiones muy parecidas. 18 Caṕıtulo 2. Descripción de la relación entre dos variables numéricas Altura Peso Altura Peso 190 80 149 67 155 56 190 93 167 41 162 58 171 49 181 78 182 89 166 69 173 71 160 52 151 53 165 58 172 71 182 86 175 89 151 48 189 93 192 109 162 80 162 39 183 88 162 65 162 65 160 68 173 78 162 63 147 60 200 86 189 85 202 96 185 56 182 84 159 58 150 45 150 55 168 58 Tabla 1.- Alturas y pesos de una muestra de 38 individuos Las medias y las desviaciones t́ıpicas para los variables altura y peso valen xaltura = 170, 55cms. xpeso = 69, 45kgs. saltura = 15, 06cms. speso = 17, 17kgs. La experiencia demuestra que, en general, las personas altas tienen mayor peso. Este hecho podemos ponerlo de manifiesto, a partir de las observaciones anteriores, me- diante una representación gráfica adecuada de las mismas y mediante la obtención de caracteŕısticas numéricas apropiadas. Veamos ambos métodos. 2.1.1. Gráficos de dispersión Una representación gráfica bidimensional de las observaciones permite confirmar visualmente la existencia de una relación de dependencia entre las variables. En al- gunas situaciones podemos, incluso, intuir la forma de dicha dependencia. Se trata, simplemente, de representar los pares de valores mediante puntos a través de los ejes de coordenadas X e Y, eligiendo adecuadamente las unidades en cada eje, aunque la mayoŕıa de métodos de representación gráfica que existen a nuestra disposición en los ordenadores personales llevan a cabo dicha elección de manera automática. Para los datos de altura y peso, el gráfico de dispersión correspondiente se muestra en la Figura 1, y de él parece deducirse una relación de tipo lineal entre altura y peso. 2.1 Estudio conjunto de dos variables 19 ALTURA 210200190180170160150140 PE SO 110 100 90 80 70 60 50 40 30 Figura 1.- Gráfico de dispersión correspondiente a las 38 observaciones de altura y peso 2.1.2. La covarianza La covarianza entre dos variables observadas, X e Y , de las cuales tenemos n ob- servaciones conjuntas, se obtiene a partir de la expresión, sxy = n∑ i=1 (xi − x)(yi − y) n− 1 . (2.1) Como ya suced́ıa con la varianza, existe una versión alternativa de (2.1) que facilita el cálculo, sxy = ∑n i=1 xiyi n− 1 − ( ∑n i=1 xi) ( ∑n i=1 yi) n(n− 1) . (2.2) Para los datos de altura, X, y peso, Y , se obtiene a partir de (2.2), sxy = 457406 37 − 6481× 2639 38× 37 = 197, 77 Se supone que este valor nos proporciona información acerca de la relación de depen- dencia existente entre ambas variables, ¿pero de qué manera lo hace? ¿cómo interpretar el resultado que acabamos de obtener? Para ello convendrá que fijemos nuestra atención en el signo y en la magnitud de la covarianza. Signo de la covarianza.- A diferencia de lo que ocurŕıa con la varianza, que por tratarse de la media de una suma de cuadrados nunca puede ser negativa, la covarianza puede ser positiva, negativa o nula. Covarianza positiva: denota una relación creciente entre las dos variables, es decir, que cuando una aumenta la otra también lo hace. Este es el caso de la relación existente entre altura y peso, pues es bien sabido que, por regla general, el peso aumenta con la altura. 20 Caṕıtulo 2. Descripción de la relación entre dos variables numéricas Covarianza negativa: denota una relación decreciente entre las dos va- riables, es decir, que cuando una aumenta la otra disminuye. El gráfico de dispersión de la Figura 2 nos muestra una relación de este tipo entre la lati- tud y la temperatura máxima en enero (◦F) en diversas ciudades de EE.UU. cuyos datos se muestran en la Tabla 2. L atitu d T emp era tu ra L atitu d T emp era tu ra Mo b ile , Ala 30 61 H ono lu lu, H a w a ii 21 79 Mo n tgom er y, Ala 32 59 B o is e , Id ah o 43 36 Ju n eau , Ala ska 58 30 S an Ju an , P ue rto R ico 18 81 P ho e n ix , Ariz 33 64 Lo u isv ille, Ky 38 44 L itle R ock , Ark 34 51 N ew O rle ans , La 29 64 Lo s An ge les , C al 34 65 P ortlan d, M aine 43 32 S an F ra nc isc o , C al 37 55 Baltim o re, M d 39 44 D e nv er, C o l 39 42 Bo ston , M ass 42 37 N e w H a ve n , C on n 41 37 D etroit, M ich 42 33 W ilm in gto n , D el 39 41 S au lt St e Ma rie , M ic h 46 23 W ash ing ton , D C 38 44 M inn S t P au l, M in n 44 22 Jac kso n vil le, Fla 38 67 S t L o uis , Miss ou ri 38 40 K e y W e st, Fla 24 74 C h arlesto w n, S C 32 61 M ia mi, F la 25 76 Ho us to n , Tx 29 64 Atlan ta, Ga 33 52 Tabla 2.- Latitud y temperatura máxima en enero desde 1931 a 1960 en 29 ciudades de los EE. UU. 1 5 2 5 3 5 4 5 5 5 6 5 7 5 8 5 1 5 2 5 3 5 4 5 5 5 6 5 L at it ud T e m p e ra tu r a m à x im a e n g e n e r Figura 2.- Gráfico de dispersión correspondiente a las 29 observaciones de latitud y temperatura Covarianza nula: denota, bajo ciertas condiciones, ausencia de cualquier tipo de relación entre ambas variables y, siempre, la ausencia de relación de tipo lineal. Para justificar las anteriores afirmaciones observemos la gráfica de dispersión correspondiente a las observaciones de alturas y pesos, en la que hemos añadido 2.1 Estudio conjunto de dos variables 23 Si llevamos a cabo una representación gráfica de las parejas de valores observa- dos, Figura 4, constataremos algo que la lógica nos anunciaba, la aparente falta de relación entre ambos tipos de observaciones. El valor de la correspondiente covarianza, sbus,alcachofa = −37, 33, casi seis veces menor que la covarianza para altura y peso, confirma lo que visualmente adivinábamos. Parece pues claro que a mayor valor de la covarianza más fuerte es la relación de dependencia existente entre las variables, pero esta afirmación ha de ser matizada en función de la siguiente Propiedad de la covarianza.- Si llevamos a cabo una transformación ineal de las variables X e Y , U = aX + b, V = cY + d, la covarianza de las nuevas variables sufre la siguiente transformación, suv = a · c · sxy. Ello supone, por ejemplo, que si expresamos la altura en metros, U = X/100, y el peso en arrobas, aunque sea unidad más propia de los gorrinos que de los humanos, V = Y/12, tendremos suv = 1 12× 100sxy = 197, 77 1200 = 0, 16 ¿Quiere ello decir que por el mero hecho de expresar las variables en otras unida- des su relación de dependencia ha cambiado? Como la respuesta es, obviamente, no, esta circunstancia nos lleva a matizar la afirmación que antes haćıamos: pa- ra parejas de observaciones con valores del mismo orden de magnitud, a mayor covarianza, mayor dependencia funcional. El matiz, aunque necesario, no nos resuelve la situación que pueda producirse cuando pretendamos comparar las covarianzas de series de datos con valores de muy diferente orden de magnitud. La solución requiere introducir una nueva ca- racteŕıstica numérica para los pares de valores observados. 2.1.3. El coeficiente de correlación Una forma de evitar el problema anterior, es definir una caracteŕıstica que sea insensible a los cambios de escala. Entre las muchas que podŕıan introducirse, la más extendida es el llamado coeficiente de correlación entre las variables X e Y , rxy. Se define mediante la expresión, rxy = sxy√ s2xs 2 y = sxy sxsy (2.3) Este coeficiente goza de unas interesantes propiedades que justifican su utilización. 24 Caṕıtulo 2. Descripción de la relación entre dos variables numéricas P1) Si U = aX + b y V = cY + d, entonces ruv = { rxy, si ac > 0, −rxy, si ac < 0. P2) −1 ≤ rxy ≤ 1 P3) Si, - rxy = 1, entre X e Y existe dependencia lineal creciente, Y = aX + b, con a > 0, - rxy = −1, entre X e Y existe dependencia lineal decreciente, Y = aX + b, con a < 0. La primera de estas propiedades resuelve el problema que se nos hab́ıa planteado con la variación que los cambios de escala producen en la covarianza. A lo sumo cambiará el signo del coeficiente, dependiendo esto a su vez de los signos que tengan los cambios de escala introducidos, a y c. Las propiedades segunda y tercera, nos dicen que |rxy| describe el grado de linealidad existente entre X e Y , en una escala que va de 0 a 1, indicando el valor 0 la ausencia de relación lineal y el valor 1 la existencia de una relación lineal perfecta. Si los valores de rxy son negativos, indican dependencia decreciente, una variable crece mientras la otra decrece o viceversa, mientras que valores positivos de rxy indican que esta relación es creciente. Los valores de los coeficientes de correlación de los datos correspondientes a los tres ejemplos anteriores y sus gráficos de dispersión nos ayudarán a ilustrar y comprender estas propiedades. altura-peso autobús-alcachofa latitud-temperatura rxy = 0.76 rxy = -0.13 rxy = -0.90 210200190180170160150140 110 100 90 80 70 60 50 40 30 220200180160140120 120 100 80 60 40 20 605040302010 90 80 70 60 50 40 30 20 Figura 5.- Gráficos de dispersión y coeficientes de correlación 2.2. Recta de regresión de Y sobre X Hemos hablado en el apartado anterior de relación funcional entre las variables X e Y y hemos dicho que ésta puede de ser de muy diversos tipos. En este apartado nos va- mos a ocupar de estudiar aquella situación en la que una recta describe adecuadamente la dependencia entre ambas. 2.2 Recta de regresión de Y sobre X 25 Antes de describir la obtención de la recta más conveniente a nuestros datos, con- viene que comencemos explicando cuál es el significado de la recta de regresión y el objetivo que se persigue con su obtención. Asumida la existencia de una relación lineal entre las variables que hemos observado, el ajuste, aśı se denomina el proceso, de una recta de regresión a nuestros datos pretende dotarnos de un modelo teórico que descri- ba, lo mejor posible, la dependencia observada. El objetivo que perseguimos al disponer de una recta que se ajusta bien a nuestros datos, es poder llevar a cabo predicciones de la variable Y a partir de valores predeterminados de la variable X. Por ejemplo, entre las observaciones de alturas y pesos no existen ninguna que corresponda a una altura de 178 cms., la recta de regresión ajustada puede predecir qué peso correspondeŕıa a esta altura sin más que sustituir el valor x = 178 en la ecuación de la recta. Recordemos que la forma más sencilla de la ecuación de una recta es Y = aX + b y, en consecuencia, nuestro objetivo será encontrar los valores de los parámetros de la recta, a y b, que reciben el nombre de pendiente y ordenada en el origen, respectiva- mente. Estos valores dependerán del criterio con el que la recta se elija y el problema estriba en que son muchos los posibles criterios a utilizar. Por ejemplo, Puntos extremos.- La recta ajustada con este criterio pasaŕıa por el punto más bajo (menor valor de Y ) y más a la izquierda (menor valor de X) y por el más alto (mayor valor de Y ) y más a al derecha (mayor valor de X). Igual reparto.- La recta ajustada con este criterio pasaŕıa por el centro de gravedad de los datos observados, (x, y), y dejaŕıa a cada lado la mitad de las observaciones. Mı́nimas distancias.- La recta se elige de tal forma que la suma de los cuadrados de las distancias de cada punto a la recta es mı́nima. Mı́nimos cuadrados.- En las observaciones tenemos parejas de valores (xi, yi). La recta obtenida bajo este criterio, minimiza la suma de los cuadrados de las diferencias entre el valor de yi observado y el obtenido al sustituir en la ecuación de la recta el valor x por xi. No todos estos criterios actúan con la misma bondad, basta observar el resultado a que algunos de ellos de conducen en la Figura 6. En ella hemos sobrepuesto al gráfico de dispersión de los datos altura-peso las rectas correspondientes al primer y segundo criterios, señaladas en la figura como C1 y C2, respectivamente. 28 Caṕıtulo 2. Descripción de la relación entre dos variables numéricas pero como fácilmente puede comprobarse e = 0 , lo que reduce la expresión a s2e = ∑n i=1 e 2 i n− 1 = SCe n− 1 . (2.4) ¿Qué interés tiene para nosotros el cociente entre ambas varianzas? Recordemos que el objetivo perseguido con la obtención de la recta de regresión mı́nimo-cuadrática es, en la medida que se ajusta bien a las observaciones, dotarnos de un modelo que nos permita predecir el valor de y asociado a un valor cualquiera x. Es posible efectuar dicha predicción a partir de los propios datos observados sin necesidad de ajustar recta alguna. En efecto, puesto que la media de un conjunto de observaciones tiene carácter representativo de las mismas, podemos tomarla como predicción para cualquier valor de x. Si actuamos aśı, ¿qué error total estamos cometiendo? Una medida de ese error, a semejanza de lo que hemos hecho con los errores o residuos obtenidos a partir de la recta de regresión, puede obtenerse utilizando el cuadrado de la diferencia entre el valor observado, yi, y la predicción, y, lo que nos conduce a la varianza de las observaciones, error total con y = s2y = ∑n i=1(yi − y)2 n− 1 . Cuando esta misma predicción la llevamos a cabo con la recta de regresión obtenida, el error total cometido será la varianza de los residuos, s2e, cuya expresión es (2.4). La obtención de la recta de regresión tiene validez en la medida que reduzca el error. Lo mejor será conocer la proporción de reducción que hemos llevado a cabo al utilizar la recta para predecir. Una manera sencilla de hacerlo es utilizar la expresión, reducción del error = s2y − s2e s2y = 1− s 2 e s2y . Podemos volver sobre nuestros tres ejemplos y calcular esta reducción cuando uti- lizamos las rectas de regresión que hemos ajustado a cada caso. La tabla recoge los cálculos y muestra el % de reducción en la última columna. Como era de prever, la mayor reducción se obtiene para las observaciones de latitud y temperatura, con un 82%, para la altura y el peso dicha reducción es casi del 60 %, mientras que para el precio del autobús y el de las alcachofas es prácticamente inexistente, menos del 2 %. Es posible representar gráficamente el efecto que la recta tiene en la reducción. Para ello representamos conjuntamente las diferencias entre observaciones y predicciones en ambos casos tal y como hemos hecho en la Figura 9. En todas las gráficas la parte 2.2 Recta de regresión de Y sobre X 29 superior representa mediante un trazo, para cada valor de x, la diferencia entre la yi, observada y la media de las observaciones, y, que ha sido representada mediante una recta. Los trazos por debajo de media indican que la diferencia es negativa. La parte inferior representa las diferencias (errores o residuos) entre el valor observado yi y el obtenido a partir de la recta mediante la sustitución del correspondiente xi, ŷi. También ahora hemos dibujado la recta correspondiente a la media de estos errores que, recordemos, vale 0. Una vez más, la gráfica es elocuente en los dos casos extremos: latitud-temperatura y autobús-alcachofas. Regresión peso sobre altura 210200190180170160150140 120 100 80 60 40 20 0 -20 -40 Regresión p_alcahofa sobre p_autobús 220200180160140120 120 100 80 60 40 20 0 -20 -40 -60 30 Caṕıtulo 2. Descripción de la relación entre dos variables numéricas Regresión temperatura sobre latitud 605040302010 100 80 60 40 20 0 -20 Figura 9.- Gráfica de las diferencias entre la predicción y el valor observado cuando aquella se lleva a cabo con la media (superior) o con la recta de regresión (inferior) Regresión y correlación Ya hemos dicho que el coeficiente de correlación mide, en una escala de 0 a 1, el grado de linealidad existente entre ambas variables. Pero no solo eso, sino que además nos proporciona información acerca de la reducción de varianza conseguida mediante la recta de regresión. En efecto, en la tabla de reducción de la varianza anteriormente obtenida, vamos a incluir el valor del coeficiente de correlación y de su cuadrado. Comprobamos que dicho cuadrado coincide, en todos los casos, con la reducción de varianza obtenida. Este resultado no es casual y responde a una conocida propiedad que relaciona correlación y regresión a través de la siguiente expresión, r2xy = 1− s2e s2y . Este resultado hace innecesario cualquier cálculo adicional para conocer la reducción de varianza que el ajuste de una recta de regresión comporta. Basta con obtener el cuadrado del coeficiente de correlación, r2xy , que es conocido como el coeficiente de determinación. 3.2 Probabilidad y sus reglas 33 Lanzamiento de dos monedas.- Al lanzar dos monedas el espacio muestral viene definido por S ={CC,C+,+C,++}. Dos ejemplos de sucesos en este espacio pue- den ser: A ={Ha salido una cara}={C+,+C}, B ={Ha salido al menos una cruz}={C+,+C,++}. Lanzamiento de un dado.- Al lanzar un dado el espacio muestral viene definido por S ={1,2,3,4,5,6}. Dos ejemplos de sucesos en este espacio pueden ser: A ={Ha salido una cara par}={2,4,6}, B ={Ha salido una cara múltiplo de 3}={3,6}. Elegir un punto al azar en el ćırculo unidad.- Su espacio muestral es S ={Los puntos del ćırculo}. Ejemplos de sucesos (d(a, b) significa distancia del punto a al punto b): A = {s; d(s, centro) < 0,5}, B = {s; 0, 3 < d(s, centro) < 0,75}. La referencia a la probabilidad de un suceso cualquiera, A, la haremos mediante una notación simplificada y sencilla, escribiremos simplemente P (A). 3.2.2. Reglas de la probabilidad Señalábamos en un párrafo anterior que la extracción de una bola de la urna, cu- ya composición proporcional es conocida, es un experimento que nos permite acceder a la obtención de algunas probabilidades, las que pod́ıamos denominar directas. Por ejemplo, P (B) = b, siendo b la proporción de bolas blancas en la urna. Pero si pre- tendemos obtener la probabilidad asociada al suceso la bola extráıda no es blanca, una probabilidad de las que podemos denominar indirectas, hemos de llevar a cabo algunas operaciones que sólo serán válidas en la medida que se ajusten a ciertas reglas. Estas reglas vienen impuestas por la naturaleza del concepto de probabilidad, que está muy ligado al concepto de proporción; por tanto, se derivarán fácilmente de las reglas que esta última sigue. Veamos cuáles son: Acotación.- Puesto que una proporción es siempre una cantidad positiva y alcanza a lo sumo el valor 1, la probabilidad de cualquier suceso A verifica, 0 ≤ P (A) ≤ 1. Los dos valores extremos merecen un comentario. Si nuestra urna contuviera bolas de un sólo color, blancas, su proporción valdŕıa 1 y en cada extracción ob- tendŕıamos con seguridad una bola blanca. Es decir, P (B) = 1. Pero aun cuando nuestra urna tuviera la composición tricolor que hemos venido suponiendo, un suceso como S ={Ha salido una bola blanca, azul o roja} es un suceso que ocurre 34 Caṕıtulo 3. Probabilidad siempre, puesto que cualquiera que sea el color de la bola extráıda el resultado está en S y como la proporción de bolas de los tres colores es 1, nuevamente su probabilidad es igual a 1. Parece, pues, que el mayor valor que la probabilidad puede tomar está asociado a un suceso de estas caracteŕısticas especiales, aquel que ocurre siempre y que es conocido como el suceso seguro. En el otro extremo se situa el valor 0. Si la urna no tuviera bolas blancas P (B) = 0, porque su proporción vale 0. Observemos que en semejantes circunstancias es imposible que ocurra el suceso B. El valor 0 está asociado a aquellos sucesos que nunca ocurren y por cuya razón se les denomina sucesos imposibles. Aun cuando tales sucesos nos puedan parecer, no solamente imposibles, sino también inútiles, su presencia es necesaria para dar coherencia a las reglas que rigen la probabilidad. Es costumbre utilizar el śımbolo ∅ para designar este tipo de sucesos, porque en Matemáticas se designa aśı al conjunto vaćıo, aquel que no contiene ningún resultado del experimento. Suma.- Esta segunda regla afecta a los sucesos que denominamos incompatibles o mu- tuamente excluyentes. Al extraer una carta de una baraja española consideremos los sucesos A ={La carta extráıda es una espada} y B ={La carta extráıda es una copa}. Es evidente que una carta no puede satisfacer ambas condiciones a la vez, por lo que la ocurrencia de uno de estos sucesos excluye de inmediato la ocurrencia del otro. Este es un ejemplo de sucesos incompatibles. Los sucesos B, A y R asociados a la extracción de la bola en la urna son todos ellos incompatibles entre śı. Esta segunda regla afirma que la probabilidad del suceso {ocurre A o B} es la suma de las probabilidades de ambos sucesos: P (A o B) = P (A) + P (B). En efecto, si nos interesa conocer la probabilidad de que nuestra bola sea blanca o roja, el suceso ocurrirá tanto si la bola extráıda es blanca como si es roja y la proporción que le corresponde es la suma de ambas proporciones. La regla de la suma puede extenderse de manera obvia a aquellas situaciones en las que intervienen más de dos sucesos. En efecto, P (A o B o C) = P (A) + P (B) + P (C), y aśı sucesivamente. Puesto que venimos refiriéndonos a los sucesos como conjuntos, bien podemos utilizar algunas operaciones entre conjuntos para expresar de forma más compacta la regla de la suma. En efecto, si los sucesos A y B son incompatibles es porque no comparten ningún resultado del experimento aleatorio. Eso significa que, en tanto que conjuntos, su intersección es vaćıa, es decir, no contiene ningún resultado. Dicho de otra forma, la intersección de ambos es el suceso imposible, lo que 3.2 Probabilidad y sus reglas 35 expresaremos mediante la notación A∩B = ∅, en la que el śımbolo ∩ se lee como intersección. De igual forma, el suceso ’A o B’ es un suceso que recoge los resultados del experimento que están en A, en B o en ambos. En términos de conjuntos ’A o B’= A ∪B, expresión en la que el śımbolo ∪ se lee como unión. Complementación.- Existe una clase especial de sucesos incompatibles que llamamos complementarios: aquellos que siendo incompatibles son tales que el resultado del experimento es necesariamente uno u otro. El ejemplo más sencillo es el de cara o cruz al lanzar una moneda. No pueden ocurrir a la vez, pero es seguro que la moneda nos muestra uno u otro. En otras palabras, la unión de ambos sucesos es el suceso seguro. Estos sucesos van siempre por parejas, lógicamente, y si a uno de ellos lo denotamos mediante una letra, el otro, su complementario, se denota mediante la misma letra con una pequeña c como exponente: A y Ac. Sus probabilidades están relacionadas de la siguiente manera: P (A) + P (Ac) = 1, puesto que A∪Ac = S. Una sencilla operación conduce a P (A) = 1−P (Ac), por lo que conocida la probabilidad de uno de ellos se obtiene con facilidad la del otro. Por ejemplo, en la extracción de la urna sabemos que P (Bola blanca) = P (B) = b, por lo que P (Bola no blanca) = P (Bc) = 1− b. Monotońıa.- Si al lanzar un dado debemos apostar entre A={salga un múltiplo de 3} o B={salga un número mayor o igual que 3}, sin dudar apostaremos por lo segundo, porque aun cuando no sabemos la cara que el dado mostrará, śı intuimos que el primer suceso es menos probable que el segundo. A esta conclusión, perfectamente correcta, hemos llegado porque el segundo suceso es más grande que el primero, lo que en términos de conjuntos se expresa diciendo que ’A está incluido en B’, A ⊂ B, el śımbolo ⊂ leyéndose como incluido en o contenido en. La regla dice que A ⊂ B, implica P (A) ≤ P (B). Sucesos compatibles.- La regla de la suma nos permite obtener P (A∪B) si A∩B = ∅. Pero, por ejemplo, si A={salga un múltiplo de 3}, B={salga una cara par} y queremos calcular la probabilidad de la unión de los dos sucesos, la regla de la suma no es aplicable porque A = {3, 6} y B = {2, 4, 6} y al tener en común la cara 6, los sucesos son compatibles, A∩B = {6}. Para calcular probabilidades en estas situaciones, unión de sucesos compatibles, la fórmula a emplear es P (A ∪B) = P (A) + P (B)− P (A ∩B). Observemos que cada una de las 6 caras está presente en el dado en una proporción 1/6. Para obtener P (A) bastará aplicar la regla de la suma considerando que el 38 Caṕıtulo 3. Probabilidad Esta nueva probabilidad, P ∗, recibe el nombre de probabilidad de A condicionada a B y se la representa mediante P (A|B). Puede comprobarse con facilidad que se verifica P (A|B) = P (A ∩B) P (B) , (3.1) igualdad que se toma como definición del concepto, imponiendo la condición P (B) > 0 puesto que la división por 0 no está permitida. 3.5. Independencia La noción de independencia transcribe la carencia de relación entre dos sucesos. La aproximación más intuitiva al concepto se hace a través de la probabilidad condicional. En efecto, cuando obtenemos P (A|B) estamos viendo de qué manera la ocurrencia de B altera nuestro conocimiento de P (A). Pero ocurre que en ocasiones este conocimiento no nos aporta nada. Veamos un ejemplo. Del mazo de una baraja española con 48 cartas, 12 de cada palo, extraemos al azar una carta y nos interesamos por el suceso A={la carta es un as}. Aplicando la fórmula de Laplace concluimos con facilidad que P (A) = P (As) = 4 48 = 1 12 . Si se nos informa previamente de que la carta extráıda es una copa, modificaremos la anterior probabilidad sustituyéndola por P (A|B), siendo B el suceso la carta es de copas. Aplicando la definición de probabilidad condicional y teniendo en cuenta que A ∩B={la carta es el as de copas}, P (A|B) = P (A ∩B) P (B) = 1 48 : 12 48 = 1 12 , resultando inútil la información previa por cuanto no se ha producido modificación de la probabilidad inicial. En situaciones como la descrita, decimos que A y B son independientes y, como hemos visto, la primera consecuencia es que la probabilidad no se altera, P (A) = P (A|B). Es decir, nada de cuanto ocurra con B afecta a A. De la igualdad de ambas probabilidades se deriva fácilmente a partir de (3.1), P (A ∩ B) = P (A)P (B), que a su vez implica que P (B|A) = P (B), como no pod́ıa ser de otra manera porque la independencia entre dos sucesos es mutua. No obstante lo anterior, se prefiere definir la independencia a partir de la factori- zación de la probabilidad de la intersección, en cuyo caso la igualdad entre las proba- bilidades condicionales y absolutas se obtiene como una consecuencia. La razón de esta preferencia es que esta definición no exige ninguna condición previa sobre los sucesos implicados. Recordemos que P (B) ha de ser estrictamente positiva al definir P (A|B). 3.6 Una aplicación de la independencia y de la probabilidad condicional: el pueblo contra Collins 39 Si el número de sucesos es mayor que 2, la independencia entre todos ellos supone la correspondiente factorización: P (A1 ∩A2 ∩ · · · ∩An) = n∏ i=1 P (Ai). (3.2) 3.6. Una aplicación de la independencia y de la probabi- lidad condicional: el pueblo contra Collins En 1964 una mujer, de compras por Los Angeles, fue asaltada por una joven rubia con cola de caballo que le robó el bolso. La joven salió huyendo y fue vista poco después subiendo a un coche amarillo conducido por un hombre negro con barba y bigote. Las investigaciones de la polićıa condujeron a la detención como sospechosa de una tal Janet Collins, que era rubia, peinaba cola de caballo y se la relacionaba con un varón negro con barba y bigote que era poseedor de un coche amarillo. El fiscal no teńıa evidencias tangibles ni testigos fiables contra la sospechosa y cons- truyó su caso sobre lo improbable que resultaba que la Sta. Collins y su amigo tuvieran todas estas caracteŕısticas y no fueran culpables. Para ello asignó probabilidades a las citadas caracteŕısticas, probabilidades basadas en la incidencia de las mismas en la población de Los Angeles y que están recogidas en la tabla 2. Caracteŕıstica Probabilidad Automóvil amarillo 110 Varón con bigote 14 Mujer con cola de caballo 110 Mujer rubia 13 Varón negro con barba 110 Pareja interracial en coche 11000 Tabla 1.- Incidencia en la ciudad de Los Angeles de las caracteŕısticas observadas El fiscal argumentó que la probabilidad de que todas estas caracteŕısticas se dieran conjuntamente, admitiendo la hipótesis de independencia entre ellas, veńıa dada por el producto de sus respectivas probabilidades (probabilidad de la intersección) y que dicho producto, como fácilmente puede comprobarse, era 1/12,000,000. Lo que significaba que era tan improbable encontrar una pareja que se ajustara a todas las caracteŕısticas que, verificándolas Janet Collins y su compañero, la única decisión razonable, según el fiscal, era proclamarlos culpables. El abogado de la Sta. Collins apeló a la Corte Suprema de California argumentando que el razonamiento probabiĺıstico era incorrecto y engañoso. Sostuvo el defensor que 40 Caṕıtulo 3. Probabilidad era posible aproximarse a los datos desde un perspectiva diferente, perspectiva que manteńıa la duda razonable sobre la culpabilidad de sus clientes. En efecto, el razonamiento alternativo comenzaba suponiendo que hab́ıa n parejas en el área geográfica donde ocurrieron los hechos y que exist́ıa una probabilidad p de que cualquiera de estas parejas compartiera las seis caracteŕısticas introducidas por el fiscal como evidencias. De acuerdo con lo anterior p = 1/12, 000, 000. El defensor centró su atención en los sucesos A={existen al menos 2 parejas con iguales caracteŕısticas entre las n} y B={existe al menos 1 pareja con iguales caracteŕısticas entre las n}, y más concretamente en el cociente de sus probabilidades. ¿Por qué? Porque si existen al menos 2 parejas es seguro que existe al menos 1, lo que supone que A ⊂ B y al calcular la intersección de ambos será el menor de los dos, es decir, A ∩B = A. Entonces P (A) P (B) = P (A ∩B) P (B) = P (A|B), que representa la probabilidad de que, entre las n parejas, más de una se ajuste a las caracteŕısticas descritas, siendo aśı que ya hay una que lo hace. Dicho en otros términos de mayor interés para la defensa, se trata de la probabilidad de que al menos otra pareja hubiera podido cometer la acción criminal. Si este cociente no fuera muy pequeño habŕıa que admitir la posibilidad de que la Sta. Collins y su amigo teńıan competidores que podŕıan ser los culpables. Para calcular el cociente necesitamos conocer P (A) y P (B). La obtención de P (B) es sencilla pues su complementario, Bc, es el suceso de que ninguna pareja de las n posee las seis caracteŕısticas mencionadas. Para una sola de estas parejas, la probabilidad de no poseerlas es (1 − p), y como las n parejas podemos suponerlas independientes, P (Bc) = (1− p)n. Aplicando ahora la regla de la complementación, P (B) = 1− P (Bc) = 1− (1− p)n. Para obtener P (A) nos valdremos de un suceso auxiliar, C={una sola pareja posee las caracteŕısticas}, porque al unir los sucesos A y C obtenemos el B y además, dada su definición, A y C son incompatibles. Aplicando la regla de la suma tendremos P (B) = P (A) + P (C) y de aqúı P (A) = P (B)− P (C). Todo se reduce pues a calcular P (C). Para ello elijamos una cualquiera de las parejas que será la que poseerá las caracteŕısticas, careciendo de las mismas las n−1 restantes. Como las parejas son independientes, la probabilidad de semejante suceso será p(1 − p)n−1. Pero este no es el suceso C, porque en C no hemos dicho que fuera justamente esa pareja elegida la que poseyera las caracteŕısticas, en C afirmamos que sea una, pero una cualquiera de las n. Si elegimos otra pareja distinta de la anterior, la probabilidad será misma, p(1−p)n−1, pero el suceso es distinto e incompatible con el anterior porque la pareja es distinta. En resumen, P (C) será suma de todas estas probabilidades porque C es la unión de todos los sucesos incompatibles que se van originando al elegir parejas distintas. Como todas valen lo mismo y hay n, P (C) = np(1− p)n−1, 3.8 Teorema de Bayes 43 P (si) = P (si|pregunta delicada)P (pregunta delicada)+ P (si|pregunta intrascendente)P (pregunta intrascendente) Sustituyendo, 0, 25 = P (si|pregunta delicada)× 0, 7 + 0, 5× 0, 3, y despejando, P (si|pregunta delicada) = 0, 25− 0, 15 0, 7 ≈ 0, 14 Es obvio que P (pregunta intrascendente) ha de ser conocida muy aproximadamen- te, como en el caso de la terminaciones del DNI, que por mitades deben de ser pares o impares. 3.8. Teorema de Bayes El teorema de Bayes es uno de aquellos resultados que inducen a pensar que la cosa no era para tanto. Se tiene ante él la sensación que produce lo trivial, hasta el punto de atrevernos a pensar que lo hubiéramos podido deducir nosotros mismos de haberlo necesitado, aunque afortunadamente el Reverendo Thomas Bayes se ocupó de ello en un trabajo titulado An Essay towards solving a Problem in the Doctrine of Chances, publicado en 1763. Conviene precisar que Bayes no planteó el teorema en su forma actual, que es debida a Laplace. El Teorema de Bayes relaciona la probabilidad de un mismo suceso antes y después de haber tenido lugar el experimento aleatorio y de conocer su resultado. Un sencillo ejemplo será la mejor manera de introducirlo y de juzgar su trascendencia. Ejemplo 1 Disponemos de tres urnas con bolas blancas y negras en la siguiente pro- porción: U1 = (1B, 2N), U2 = (2B, 1N) y U3 = (3B, 0N). El experimento consiste en elegir una urna al azar, extraer una bola y comprobar su color. Una vez comprobado que la bola extráıda es blanca, ¿cúal es la probabilidad de que la bola haya sido extráıda de la urna Ui? Solución.- Comencemos señalando que antes de llevar a cabo la extracción, cada urna tiene una probabilidad de 1/3 de ser la elegida para llevarla a cabo. Después de llevarla a cabo y conocer su color no cabe duda que las probabilidades se habrán alterado. Este cambio nos resultaŕıa evidente para la tercera de las urnas si, por ejemplo, la bola extráıda hubiese sido negra. La obtención de estas nuevas probabilidades se lleva a cabo con facilidad aplicando el Teorema de Bayes, P (Ui|B) = P (B|Ui)P (Ui)∑3 i=1 P (B|Ui)P (Ui) , 44 Caṕıtulo 3. Probabilidad en el que P (Ui) son las probabilidades iniciales para cada urna y P (Ui|B) las que pretendemos conocer y que están, lógicamente, condicionadas por el conocimiento de la extracción de una bola blanca. Unas y otras se muestran en la tabla 4. P(Ui) P(Ui|B) Urna 1 13 1 6 Urna 2 13 1 3 Urna 3 13 1 2 Tabla 3.- Probabilidades antes y después para las tres urnas El Teorema de Bayes se aplica con frecuencia en problemas de paternidad para obtener la evidencia, en términos de probabilidad, que de la misma dan las pruebas. Pero su uso puede ser perverso como muestra el ejemplo que sigue. 3.8.1. Padre a cara o cruz Un hombre fue acusado en un caso de paternidad sobre la base de un marcador genético cuya frecuencia en la población adulta es del 1% y que se transmite con probabilidad 1 de padres a hijos. Tanto el presunto padre como el niño causante del litigio poséıan el citado marcador, por lo que el fiscal del caso planteó la conveniencia de obtener la probabilidad de que el acusado fuera el padre dado que el niño teńıa el marcador. Si A ={el acusado es el padre} y B ={el niño tiene el marcador}, la probabilidad se obtuvo aplicando Bayes P (A|B) = P (B|A)P (A) P (B|A)P (A) + P (B|Ac)P (Ac) . Es evidente que, de acuerdo con lo dicho anteriormente, P (B|A) = 1 y P (B|Ac) = 0,01. En cuanto a P (A) y P (Ac) se estimó conveniente que ambas eran iguales a 0.5, valor que trataba de reflejar el desconocimiento que de la posible paternidad se teńıa y, puesto que pod́ıa ser o no ser el padre, lo lógico parećıa asignar igual probabilidad a ambos supuestos. El resultado no pudo ser más concluyente en contra del acusado, porque P (A|B) ≈ 0,99. El defensor recurrió y basó su recurso en la asignación de probabilidades a A y Ac. Llevada a sus últimas consecuencias, dijo el defensor, semejante asignación de proba- bilidades equivaĺıa a declarar padre a cualquier adulto por el procedimiento de cara o cruz. Una vez más, prosegúıa el defensor, se confund́ıa ignorancia con equiprobabilidad. Para rematar su discurso obtuvo P (A|B) para distintos valores de P (A) que nosotros hemos representado en las gráficas de la figura 3. La gráfica de la derecha es un detalle de la gráfica de de la izquierda para valores de P (A) entre 0 y 0.1 y pone en evidencia la importancia crucial que la elección de P (A) tiene, observándose que valores bajos, y nada hay en contra de que sean posibles, dan lugar a valores de P (A|B) que dif́ıcilmente condenan a cualquiera. 3.8 Teorema de Bayes 45 P(A) 1,0,9,8,7,6,5,4,3,2,1,0 P( A |B ) 1,0 ,9 ,8 ,7 ,6 ,5 ,4 ,3 ,2 ,1 0,0 P(A) ,100,080,060,040,020,000 P( A |B ) 1,0 ,8 ,6 ,4 ,2 0,0 Figura 1.- Valores de P (A|B) en función de P (A) 48 Caṕıtulo 4. Encuestas y proporciones ta y cuáles son sus rasgos esenciales comunes, partamos de un ejemplo concreto que paso a paso generalizaremos. 1. Lanzamiento de 10 monedas correctas.- Al lanzar 10 monedas, que equivale como ya hemos dicho a lanzar 10 veces una misma moneda, el resultado de cada lanzamiento es independiente de los restantes. Interesados en el número de caras en los 10 lanzamientos, que designaremos mediante la variable aleatoria X, sabe- mos que éste puede variar desde 0 hasta 10. En cada lanzamiento, si la moneda es correcta, tenemos 1 posibilidad frente a 2 de que aparezca una cara (de hecho la misma que para cruz), por lo que utilizando la fórmula de Laplace (Caṕıtulo 3) P (cara en cada lanzamiento) = 1 2 . ¿Cómo calcular la probabilidad de que al final de los 10 lanzamientos hayamos obtenido k caras, P (X = k), siendo k cualquier número entre 0 y 10, ambos inclusive, 0 ≤ k ≤ 10?. Supongamos que k = 4. Uno de los posibles resultados con 4 caras es aquél en el que las 4 caras han aparecido en los 4 primeros lanzamientos: CCCC + + + + + +. Como los lanzamientos son independientes, la probabilidad de semejante combinación vale (ver Caṕıtulo 3), P (CCCC + + + + + +) = 1 2 × 1 2 × 1 2 × 1 2︸ ︷︷ ︸ 4 caras × 1 2 × 1 2 × 1 2 × 1 2 × 1 2 × 1 2︸ ︷︷ ︸ 6 cruces = ( 1 2 )4 ·(12 )6 = ( 1 2 )10 . Si las caras hubieran aparecido en cualesquiera otras posiciones, la probabilidad de la correspondiente combinación seŕıa la misma, porque el orden de los factores no altera el producto. Es decir, todos los lanzamientos con 4 caras tienen la misma probabilidad, por lo que la probabilidad de obtener 4 caras en los 10 lanzamientos, P (X = 4), se obtendrá sumando las probabilidades de todas las combinaciones con 4 caras. Como todas ellas valen lo mismo, P (X = 4) = m× ( 1 2 )4 · ( 1 2 )6 = m× ( 1 2 )10 , siendo m su número. Todas las posibles formas en que 4 caras pueden aparecer entre los 10 lanzamientos son las combinaciones de 10 elementos tomados de 4 en 4. Aśı pues, P (X = 4) = ( 10 4 ) · ( 1 2 )4 · ( 1 2 )6 = ( 10 4 ) · ( 1 2 )10 . Finalmente, si las caras son k, P (X = k) se obtiene a partir de la fórmula anterior sustituyendo 4 por k: 4.1 Cantidades aleatorias 49 P (X = k) = ( 10 k ) · ( 1 2 )k · ( 1 2 )10−k = ( 10 k ) · ( 1 2 )10 . (4.1) 2. Lanzamiento de 10 monedas trucadas.- En un segundo paso supongamos que la moneda ha sido trucada, de manera que la probabilidad de que nos muestre una cara al lanzarla no es, como antes, 1/2, sino p. Ello supone que la probabilidad de obtener una cruz en cada lanzamiento valdrá 1 − p y si queremos obtener ahora P (X = k) el razonamiento del apartado anterior continua siendo válido, con la salvedad que las nuevas probabilidades de cara y cruz suponen. Es decir, la fórmula (4.1) se expresará ahora, P (X = k) = ( 10 k ) pk(1− p)10−k. (4.2) 3. Lanzamiento de n monedas trucadas.- Si generalizamos ahora el número de lanzamientos a n, la probabilidad de obtener k caras en los n lanzamientos se obtiene de (4.2) sustituyendo 10 por n. Es decir, P (X = k) = ( n k ) pk(1− p)n−k. (4.3) Extraigamos por último los rasgos esenciales del experimento aleatorio que acaba- mos de describir con detalle. Estos rasgos constituyen cuanto tienen en común todos los fenómenos aleatorios que pueden ser descritos mediante el modelo binomial. Rasgos esenciales de un modelos binomial: 1. Hemos llevado a cabo n repeticiones independientes de una misma prueba, todas ellas en las mismas condiciones. 2. En cada repetición nos hemos interesado por la ocurrencia, o no, de un mismo suceso, A. 3. La probabilidad de dicho suceso es la misma en cada repetición, P (A) = p. En consecuencia, cualquier experimento aleatorio que comparta estos rasgos po- drá ser descrito probabiĺısticamente mediante un adecuado modelo binomial. Por ejem- plo, la extracción de n bolas de una urna que contiene una proporción p de bolas blancas, siempre que dicha extracción se lleve a cabo con reemplazamiento (la bola se devuelve a la urna), los lanzamientos sucesivos de un dado correcto con el fin de conocer el número de ocasiones en que muestra determinada cara o conjunto de caras. 50 Caṕıtulo 4. Encuestas y proporciones Es costumbre denominar éxitos a las ocurrencias del suceso que nos interesa, de tal forma que decimos que X, la variable aleatoria asociada al modelo binomial, representa el número de éxitos obtenidos en las n pruebas. La notación X ∼ B(n, p) es una forma compacta de indicar que X es la variable aleatoria asociada a un modelo binomial con n pruebas independientes y con probabi- lidad de éxito p en cada prueba. Al igual que las variables estad́ısticas estudiadas en el caṕıtulo 1, las variables alea- torias pueden también ser descritas en forma resumida mediante algunas caracteŕısticas numéricas: la media y la varianza. La media, que se denomina también esperanza o valor esperado de la variable aleatoria X, se designa mediante la letra µ o mediante la expresión E(X) que se lee esperanza de X. Es, como ya dijimos, una medida de posición y nos indica el valor central alrededor del cual se sitúan los valores de X. En el caso de un modelo binomial, X ∼ B(n, p), el valor de su media es, µ = E(X) = np, cuya deducción rigurosa no expondremos aqúı. Podemos, no obstante, tratar de deducirlo intuitivamente: pensemos en los n lanzamientos de una moneda correc- ta, cualquiera que sea preguntado sobre el número de caras que obtendremos pensará, razonablemente, que la mitad de ellas serán caras; pero dicha mitad es, precisamente, n × 1/2 = np. Podŕıamos también deducir emṕıricamente dicho valor, para ello llevamos a cabo un determinado número de lanzamientos, m por ejemplo, y calculamos la media del número de caras, x̄ = nc/m, si repetimos nue- vamente los m lanzamientos y calculamos en cada ocasión x̄, la media de todas estas medias veremos que coincide o es muy próxima a 1/2× n. La varianza es, recordemos, una medida del grado de dispersión de X. Indicándo- nos de qué manera los valores se agrupan alrededor de la media. Se utiliza la letra σ para designarla. Para X ∼ B(n, p) la varianza vale, σ2 = np(1− p). Función de probabilidad del modelo binomial Si X ∼ B(n, p) la expresión (4.3) nos permite calcular la probabilidad de obtener k éxitos en las n pruebas. Podemos asociar a X una función que nos proporcione dicha probabilidad. A dicha función la denominaremos función de probabilidad de X y está definida de la siguiente forma, fX(x) =    ( n x ) px(1− p)n−x, si x = 0, 1, . . . , n 0, en el resto. Es interesante conocer la forma que tiene fX(x) para distintos valores de n y p. La Figura 1 muestra algunas gráficas en las que destaca, como rasgo común, la simetŕıa aproximada. 4.2 Encuestas y tamaños de muestra 53 valorar adecuadamente los porcentajes de voto partido o coalición, pero la realidad es que la ficha técnica aparece redactada en un lenguaje deliberadamente técnico en exce- so y requiere un nivel de conocimientos de probabilidad inusual, y también innecesario, para el lector habitual de prensa. El modelo binomial puede ayudarnos a comprender este lenguaje y su significado, puesto que es la herramienta utilizada para la obtención del error. Figura 2.- Ficha técnica de la encuesta de opinión publicada el 7 de marzo de 2004 en periódico EL PAIS sobre las elecciones generales del 14 de marzo de 2004. 4.2.1. Estimación de una proporción Si deseamos conocer la proporción, p, de individuos de una población que poseen determinada propiedad (fuman, beben absenta, votan al PJQDLG, compran puromoro, etc.) podemos actuar preguntando a cada uno ellos, si la población es lo suficientemente pequeña, o bien, como suele ser habitual porque la población es grande, eligiendo una parte pequeña de la misma y preguntando a los individuos que la componen. Esta parte pequeña de la población que finalmente vamos a examinar recibe el nombre de muestra y debe ser elegida en condiciones tales que, 1. cada elemento de la muestra es elegido independientemente de los otros elementos que la componen, y 2. cada individuo de la población tiene la misma probabilidad de ser elegido para formar parte de la muestra. Se dice entonces que hemos elegido una muestra al azar o que es una muestra aleatoria. Las técnicas para llevar a cabo la elección son diversas y de ellas también se habla, habitualmente, en la ficha técnica de la encuesta. El verdadero valor de p es desconocido, pero analizada la muestra sabemos la pro- porción de sus elementos que poseen la propiedad deseada y parece lógico utilizar esta proporción como un valor aproximado de p. En concreto, si la muestra tiene un tamaño n y m de sus elementos poseen la propiedad y si designamos por p̂ la proporción en la muestra, p̂ = m n , decimos que p̂ es una estimación de p. Aśı pues, la proporción muestral estima la proporción poblacional. 54 Caṕıtulo 4. Encuestas y proporciones Observemos que p̂ es una variable aleatoria, lo que significa que sucesivas muestras de tamaño n no proporcionarán, necesariamente, la misma estimación. Es fácil compro- barlo experimentalmente, basta para ello que extraigamos muestras del mismo tamaño y observemos los valores de p̂ obtenidos. La Figura 2 nos muestra los estad́ısticos des- criptivos más habituales y el histograma de los 100 valores de p̂ obtenidos a partir de otras tantas muestras de tamaño n = 10 extráıdas de una población de la que quere- mos conocer la proporción de lectores de la revista del ♥ Diez minutos a la semana. Queda bien patente la variabilidad de la estimación. p̂ media 0.298 mediana 0.300 varianza 0.021 desv. t́ıpica 0.144 mı́nimo 0 máximo 0.6 .63 .50 .38 .25 .13 0.00 Muestra n=10 60 50 40 30 20 10 0 Figura 3.- Estad́ısticos descriptivos e histograma de los valores de p̂ obtenidos en 100 muestras de tamaño 10 Un modelo de probabilidad para p̂ Si la muestra es de tamaño n, los posible valores de p̂ son p̂ = m n , m = 0, 1, 2, . . . , n. Lo relevante en el valor de p̂ es el numerador de la fracción, m, puesto que el denomina- dor vale siempre n, el tamaño de la muestra, por lo que si designamos por X el número de elementos de la muestra que satisfacen la propiedad deseada (éxitos), ocurrirá que los sucesos {p̂ = m/n} y {X = m} son equivalentes y por tanto P ( p̂ = m n ) = P (X = m), m = 0, 1, 2, . . . , n. Pero si la muestra es aleatoria, X ∼ B(n, p)1, siendo p la verdadera y desconocida proporción. 1Estrictamente hablando X no sigue un modelo binomial porque la probabilidad de obtener un éxito vaŕıa a medida que llevamos a cabo las distintas extracciones, puesto que el número de individuos N en la población, supuesta finita, disminuye en una unidad en cada extracción. Pero si el tamaño de la muestra n es muy pequeño con respecto a N , podemos considerar que la proporción se mantiene constante y el modelo binomial describe bien el comportamiento de X. 4.2 Encuestas y tamaños de muestra 55 Intervalo de confianza para p Lo que p̂ nos proporciona es lo que en Estad́ıstica se denomina una estimación puntual de la proporción desconocida p. El problema que se nos plantea es la variabilidad de p̂. Si observamos la tabla de la Figura 2, vemos que el rango de valores de p̂ vaŕıa entre un mínimo = 0 y un máximo = 0,6, lo que puede conducirnos a una estimación de p muy alejada de la realidad. Conviene por ello disponer de algún tipo de estimación complementaria. El llamado Intervalo de Confianza (IC) puede ayudarnos a soslayar, al menos en parte, el problema porque nos provee de información acerca del conjunto de posibles valores de p. ¿Qué es un IC y como se obtiene? Definición 1 Un Intervalo de Confianza al q %, 0 ≤ q ≤ 1, es un intervalo aleatorio de la forma ICq = [ p̂− tn−1,q √ p̂(1− p̂) n , p̂− tn−1,q √ p̂(1− p̂) n ] , que verifica, P (p ∈ ICq) = q100 . (4.4) De esta definición se derivan algunas propiedades que conviene destacar: 1. El IC es un intervalo simétrico cuyo punto medio es p̂. 2. La longitud del IC depende de dos factores que actúan en sentidos opuestos: tn−1,q, un valor que depende a su vez de n y del nivel de confianza, q, y que crece con este último de manera que, como el sentido común dicta, cuanto mayor sea q más grande será el IC. Los valores de tn−1,q se buscan en tablas adecuadas y para valores de n suficientemente grandes dependen sólo de q. √ p̂(1−p̂) n , que al depender inversamente de n implica que la longitud de IC disminuye a medida que aumenta el tamaño de la muestra, lo cual es lógico porque a mayor muestra, mayor información. 3. La interpretación de la igualdad (4.4) es la siguiente: si obtenemos un gran número de muestras cabe esperar que, aproximadamente, el q % de los IC cubran (con- tengan) a la verdadera proporción, p. 58 Caṕıtulo 4. Encuestas y proporciones En la encuesta que nos ocupa, n = 800 y t799,95 = 1,96, pero lo que todav́ıa no cono- cemos, hay que realizar la encuesta para ello, es el valor de p̂. Aqúı es donde adquiere significado la última frase “... bajo el supuesto de máxima indeterminación (p = 0,5)”. Significa que al no conocer p̂ se ha optado por asignarle el valor más desfavorable, que dará lugar a un error mayor del que en realidad se comete. Dicho valor es p̂ = 0,5 y es el que hace más grande el producto p̂(1− p̂). Sustituyendo en (4.7), δ = 1,96 √ 0,5(1− 0,5) 800 = 0,0348. Aśı pues, el error de la muestra no es más que la semilongitud del IC95. Tamaño de la muestra Puesto que el error de la muestra es la semilongitud del ICq, error y tamaño de la muestra están inversamente relacionados, como ya señalábamos en eṕıgrafe 2 de la página 55. Y uno permite calcular el otro y viceversa. En nuestro ejemplo concreto hemos podido calcular el error porque ya conoćıamos el tamaño de la muestra, aunque el procedimiento habitual es el contarais. Téngase en cuenta que el trabajo de campo, la realización de cada una de las entrevistas, tiene un elevado coste económico e impone, por tanto, una restricción al tamaño. La solución pasa por encontrar un equilibrio entre la calidad deseada (el error) y el coste (el ta- maño). A partir de (4.7), expresión de la semilongitud del ICq, podemos obtener n en función del error, δ, n = t2n−1,q δ2 p̂(1− p̂). (4.8) Como a priori se desconoce p̂, es costumbre suponer la situación más desfavorable haciendo p̂ = 1/2. Por otra parte, los tamaños muestrales son lo suficentemente grandes como para que tn−1,q = tq no dependa de n. Al sustituir en (4.8) n = t2q 4δ2 . (4.9) La Tabla 2 nos muestra los tamaños obtenidos al aplicar (4.9) a tres niveles de confianza y a tres errores para cada uno de ellos. q=90 tq=1,64 q=95 tq=1,96 q=99 tq=2,58 error 0,10 0,05 0,01 0,10 0,05 0,01 0,10 0,05 0,01 tamaño 69 272 6.765 97 385 9.605 167 664 16.588 Tabla 2.- Tamaños de muestra para distintos niveles de confianza y distintos errores Observación 1 Conviene recordar que todo cuanto hemos dicho sobre el error y el tamaño de la muestra es cierto siempre que la muestra sea aleatoria. 59 Caṕıtulo 5 Datos observados a lo largo del tiempo: números ı́ndices y series temporales 5.1. Números ı́ndices 5.1.1. Números ı́ndices simples La Tabla 5.1 muestra la evolución de la deuda de las Comunidades Autónomas desde 1995 hasta 2003. Dos hechos llaman la atención en la tabla, la elevada deuda de algunas comunidades como Cataluña, Madrid y Valencia y su evolución creciente, salvo algunas excepciones. Una manera sencilla de reflejar el crecimiento observado es calcular el crecimien- to percentual experimentado en cada año tomando como referencia inicial el dato del primer año. Este procedimiento es aplicable a cualesquiera datos que describan la evo- lución temporal de un fenómeno. A los valores aśı obtenidos se les denominan ı́ndices y al instante temporal que tomamos como referencia, que puede ser cualquiera de ellos, periodo base. La Tabla 5.2 recoge los ı́ndices de evolución de la deuda para cada Co- munidad Autónoma, obtenidos a partir de la expresión It = 100× dt dt0 , donde dt es la deuda del año t y t0 representa el año tomado como referencia. Las ventajas de obtener un ı́ndice como el propuesto son: 1. Facilita la comparación de cada ı́ndice anual con el del año base, que siempre vale 100, mediante la obtención del crecimiento relativo. Para ello basta restarle 100 a cada ı́ndice anual, IRt = It − 100 = 100× dt − dt0 dt0 . 60 Caṕıtulo 5. Datos observados a lo largo del tiempo: números ı́ndices y series temporales 1995 1996 1997 1998 1999 2000 2001 2002 2003 aragón 654 733 864 874 905 935 934 1.084 1.107 asturias 411 432 469 529 550 605 653 817 865 baleares 276 265 329 362 359 369 370 466 605 canarias 730 1.002 866 922 820 844 918 850 1.021 cantabria 222 157 171 168 215 227 259 272 303 c-la-mancha 420 471 505 581 561 603 605 784 807 c-león 808 883 1.019 1.056 1.075 1.086 1.260 1.344 1.424 cataluña 6.595 7.561 8.687 8.960 9.158 9.404 9.614 9.550 9.665 extremadura 464 525 522 564 617 613 711 782 782 galicia 2.088 2.334 2.500 2.677 2.939 3.019 3.080 3.130 3.156 la-rioja 133 121 117 124 133 140 156 148 164 madrid 2.791 3.321 3.780 4.201 4.468 4.728 5.958 6.131 6.246 murcia 545 551 554 568 599 608 687 684 685 navarra 789 777 752 687 667 648 646 643 643 pais-vasco 1.833 2.044 2.237 2.106 1.949 1.734 1.243 984 1.084 valencia 2.656 3.139 3.608 4.125 4.886 5.881 6.527 6.876 7.668 TOTAL 21.415 24.316 26.980 28.504 29.901 31.444 33.621 34.545 36.225 Tabla 5.1: Evolución de la deuda de las Comunidades Autónomas en miles de euros 1995 1996 1997 1998 1999 2000 2001 2002 2003 aragón 100 112,1 132,1 133,6 138,4 143,0 142,8 165,7 169,3 asturias 100 105,1 114,1 128,7 133,8 147,2 158,9 198,8 210,5 baleares 100 96,0 119,2 131,2 130,1 133,7 134,1 168,8 219,2 canarias 100 137,3 118,6 126,3 112,3 115,6 125,8 116,4 139,9 cantabria 100 70,7 77,0 75,7 96,8 102,3 116,7 122,5 136,5 c-la-mancha 100 112,1 120,2 138,3 133,6 143,6 144,0 186,7 192,1 c-león 100 109,3 126,1 130,7 133,0 134,4 155,9 166,3 176,2 cataluña 100 114,6 131,7 135,9 138,9 142,6 145,8 144,8 146,6 extremadura 100 113,1 112,5 121,6 133,0 132,1 153,2 168,5 168,5 galicia 100 111,8 119,7 128,2 140,8 144,6 147,5 149,9 151,1 la-rioja 100 91,0 88,0 93,2 100,0 105,3 117,3 111,3 123,3 madrid 100 119,0 135,4 150,5 160,1 169,4 213,5 219,7 223,8 murcia 100 101,1 101,7 104,2 109,9 111,6 126,1 125,5 125,7 navarra 100 98,5 95,3 87,1 84,5 82,1 81,9 81,5 81,5 pais-vasco 100 111,5 122,0 114,9 106,3 94,6 67,8 53,7 59,1 valencia 100 118,2 135,8 155,3 184,0 221,4 245,7 258,9 288,7 TOTAL 100 113,5 126,0 133,1 139,6 146,8 157,0 161,3 169,2 Tabla 5.2: Índice de la deuda de las Comunidades Autónomas 5.1 Números ı́ndices 63 actividades en los últimos años. La columna total recoge la suma de los precios de estas actividades para cada año y las dos últimas el ı́ndice elaborado con dicho total y el incremento relativo de año a año. cine teatro futbol hotel 3* restaurante total ı́ndice ∆anual 1997 3,0 10 15 40 14 82,0 100,00 1998 3,4 11 17 45 18 94,4 115,12 15,12 1999 3,5 13 20 47 21 104,5 127,44 10,70 2000 3,8 15 22 52 25 117,8 143,66 12,73 2001 4,1 17 25 54 29 129,1 157,44 9,59 2002 4,5 19 32 55 32 142,5 173,78 10,38 2003 4,7 20 35 57 33 149,7 182,56 5,05 2004 5,0 24 37 60 35 161,0 196,34 7,55 Tabla 5.4: Evolución de los precios de ocio y cultura de 1997 a 2004 El problema que presenta el ı́ndice elaborado en la Tabla 5.4 es que, al haber sido elaborado a partir de la suma directa de los precios de todas ellas, aquellas actividades de mayor precio son las que más influyen sobre él. Este efecto puede mitigarse si trabajamos con los ı́ndices de cada actividad y construimos después el ı́ndice conjunto como medio de todos ellos. La Tabla 5.5 muestra esta segunda alternativa. cine teatro futbol hotel 3* restaurante ı́ndicem ∆anual 1997 100,00 100,00 100,00 100,00 100,00 100,00 1998 113,33 110,00 113,33 112,50 128,57 115,55 15,55 1999 116,67 130,00 133,33 117,50 150,00 129,50 12,08 2000 126,67 150,00 146,67 130,00 178,57 146,38 13,04 2001 136,67 170,00 166,67 135,00 207,14 163,10 11,42 2002 150,00 190,00 213,33 137,50 228,57 183,88 12,74 2003 156,67 200,00 233,33 142,50 235,71 193,64 5,31 2004 166,67 240,00 246,67 150,00 250,00 210,67 8,79 Tabla 5.5: Evolución de los ı́ndices precios de ocio y cultura de 1997 a 2004 La Figura 5.3 muestra la comparación de ambos ı́ndices de agregación simple. Agregación ponderada.- Aunque el ı́ndice promedio equilibre la influencia de cada componente presenta todav́ıa un inconveniente, el que supone hacer intervenir a todas las actividades con el mismo peso. Si queremos construir un ı́ndice que refleje fielmente la evolución del gasto en ocio y cultura deberemos tener en cuenta que, por ejemplo, la gente va más al cine que al restaurante y que de vacaciones se suele salir una vez al año. Lo más apropiado será construir un ı́ndice que tenga en cuenta esta diversidad y que otorgue, por tanto, pesos distintos a las actividades. 64 Caṕıtulo 5. Datos observados a lo largo del tiempo: números ı́ndices y series temporales 20042003200220012000199919981997 220 200 180 160 140 120 100 80 ÍNDICE ÍNDICE_M Figura 5.3: Comparación de los dos ı́ndices de ocio y cultura Sencillamente, un ı́ndice agregado pero con ponderación. La ponderación puede hacerse de distintas formas, dando lugar a ı́ndices distintos. El más utilizado es el conocido como ı́ndice de Laspeyres, que debe su nombre a Ernst Louis Étienne Laspeyres (1834-1913), economista y estad́ıstico alemán fue profesor en las Universidades de Heidelberg, Basel, Riga (en la Escuela Politécnica Alemana), Dorpat (Estonia) y Karlsruhe. En 1874 obtuvo una cátedra en Ciencia Poĺıtica en Giessen (Alemania), donde permaneció hasta su retiro en 1900. La expresión del ı́ndice de Laspeyres para el año t es, Lt = 100× ∑N i=1 pitqi0∑N i=1 pi0qi0 , donde N es el número de productos que intervienen en el ı́ndice, pi0 es el precio del producto i en el año base, pit es el precio del producto i en el año t, y qi0 es la cantidad de producto i en el año base. El ı́ndice requiere conocer las cantidades de los diferentes productos consumidas en el año base y supone que dichas cantidades permanecen constantes. Este es de hecho el mayor inconveniente del ı́ndice de Laspeyres. Cuando dichas cantidades se suponen variables en el tiempo, supuesto lógico en ocasiones, existen alternativas que recogen recogen dichos cambios. Los ı́ndices de Paasche y Marshall-Edgeworth son dos de ellas que, no obstante, se utilizan poco. La Tabla 5.6 contiene los ı́ndices de Laspeyres calculados a partir del número medio de veces que anualmente la gente realiza las distintas actividades de ocio y cultura (primera fila). 5.1 Números ı́ndices 65 gasto anual por items gasto Índice de cine teatro futbol hotel 3* restaurante total Laspeyres veces 50 4 3 7 10 1997 165,0 40 45 200 56 506,00 100,00 1998 187,0 44 51 225 72 579,00 114,43 1999 192,5 52 60 235 84 623,50 123,22 2000 209,0 60 66 260 100 695,00 137,35 2001 225,5 68 75 270 116 754,50 149,11 2002 247,5 76 96 275 128 822,50 162,55 2003 258,5 80 105 285 132 860,50 170,06 2004 275,0 96 111 300 140 922,00 182,21 Tabla 5.6: Índices de Laspeyres de ocio y cultura para el periodo 1997-2004 La Figura 5.4 muestra la gráfica conjunta de los tres ı́ndices agregados. El ı́ndice de Laspeyres es siempre menor a lo largo del periodo, aumentando al diferencia a medida que nos alejamos del año base. Ello ese debido a la ponderación, puesto que el mayor peso corresponde al cine, que es la actividad de menor precio. 20042003200220012000199919981997 220 200 180 160 140 120 100 80 Laspeyres suma promedio Figura 5.4: Comparación de los dos ı́ndices agregados de ocio y cultura El Índice de Precios al Consumo (IPC) El IPC es un ı́ndice de Laspeyres que calcula mensualmente el INE (Instituto Na- cional de Estad́ıstica) para conocer cómo evolucionan los gastos de una familia española media. Detalles acerca de la metodoloǵıa empleada y los productos que componen la llamada cesta de la compra sobre la que se calcula el ı́ndice pueden encontrarse en la dirección http://www.ine.es/ipc. 68 Caṕıtulo 5. Datos observados a lo largo del tiempo: números ı́ndices y series temporales Teniendo en cuenta la naturaleza del fenómeno estudiado, la serie temporal pue- de ser discreta, cuando el fenómeno está definido solamente en los momentos que lo observamos (serie temporal de la edad de las actrices ganadoras de un Oscar), o conti- nua, cuando está definido para cualquier instante de tiempo (temperatura en la Plaza del Ayuntamiento de Valencia). Las series continuas suelen ser observadas a intervalos regulares de tiempo (temperatura diaria a las 12 del mediod́ıa). La forma de los datos de un serie temporal t́ıpica no es más que una simple sucesión de valores que representan las medidas tomadas en intervalos regulares. La Tabla 5.9 muestra las capturas anuales de linces en el ŕıo Mackenzie (distrito Noroeste del Canadá) durante el peŕıodo comprendido entre los años 1821 y 1934. año linces año linces año linces año linces año linces 1821 269 1844 213 1867 4254 1890 49 1913 3800 1822 321 1845 546 1868 687 1891 59 1914 3091 1823 585 1846 1033 1869 255 1892 188 1915 2985 1824 871 1847 2129 1870 473 1893 377 1916 3790 1825 1475 1848 2536 1871 358 1894 1292 1917 674 1826 2821 1849 957 1872 784 1895 4031 1918 81 1827 3928 1850 361 1873 1594 1896 3495 1919 80 1828 5943 1851 377 1874 1676 1897 587 1920 108 1829 4950 1852 225 1875 2251 1898 105 1921 229 1830 2577 1853 360 1876 1426 1899 153 1922 399 1831 523 1854 731 1877 756 1900 387 1923 1132 1832 98 1855 1638 1878 299 1901 758 1924 2432 1833 184 1856 2725 1879 201 1902 1307 1925 3574 1834 279 1857 2871 1880 229 1903 3465 1926 2935 1835 409 1858 2119 1881 469 1904 6991 1927 1537 1836 2285 1859 684 1882 736 1905 6313 1928 529 1837 2685 1860 299 1883 2042 1906 3794 1929 485 1838 3409 1861 236 1884 2811 1907 1836 1930 662 1839 1824 1862 245 1885 4431 1908 345 1931 1000 1840 409 1863 552 1886 2511 1909 382 1932 1590 1841 151 1864 1623 1887 389 1910 808 1933 2657 1842 45 1865 3311 1888 73 1911 1388 1934 3396 1843 68 1866 6721 1889 39 1912 2713 Tabla 5.9: Capturas anuales de linces en el ŕıo Mackenzie (distrito Noroeste del Canadá) ¿Cuáles son los objetivos del análisis de una serie temporal? Fundamentalmente los siguientes: Descripción.- Sin duda el objetivo más modesto, la descripción de una serie temporal consiste en la obtención de caracteŕısticas numéricas que resuman la información que contiene, a semejanza de como hacemos con una muestra de una variable aleatoria. Pero dada la complejidad de una serie temporal, a diferencia de lo que ocurre con la muestra, es más conveniente ayudarnos mediante una función a la hora de describirla. No basta con resumir la información mediante, por ejemplo, 69 un valor medio m, puede ser más apropiado hacerlo utilizando una función mt que resume los valores medios a lo largo del tiempo. En estas circunstancias, la representación gráfica de los valores de la serie, o de transformaciones de los mismos, puede ser de gran ayuda y se convierte en un elemento indispensable de la descripción. Predicción.- Una tarea más compleja y de mucha más utilidad es la de predecir fu- turos valores de la serie, lo que exige una modelización previa de la serie. La habilidad para construir modelos que permitan predicciones fiables es, obviamen- te, de gran importancia en cualquier actividad económica, financiera, cient́ıfica, . . . Intervención.- El número semanal de accidentes mortales antes y después de la pro- mulgación de una ley sobre el uso de cinturones de seguridad o la productividad diaria antes y después de la entrada en vigor de un plan de incentivos, son fenóme- nos que tiene en común un hipotético cambio de su patrón habitual de comporta- miento debido a la ocurrencia de determinado suceso. Como el tiempo en el que el suceso ha ocurrido es conocido, el objetivo del análisis de la serie temporal es determinar si el suceso ha provocado cambios significativos en el comportamiento del fenómeno. Control.- Son muchos los procesos de producción en los que el resultado final depen- de de una o más variables. El análisis de series temporales puede ayudarnos a conocer cómo las modificaciones de esas variables actúan sobre el resultado final, permitiendo aśı un control del proceso de producción. El estudio detallado de todos estos aspectos exige un contenido teórico que está fuera del alcance y del carácter introductorio de este curso. Nos ocuparemos del primero de ellos, la descripción, porque apenas requiere fundamentación teórica, y veremos algunos ejemplos que ilustren la predicción. 5.2.2. Una breve nota teórica Mediante yt, t = 1, 2, . . . , n designaremos los valores observados de la serie temporal. Su análisis pretende obtener un modelo teórico que ayude a la mejor comprensión del fenómeno que la ha generado. Un modelo sencillo que permite abordar una gran parte de los problemas reales es el que tiene la forma, Yt = µt + Ut y que supone que la serie Yt es el resultado de la suma de dos efectos una cantidad no aleatoria, µt, que representa los valores medios de Yt a lo largo del tiempo y que denominamos tendencia, y una cantidad aleatoria, Ut, que suponemos estacionaria, entendiendo por tal que su comportamiento probabiĺıstico es el mismo a lo largo del tiempo. En ocasiones 70 Caṕıtulo 5. Datos observados a lo largo del tiempo: números ı́ndices y series temporales esta hipótesis no puede ser mantenida, pero se procede a transformar la serie para obtener una nueva serie que śı verifica la condición. Esta modelización de Yt asume impĺıcitamente una caracteŕıstica adicional para cada una de las componentes con el objetivo de hacer posible en la práctica la separación de ambas. Se supone que la tendencia, µt, es lisa, suave o regular (smooth) mientras que Ut es rugosa o irregular (rough), aunque la delimitación entre ambos conceptos puede resultar confusa en la medida que dependen de la escala de observación que se utilice. Señalábamos en la introducción que la dependencia entre los distintos valores es lo que distingue una serie temporal de una muestra de valores procedentes de cualquier variable aleatoria. Conocer el comportamiento de esta dependencia a través del tiempo es de gran ayuda a la hora de hacer hipótesis acerca de la forma de Ut y, en definitiva, de la modelización de la serie. Las llamadas funciones de autocovarianza y autocorrelación describen este comportamiento. La función de autocovarianza se define mediante γ(t, s) = cov(Yt, Ys) = E[(Yt − µt)(Y s− µs)], pero si admitimos la estacionariedad, (t,s), depende solamente de la distancia entre t y s, es decir, γ(t, s) = γ(|t − s|). Por esta razón se hace referencia a la autocovarianza a distancia k, γ(k) = cov(Yt, Yt+k). Obsérvese que γ(0) = var(Yt) = σ2t y que γ(k) = γ(−k). La función de autocorrelación se define, siempre bajo la hipótesis de estacio- nariedad, mediante ρ(k) = γ(k)/γ(0) y tiene algunas propiedades interesantes que enumeramos: a) ρ(k) = ρ(−k) b) −1 ≤ ρ(k) ≤ 1 c) ρ(0) = 1. El ejemplo que muestra la Figura 5.6 es la simulación de la evolución mensual de los precios de un producto ficticio. Se trata de una evolución con tendencia rectiĺınea creciente, se supone que a partir de un precio inicial de 12 unidades hay un incremento mensual del 1,5 % al que se añade una componente aleatoria Normal con media 0 y desviación t́ıpica 1,5. 73 t (meses, 1=Enero 1974) 706050403020101 n úm er o d e m u er te s 3000 2500 2000 1500 1000 500 0 Figura 5.8: Muertes mensuales por enfermedades pulmonares en el Reino Unido durante el peŕıodo 1974-79. Hombres (ĺınea continua) y mujeres (ĺınea discontinua) tiempo (semanas) 320300280260240220200 pr ec io la na 800 750 700 650 600 550 500 tiempo (semanas) 300280260240220200 precio lana 900 850 800 750 700 650 600 550 500 Figura 5.9: Precio semanal de la lana de 19 mm de espesor nominal en el mercado australiano durante el peŕıodo comprendido entre noviembre del 81 y junio del 84 Medias móviles Consiste en sustituir cada valor de la serie por una media ponderada de las 2p+1 observaciones sucesivas centradas en dicho valor, st = j=p∑ j=−p ωjyt+j , con los pesos, ωj , positivos y ωj = ω−j . Esta es la expresión más general de la media móvil pero habitualmente se suaviza con la media aritmética de las 2p+1 74 Caṕıtulo 5. Datos observados a lo largo del tiempo: números ı́ndices y series temporales año 1929191719051893188118691857184518331821 ca p tu ra s 8000 6000 4000 2000 0 año 1929191719051893188118691857184518331821 ca pt u ra s 8000 6000 4000 2000 0 Figura 5.10: Gráficas de las capturas anuales de linces en el ŕıo Mackenzie (distrito Noroeste del Canadá) representadas con relaciones de aspecto 1.75 (superior) y 3 (in- ferior) observaciones, lo que supone ωj = 1/(2p + 1), ∀j. El suavizado es tanto mayor cuanto mayor es el número de observaciones que interviene en la media móvil como podemos comprobar en los ejemplos que siguen. En la Figura 5.11 se representa la serie temporal de las muertes mensuales de mujeres por enfermedades pulmonares durante el peŕıodo 1974-79 en el Reino Unido. En la misma gráfica aparecen las series resultantes de suavizar la anterior mediante medias móviles de 5 y 13 observaciones, quedando patente el fuerte sua- vizado que se produce en esta última. El suavizado mediante medias móviles de 13 observaciones tiene un efecto adicional que conviene señalar. La gráfica de la serie inicial pone de manifiesto un comportamiento estacional de las observacio- nes, puesto que se observan picos sistemáticos a lo largo de cada año. Una media móvil como la planteada (13 es el menor número de observaciones que siendo impar cubre el peŕıodo de los 12 meses de un año) elimina el efecto estacional y permite detectar, si existe, una tendencia a largo plazo. Al restar la serie suavizada de la original obtendremos el residuo, rt = yt − st, que esperamos presente un aspecto mucho más irregular (rugoso). La Figura 5.12 muestra las gráficas de los residuos correspondientes a los suavizados anteriores. Regresión polinómica El suavizado puede también ser tratado como un problema de regresión, en cuyo 75 año 197919781977197619751974 muertes (mujere s) 1200 1000 800 600 400 200 Figura 5.11: Gráficas de series temporales relacionadas con las muertes mensuales de mujeres por enfermedades pulmonares en el Reino Unido durante el peŕıodo 1974- 79. Serie inicial (—), suavizados con medias móviles de 5 observaciones (- -) y de 13 observaciones(– –) año 197919781977197619751974 residuos 800 600 400 200 0 -200 -400 Figura 5.12: Gráficas de los residuos correspondientes a las series suavizadas de la Figura 6. Suavizado con medias móviles de 5 observaciones (- -) y de 13 observaciones(– –) caso la tendencia se estima mediante el ajuste de un polinomio de grado p a los n pares de valores de la serie, (yti , ti), i = 1, . . . , n. El resultado de este ajuste será una función de la forma st = p∑ j=0 bjt j , cuyos coeficientes bj han de ser estimados a partir de los datos. El método más 78 Caṕıtulo 5. Datos observados a lo largo del tiempo: números ı́ndices y series temporales tiempo 301271241211181151121916131dif1 de l og del cociente de precios ,10 ,08 ,06 ,04 ,02 -,00 -,02 -,04 -,06 -,08 -,10 tiempo 301271241211181151121916131dif2 del log del cociente de prec ios ,10,08,06 ,04 ,02 -,00 -,02 -,04 -,06 -,08 -,10 Figura 5.15: Primera y segunda diferencias de la serie del logaritmo del cociente de precios de la lana 5.2.4. Series temporales estacionales La Figura 5.16 muestra la gráfica de la evolución mensual del número (en miles) de empleados en la industria alimenticia en el estado de Wisconsin. Los registros abarcan el periodo comprendido entre enero de 1961 y octubre de 1975. La Figura 5.17 corresponde a la serie temporal de los pasajeros (en miles) que ha transportado mensualmente una ĺınea aérea entre enero de 1949 y diciembre de 1960. Ambas series muestran un comportamiento análogo al de la serie de las muertes mensuales por enfermedades pulmonares en el Reino Unido que representábamos en la Figura 5.7. Estamos en los tres casos en presencia de fenómenos con comportamiento estacional, es decir, se trata de fenómenos que presentan crecimientos y decrecimientos que se repiten sistemáticamente a lo largo del tiempo. Aśı, el número de pasajeros y el de empleados de la industria alimenticia crece en los meses de verano debido al mayor consumo. Las series que describen fenómenos de esta caracteŕısticas reciben el nombre de series estacionales. La presencia de la componente estacional en estos fenómenos complica su estudio y su descripción. Veamos cómo podemos describirlas. 79 172163154145136127118109100918273645546372819101 empleados (miles) 80 70 60 50 Figura 5.16: Evolución del número de empleados mensuales en la industria alimenticia en el estado de Wisconsin entre enero de 1961 y octubre de 1975 137129121113105978981736557494133251791 pasajeros (miles) 700 600 500 400 300 200 100 0 Figura 5.17: Pasajeros transportados mensualmente por una ĺınea aérea entre enero de 1949 y diciembre de 1960 Descripción y análisis de series estacionales Como hemos visto anteriormente, la suavización de una serie pretende descompo- nerla en una suma de la forma yt = st + rt, donde st es una componente suave y rt es una componente rugosa o aleatoria. En el caso de series estacionales, dicho carácter está incluido en la componente rugosa y si queremos ponerlo de manifiesto deberemos expresar la anterior descomposición de esta otra forma yt = st + estt + rest, 80 Caṕıtulo 5. Datos observados a lo largo del tiempo: números ı́ndices y series temporales donde estt es la componente estacional y rest es el residuo. La componente estacional se repite, y por tanto es constante de estación a estación. La obtención de st podemos llevarla a cabo utilizando alguna de las técnicas descritas en anteriormente, pero recor- demos que la componente rugosa se obteńıa por diferencia entre la serie original y la suavizada, lo que supone conocer la suma del residuo y de la componente estacional. Descomponer esta suma para acceder a sus sumandos separadamente no es sencillo y para hacerlo podemos recurrir a algunos de los paquetes de software disponibles en el mercado (por ejemplo el software SPSS). Los detalles de utilización de estas herramien- tas se escapan al objetivo de estas notas. Veamos el resultado para el caso de la serie del número de empleados. Un elemento indispensable en el análisis de cualquier serie estacional es su peŕıodo o estación, número de observaciones a partir de las cuales el comportamiento estacional se repite. En la serie de los empleados, y también en la de los pasajeros, este peŕıodo es de 12 meses como fácilmente se deduce de la observación de la serie. La Figura 5.18 nos muestra una representación gráfica de la serie del número de empleados y de los distintos elementos que la componen. En ella se aprecia claramente que la componente estacional es constante a lo largo de los peŕıodos anuales y el carácter suave de la tendencia, que en este caso es prácticamente constante a lo largo de todos los años observados, mostrando quizás una ligera subida en los últimos meses. Figura 5.18: Las tres componentes de la serie del número de empleados de la industria alimenticia en el peŕıodo 1961-75 Para la serie de los pasajeros transportados podemos obtener una descomposición semejante que mostramos en la Figura 5.19. Se observa en la figura que la tendencia crece de manera prácticamente lineal a lo largo del peŕıodo de observación, como era de esperar a la vista del comportamiento de la serie original. Este hecho establece una importante diferencia con la serie anterior, aún cuando ambas sean estacionales, y conlleva también un tratamiento distinto a la hora de obtener su descomposición estacional. En efecto, para series con mayor estabilidad
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved