Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

PARTE IV. TÉCNICAS DE CLASIFICACIÓN TEMA 8. Análisis Cluster Aplica, Apuntes de Industria y Comercio

Asignatura: Técnicas Estadísticas Multivariables, Profesor: Maria Ángeles Gutiérrez Salinero, Carrera: Comercio, Universidad: UCM

Tipo: Apuntes

2016/2017

Subido el 25/05/2017

granger05
granger05 🇪🇸

2.9

(14)

7 documentos

1 / 46

Documentos relacionados


Vista previa parcial del texto

¡Descarga PARTE IV. TÉCNICAS DE CLASIFICACIÓN TEMA 8. Análisis Cluster Aplica y más Apuntes en PDF de Industria y Comercio solo en Docsity! PARTE IV. TÉCNICAS DE CLASIFICACIÓN TEMA 8. Análisis Cluster 1. Objetivos del Análisis Cluster. Aplicaciones 2. Matriz de distancias 3. Métodos jerárquicos 4. Métodos no jerárquicos 5. Interpretación de los resultados del análisis • El objetivo de las técnicas estadísticas de ANÁLISIS CLUSTER o de CONGLOMERADOS es identificar grupos de individuos con características comunes a partir de la observación de varias variables en cada uno de ellos • Respecto de los valores del conjunto de variables : • Los grupos deben ser homogéneos dentro : los individuos de un mismo grupo serán lo más parecido que sea posible entre sí • Los grupos deben ser heterogéneos entre ellos: los individuos de grupos distintos deben ser lo más diferentes que sea posible • Los grupos serán mutuamente exclusivos (no comparten ningún elemento) y colectivamente exhaustivos (comprenden a todos los elementos) Objetivos del Análisis Cluster. Aplicaciones 120 100 AD 60 au 20 Muy adecuado .a . . 20 : , a . . z y ii .. 1 .. . .. O . . T T T 50 100 150 Poco adecuado La solución no siempre es OBVIA PARTE IV. TÉCNICAS DE CLASIFICACIÓN TEMA 8. Análisis Cluster 1. Objetivos del Análisis Cluster. Aplicaciones 2. Matriz de distancias 3. Métodos jerárquicos 4. Métodos no jerárquicos 5. Interpretación de los resultados del análisis • El objetivo de las técnicas estadísticas de ANÁLISIS CLUSTER o de CONGLOMERADOS es identificar grupos de individuos con características comunes a partir de la observación de varias variables en cada uno de ellos • Respecto de los valores del conjunto de variables : • Los grupos deben ser homogéneos dentro : los individuos de un mismo grupo serán lo más parecido que sea posible entre sí • Los grupos deben ser heterogéneos entre ellos: los individuos de grupos distintos deben ser lo más diferentes que sea posible • Los grupos serán mutuamente exclusivos (no comparten ningún elemento) y colectivamente exhaustivos (comprenden a todos los elementos) Objetivos del Análisis Cluster. Aplicaciones 120 100 AD 60 au 20 Muy adecuado .a . . 20 : , a . . z y ii .. 1 .. . .. O . . T T T 50 100 150 Poco adecuado La solución no siempre es OBVIA Para realizar un análisis Cluster es necesario proceder en dos etapas: 1. Como cada cluster estará constituido por un conjunto de individuos similares es necesario establecer como vamos a medir la similaridad (parecido) entre individuos 2. Una vez definidas las medidas que nos permitan conocer la proximidad entre los individuos de la muestra es necesario definir los distintos métodos de formación de los grupos, es decir, determinar, decidir cuando dos individuos formarán parte de un mismo grupo. Matriz de proximidades Caso Distancia euclídea al cuadrado 1:andaluci 2:aragón 3:asturias 4:baleare s 5:canarias 6:cantabri 7:cast-leó 8:cast- man 9:cataluña 10:com.va le 11:extrem ad 12:galicia 13:madrid 14:murcia 15:navarr a 16:país vas 17:la rioja 1:andaluci 0,000 17,607 14,958 36,333 7,870 13,466 10,828 11,093 31,099 17,179 3,409 30,957 19,113 8,612 32,906 20,922 35,547 2:aragón 17,607 0,000 3,634 17,385 19,872 1,484 2,489 2,988 8,704 6,491 20,107 17,619 11,470 6,535 3,944 6,797 6,669 3:asturias 14,958 3,634 0,000 27,085 24,064 1,889 1,848 1,756 17,251 11,707 14,791 15,910 19,983 9,689 11,335 11,884 15,820 4:baleares 36,333 17,385 27,085 0,000 17,384 18,344 24,906 28,822 10,275 14,800 45,892 40,712 9,228 22,485 20,991 20,349 20,516 5:canarias 7,870 19,872 24,064 17,384 0,000 17,189 17,732 20,339 23,994 15,688 15,434 39,822 7,451 11,996 33,406 22,383 34,352 6:cantabri 13,466 1,484 1,889 18,344 17,189 0,000 2,017 1,923 9,350 5,245 16,239 14,116 13,596 4,329 8,029 7,885 9,454 7:cast-leó 10,828 2,489 1,848 24,906 17,732 2,017 0,000 ,936 17,944 10,513 9,632 13,528 15,194 6,462 12,090 13,312 15,803 8:cast-man 11,093 2,988 1,756 28,822 20,339 1,923 ,936 0,000 17,490 10,992 11,313 14,914 18,121 5,998 11,451 11,203 13,650 9:cataluña 31,099 8,704 17,251 10,275 23,994 9,350 17,944 17,490 0,000 3,855 42,543 31,074 14,756 10,928 6,459 5,501 4,588 10:com.vale 17,179 6,491 11,707 14,800 15,688 5,245 10,513 10,992 3,855 0,000 24,943 19,993 14,191 3,057 9,996 7,107 9,203 11:extremad 3,409 20,107 14,791 45,892 15,434 16,239 9,632 11,313 42,543 24,943 0,000 24,837 27,165 13,696 39,408 32,179 43,993 12:galicia 30,957 17,619 15,910 40,712 39,822 14,116 13,528 14,914 31,074 19,993 24,837 0,000 44,306 15,362 31,455 37,618 27,007 13:madrid 19,113 11,470 19,983 9,228 7,451 13,596 15,194 18,121 14,756 14,191 27,165 44,306 0,000 15,642 16,843 13,860 21,500 14:murcia 8,612 6,535 9,689 22,485 11,996 4,329 6,462 5,998 10,928 3,057 13,696 15,362 15,642 0,000 14,745 10,167 12,718 15:navarra 32,906 3,944 11,335 20,991 33,406 8,029 12,090 11,451 6,459 9,996 39,408 31,455 16,843 14,745 0,000 4,883 3,316 16:país vas 20,922 6,797 11,884 20,349 22,383 7,885 13,312 11,203 5,501 7,107 32,179 37,618 13,860 10,167 4,883 0,000 6,790 17:la rioja 35,547 6,669 15,820 20,516 34,352 9,454 15,803 13,650 4,588 9,203 43,993 27,007 21,500 12,718 3,316 6,790 0,000 Esto es una matriz de disimilaridad. Castilla Leon- Castilla la Mancha Navarra Aragón Asturias Cataluña Cantabria Galicia ExtremaduraAndalucía Madrid Com. Valenciana País Vasco Murcia Obtenemos la matriz de distancias (distancias entre cada pareja de comunidades autónomas). Vemos que las CCAA que tienen una distancia menor son Castilla León y Castilla la Mancha. Estas CCAA se unirían en la primera etapa. Tenemos ahora 13 grupos o clusters. En la siguiente fase del proceso es necesario calcular la distancia entre cada una de las 12 CCAA por separado y la distancia entre esas 12 CCAA y el grupo formado por Castilla-León y Castilla la Mancha. Podrían ocurrir dos cosas: • que se formara un nuevo grupo con dos CCAA • que una CCAA se uniera al grupo formado por Castilla-León y Castilla la Mancha Pero ¿cómo definir la distancia entre el grupo formado por Castilla-León y Castilla la Mancha y el resto de CCAA? Existen varios métodos o criterios: Número de clusters Un buen instrumento para decidir el número de clusters es el dendrograma El dendrograma pone en relación la distancia de unión entre dos elementos con la distancia mayor existente; por tanto el número de grupos depende de la distancia a la que se haga el corte para analizar. Obviamente si el corte se hace a distancias pequeñas el número de grupos será mayor que si se toman distancias grandes porque entonces todos los elementos estarán comprendidos en pocos grupos. En general se debe detener el proceso de fusión cuando el salto en el dendrograma sea muy grande, (la distancia es tan alta que no es razonable fusionar los grupos) Aunque existen varios estadísticos para ayuda en la toma de la decisión, no están disponibles en SPSS. Dendrograma que utiliza una vinculación media (entre grupos) Combinación de conglomerados de distancia re-escalados Do 5 10 15 20 25 L L L L L cast-leó 7 cast-man 6 asturias 3 aragón 2 cantabri 6 com.vale 10 murcia 14 navarra 15 la rioja 17 cataluña 9 país vas 16 canarias 5 madrid 13 baleares 4 andaluci 1 extremad 11 galicia 12 Historial de conglomeración Primera aparición del clúster Clúster combinado de etapa Etapa etapa | Clústert ] Clúster2 | coeficientes Clúster1 Clúster 2 siguiente 1 Y B 336 o D 3 2 2 6 1,484 0 D 4 3 3 7 1,802 0 1 4 4 2 3 2,490 2 3 11 5 10 14 3,057 0 D 11 6 15 17 3,316 D D a 7 1 11 3,409 0 D 15 B 3 16 5,501 o D 3 3 3 15 5,680 B 6 2 10 5 13 7,451 0 D 13 11 2 10 7,796 4 5 2 2 2 3 11,028 11 3 14 13 4 5 13,306 D 10 14 14 2 4 19,458 12 13 15 15 1 2 2,674 7 14 16 16 1 12 26,202 15 D o Una vez creados los K grupos podemos representar gráficamente los valores medios (centros) de dichos grupos y obtener así un perfil para cada uno de ellos. Diferencias entre el cluster jerárquico y el no jerárquico Jerárquico • El número de grupos considerados se determina como consecuencia del análisis • Método no dinámico: una vez que un caso pasa a formar parte de un grupo, permanece en él hasta el final del proceso • El método jerárquico requiere la conversión de la matriz original a una matriz de distancias • Se utilizan para clasificar productos, marcas o empresas No jerárquico • Es necesario especificar el número de grupos a crear • Método dinámico: en cada fase del proceso los casos pueden cambiar de grupo • No requiere la conversión de la matriz original a una matriz de distancias • Recomendados para la agrupación de grandes conjuntos de datos como pueden ser clasificaciones de individuos, compradores, consumidores (requieren menos tiempo de cálculo que los jerárquicos) Una vez completado el proceso es necesario INTERPRETAR LOS GRUPOS. Para ello se consideran las características de los elementos que los componen, analizando si poseen o representan determinadas características en mayor medida que otras y recurriendo a las estadísticas descriptivas por grupo de las variables de partida: • El centroide de cada grupo. • Gráfico de perfiles de los grupos • Variables pasivas : son variables diferentes de las utilizadas para el análisis, (relacionadas con características socioeconómicas de los integrantes del grupo) • El objetivo último es poner un nombre a cada grupo Interpretación de los grupos o Dendrograma que utiliza una vinculación media (entre grupos) Combinación de conglomerados de distancia re-escalados 5 1 10 1 15 1 20 1 25 1 cast-leó 7 cast-man 9 asturias 3 aragón 2 cantabri 6 com.vale 10 murcia 14 navarra 15 la rioja 17 cataluña 9 país vas 16 canarias 5 madrid 13 baleares 4 andaluci1 extremad 11 galicia 12 PCS IE Wariables: La presentación preliminar del gréfico utiliza datos de ejemplo Sa comunida $ empleo agricultura [ Pg empleo industria [in... $ empleo servicios [s... $ empleo sector públi SL tasa de paro [paro] SÍ tasa de actividad [a.. $ renta familiar per cá $ productividad del tr Pg Puntua: empleo agr... S Puntua: empleo ind o . Establecer color Average Linkage Between Sroups) Puntua: Puntua: [más...] empleo empleo agricultura — industria No se ha seleccionado ninguna variable Elija entre: Favoritos Barras Sí Líneas Áreas Sectores/Polar DispersióniPuntos Histograma Máximos-mínimos Diagramas de caja Ejes dobles Average Linkage (Between Groups) —1 —2 —4 Puntuar puntuar PPuntua: PPurtuar Pruntuar Pruntuer Puntuar puntuar 3,000007 2000007] 1,000004 0000007 3 3 a 2 1000007 -2,000007 -3,00000: productividad del trabajo renta familiar per cápita tasa de actividad tasa de paro empleo sector púl empleo servicios empleo industria empleo agricultura Estos son los valores que aparecen en el gráfico de perfiles ATA REO Wariables: La presentación preliminar del gráfico utiliza datos de ejemplo E renta familiar per cá Establecer color $ productividad del tr Número inicial de $ Puntua: empleo agr vasos $ Puntua: empleo ind $ Puntua: empleo ser... $ Puntua: empleo se... Lg Puntua: tasa de pa. E Puntua: tasa de act... $ Puntua: renta famili $ Puntua: productivid $5 Número inicial de ca Puntua: empleo industña Puntua: Puntua: [Más...] empleo empleo agricultura — industria No se ha seleccionado RNGUAS ESE Elija entre: Favoritos _ Y [ere Líneas Áreas SectoresiPolar CispersiónPuntos Histograma Méáximos-minimos Diagramas de caja Ejes dobles (aceptar) (_ pesar] (Restablecer ] [cancelar ][_ ayuda] Número inicial de casos —1 —2 Puntuar pruntuas PPuntua: Puntuar pruntuas pruntuer Puntuar pruntua: 2000007 1,000007 elpal 0000007 -1 000007 -2,00000 productividad del trabajo renta familiar per cápita tasa de actividad tasa de paro empleo sector público empleo servicios empleo industria empleo agricultura •MUESTRA: 1.038 esquiadores •VALORACIÓN en una escala de 1 a 10: 1- nada importante, 10- muy importante. •VARIABLES 1. Calidad de las instalaciones 2. Tipo y calidad de nieve 3. Longitud y trazado de las pistas 4. Altura de la nieve 5. Rapidez de acceso 6. Precio de los remontes 7. Tipo servicios complementarios 8. Oferta de cursillos 9. Nº y variedad de servicios complementarios 10. Albergues y alojamiento 11. Facilidad de acceso 12. Coste económico general Individuo 1 v1 v2 ........... v12 Individuo 2 6 4 2 .......... 5 4 5 ......... Individuo 1.038 7 6 4 .......... MATRIZ DE DATOS Se fija en 2 el número de conglomerados a crear. Como resultado del análisis resultan agrupados los 1038 individuos de la muestra de la siguiente forma: Conglomerado 1: 550 (53%) Conglomerado 2: 488 (47%) Centros de gravedad finales Cong. 1 Cong. 2 Calidad Instalaciones 8,61 8,21 Tipo y calidad nieve 8,2 8,61 Longitud y trazado pistas 7,89 8,04 Altura nieve 6,84 7,43 Rapidez acceso 7,17 8,04 Precio remontes 4,35 7,45 Tipo Serv. Complementarios5,06 7,55 Oferta cursillos 2,98 7,95 Nº y variedad Serv. Compl. 4,74 7,16 Albergues y alojamiento 5,2 7,74 Facilidad de acceso 6,66 8,18 Coste económico general 4,01 8,39 VARIABLES PASIVAS Conglomerado 1 (sólo nieve) Conglomerado 2 (exigentes) Edad media 30.7 27.4 % alojados hotel 68% 57% % alojamiento en casa amigo o familia 3% 13% Nº medio años que esquía 7.3 2.8 Nº medio días esquí última temporada 15.7 8 % grupo/agencia viajes 26% 62% LOS EXIGENTES SON: MENOS EXPERTOS •Hace menos años que esquían •Esquían menos días al año NIVEL SOCIOEC. MÁS BAJO •Se alojan menos en hoteles y más en casas de amigos o familiares. •Van más en grupo o a través de agencia (que son las modalidades más baratas) •El segundo factor que valoran como más importante es el coste económico general ALGO MÁS JÓVENES Medidas de similaridad entre datos cuantitativos: ejemplos de distancias Distancia Euclídea Distancia Euclídea (para datos estandarizados) Distancia de Mahalanobis (no está en SPSS) Anexo opcional Coeficiente de concordancia simple Coeficiente de Jaccard Se usan menos: Sokal y Sneath Czekanowski y Sorensen Anexo opcional Distancias/Similitudes entre datos cualitativos Este caso no está implementado en SPSS Anexo opcional
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved