Interpretacja wyników w analizie korespondencji
6 września 2020 Dodaj komentarz
W analizie korespondencji interpretacji poddawana jest przede wszystkim mapa korespondencji. Zasadniczo interpretacja jest intuicyjna – obiekty położone blisko siebie są podobne, obiekty położone daleko od siebie są od siebie różne. Możliwe jest porównywanie tych odległości w obrębie profili wierszowych oraz w obrębie profili kolumnowych. Należy tu wszakże zrobić ważne zastrzeżenie. Nie jest dopuszczalna bezpośrednia interpretacja odległości pomiędzy profilami wierszowymi a kolumnowymi. W tym miejscu możliwe jest jedynie stwierdzenie o bliskości (lub oddaleniu) profilu wierszowego od kolumnowego. Jeśli są blisko siebie, oznacza to, że mają tendencję do współwystępowania, natomiast jeśli są od siebie oddalone – znaczy to, że współwystępowanie danej kategorii zmiennej wierszowej i kolumnowej jest rzadkie ( poniższy rysunek 2.1).
Wartości własne, czyli kwadraty wartości szczególnych, odpowiadają wartości inercji wyjaśnionej przez każdą z osi głównych. Im większa część inercji jest wyjaśniana przez daną oś, tym więcej informacji niesie układ profili na tej osi.
Interpretacji mogą podlegać ponadto wartości kontrybucji profili wierszowych i kolumnowych do inercji osi głównych, a także kontrybucje osi głównych do inercji profili wierszowych i kolumnowych. Przyjrzyjmy się teraz, jak uzyskać te dane.
Każda z wartości ogólnej inercji (ang. principal inertia) k może być zdekomponowana na komponenty odpowiadające każdemu wierszowi:
i
w zapisie macierzowym:
Tabela 2.17. Inercja ka dej osi dla profili wierszowych
Źródło: obliczenia własne
Kontrybucje wierszy do inercji ogólnej są zwykle definiowane jako komponenty inercji w odniesieniu do ich sumy (inercji ogólnej wiersza k):
Tabela 2.18. Procent inercji osi głównych wyjaśnionej przez profile wierszowe
K1 | K2 | K3 | |
niebieskie | 0,1072 | 0,1212 | 0,6382 |
jasne | 0,2859 | 0,0764 | 0,3445 |
zielone | 0,0019 | 0,6570 | 0,0120 |
ciemne | 0,6050 | 0,1455 | 0,0052 |
Źródło: obliczenia własne |
W ten sposób możemy sprawdzić, które wiersze wnoszą największy wkład do inercji danego wymiaru. Interpretacja wartości kontrybucji (ang. contrubutions to inertia) wierszowych jest odmienna w stosunku do interpretacji kwadratów ładunków czynnikowych z analizy głównych składowych. Kwadraty ładunków czynnikowych mówią, do jakiego stopnia każdy wiersz kategorii i każda kolumna jest opisywana przez daną oś, natomiast kontrybucja do inercji pokazuje, do jakiego stopnia geometryczne ułożenie osi jest zdeterminowane przez pojedynczą zmienną kategorii (Greenacre, 1994: 66).
W tabeli 2.18 widzimy, że w przypadku pierwszej osi (K1) największą „silę rozpinającą” ten wymiar posiada kategoria ciemnych oczu (0,605), natomiast oś druga (K2) rozpinana jest najsilniej przed kategorie zielonych oczu (0,657). Fakty te znajdują swoje odzwierciedlenie na mapie analizy korespondencji przedstawionej na wykresie (rysunek 2.1). Po prawej stronie wykresu widac kategorie „ciemne [oczy]”, która jest wyraźnie oddalona od pozostałych kategorii tej zmiennej.
Kontrybucja kategorii „jasne” do pierwszego wymiaru wynosi 0,2859, natomiast kontrybucja kategorii „niebieskie” do pierwszego wymiaru wynosi 0,1072. Kategoria „jasne” ma wyższą wartość ze względu na większą masę tego profilu. Z kolei w przypadku drugiego wymiaru wyraźnie widać, że kategoria „zielone” znalazła się jako jedyna po dodatniej stronie drugiego wymiaru, podczas gdy pozostałe kategorie znajdują się po jego ujemnej stronie.
Mapa (rysunek 2.1) jest „wzbogacona” w stosunku do standardowych map analizy korespondencji poprzez zaznaczenie mas każdego profilu – wielkość punktów profili jest powiązana z masami w ten sposób, że profile o większej masie oznaczone są przy pomocy punktów o większej powierzchni. Pozwala to zidentyfikować profile o bardzo małej masie, które mocno rozpinają dany wymiar. Algorytm analizy korespondencji operuje na częstościach względnych, wobec tego kategorie o małych liczebnościach bezwzględnych mają często tendencję do silniejszej dysproporcji w rozłożeniu mas. W analizowanym przykładzie zjawisko to widać dobrze w przypadku najmniej licznej kategorii „bruneci”, którzy stanowią jedynie 0,022 całej liczby. W tabeli 2.3 przedstawiającej macierz profili kolumnowych profil „bruneci” wygląda następująco: (0,025, 0,034, 0,220, 0,720). Widać wyraźną względną nadreprezentację na ostatnim wymiarze. To znajduje swoje odzwierciedlenie także w macierzy rezyduów standaryzowanych w tabeli 2.8. Odległość w komórce na przecięciu „bruneci” i „ciemne” jest jedną z największych w całym układzie.
Innym sposobem na sprawdzenie tego, które kategorie mają statystycznie istotnie silniejszą tendencję do współwystępowania jest przeprowadzenie korelacji parami (ang. pairwise correlation). Tabela 2.19 przedstawia macierz korelacji parami naszych zmiennych. Widać w niej wyraźnie silniejszą niż w innych przypadkach dodatnią korelację między kategoriami „bruneci” i „ciemne włosy”. Tabela wskazuje ponadto, że w zasadzie wszystkie kategorie (oprócz koniunkcji: rudzi&niebieskie i rudzi&zielone) wykazują korelacje istotne statystycznie.
Tabela 2.19. Macierz korelacji parami dwu zmiennych. (**) oznaczają istotność statystyczną korelacji na poziomie 0,01, (*) – istotność na poziomie 0,05.
blondyni | rudzi | szatyni | ciemnowłosi | bruneci | |
niebieskie | 0.162(**) | 0 | -0.049(**) | -0.094(**) | -0.047(**) |
jasne | 0.24(**) | 0.058(**) | -0.036(**) | -0.205(**) | -0.085(**) |
zielone | -0.121(**) | -0.018 | 0.166(**) | -0.042(**) | -0.035(*) |
ciemne | -0.25(**) | -0.042(**) | -0.105(**) | 0.337(**) | 0.166(**) |
Źródło: obliczenia własne
Komponenty inercji dla i-tego wiersza dla wszystkich K osi (wymiarów) sumują się do inercji i-tego wiersza, którą definiuje się jako iloczyn masy wiersza i kwadratu odległości wiersza od centroidu (profilu średniego):
Inercja wierszowa po lewej stronie jest identyczna z sumą kwadratów elementów i-tego wiersza macierzy A:
Kwadraty korelacji wierszy z osiami głównymi (wymiarami) to komponenty inercji r,fk wyrażone w odniesieniu do inercji wierszy:
W zredukowanej K*-wymiarowej przestrzeni wyjaśniona inercja może być zsumowana dla K* wymiarów w celu otrzymania miary jakości odwzorowania dla każdego wiersza:
Jakość odwzorowania i-tego wiersza
Tabela 2.20 Inercje wierszy
niebieskie 0,0256
jasne 0,0596
zielone 0,0201
ciemne 0 1249
Źródło: obliczenia własne
Tabela 2.21 Kontrybucje osi głównych do wierszy
Źródło: obliczenia własne |
Geometrycznie rzecz ujmując, miary jakości odzwzorowania mogą być również interpretowane jako kwadraty cosinusów kąta pomiędzy każdym profilem wierszowym i podprzestrzenią zdefiniowaną przez pierwsze K* wymiarów. Miary jakości odwzorowania są odpowiednikami communalities w analizie głównych składowych. Tabela 2.22 pokazuje jakość rozwiązania dwuwymiarowego – zsumowane dwie pierwsze kolumny tabeli z kontrybucjami osi głównych do wierszy (tabela 2.21).
Tabela 2.22 Jakość odwzorowania profili wierszowych przy użyciu rozwiązania dwuwymiarowego
niebieskie 0,9785
jasne 0,9950
zielone 0,9995
ciemne 1,0000
Źródło: obliczenia własne