Interpretacja wyników w analizie korespondencji


W analizie korespondencji interpretacji poddawana jest przede wszystkim mapa korespondencji. Zasadniczo interpretacja jest intuicyjna – obiekty położone blisko siebie są podobne, obiekty położone daleko od siebie są od siebie różne. Możliwe jest porównywanie tych odległości w obrębie profili wierszowych oraz w obrębie profili kolumnowych. Należy tu wszakże zrobić ważne zastrzeżenie. Nie jest dopuszczalna bezpośrednia interpretacja odległości pomiędzy profilami wierszowymi a kolumnowymi. W tym miejscu możliwe jest jedynie stwierdzenie o bliskości (lub oddaleniu) profilu wierszowego od kolumnowego. Jeśli są blisko siebie, oznacza to, że mają tendencję do współwystępowania, natomiast jeśli są od siebie oddalone – znaczy to, że współwystępowanie danej kategorii zmiennej wierszowej i kolumnowej jest rzadkie ( poniższy rysunek 2.1).

Wartości własne, czyli kwadraty wartości szczególnych, odpowiadają wartości inercji wyjaśnionej przez każdą z osi głównych. Im większa część inercji jest wyjaśniana przez daną oś, tym więcej informacji niesie układ profili na tej osi.

Interpretacji mogą podlegać ponadto wartości kontrybucji profili wierszowych i kolumnowych do inercji osi głównych, a także kontrybucje osi głównych do inercji profili wierszowych i kolumnowych. Przyjrzyjmy się teraz, jak uzyskać te dane.

Każda z wartości ogólnej inercji (ang. principal inertia) k może być zdekomponowana na komponenty  odpowiadające każdemu wierszowi:

                                                       (2.29.)

i

w zapisie macierzowym:

                                                  (2.30)

Tabela 2.17. Inercja ka dej osi dla profili wierszowych

Źródło: obliczenia własne

Kontrybucje wierszy do inercji ogólnej są zwykle definiowane jako komponenty inercji w odniesieniu do ich sumy (inercji ogólnej wiersza k):

                                                           (2.31.)

Tabela 2.18. Procent inercji osi głównych wyjaśnionej przez profile wierszowe

  K1 K2 K3
niebieskie 0,1072 0,1212 0,6382
jasne 0,2859 0,0764 0,3445
zielone 0,0019 0,6570 0,0120
ciemne 0,6050 0,1455 0,0052
Źródło: obliczenia własne

W ten sposób możemy sprawdzić, które wiersze wnoszą największy wkład do inercji danego wymiaru. Interpretacja wartości kontrybucji (ang. contrubutions to inertia) wierszowych jest odmienna w stosunku do interpretacji kwadratów ładunków czynnikowych z analizy głównych składowych. Kwadraty ładunków czynnikowych mówią, do jakiego stopnia każdy wiersz kategorii i każda kolumna jest opisywana przez daną oś, natomiast kontrybucja do inercji pokazuje, do jakiego stopnia geometryczne ułożenie osi jest zdeterminowane przez pojedynczą zmienną kategorii (Greenacre, 1994: 66).

W tabeli 2.18 widzimy, że w przypadku pierwszej osi (K1) największą „silę rozpinającą” ten wymiar posiada kategoria ciemnych oczu (0,605), natomiast oś druga (K2) rozpinana jest najsilniej przed kategorie zielonych oczu (0,657). Fakty te znajdują swoje odzwierciedlenie na mapie analizy korespondencji przedstawionej na wykresie (rysunek 2.1). Po prawej stronie wykresu widac kategorie „ciemne [oczy]”, która jest wyraźnie oddalona od pozostałych kategorii tej zmiennej.

Kontrybucja kategorii „jasne” do pierwszego wymiaru wynosi 0,2859, natomiast kontrybucja kategorii „niebieskie” do pierwszego wymiaru wynosi 0,1072. Kategoria „jasne” ma wyższą wartość ze względu na większą masę tego profilu. Z kolei w przypadku drugiego wymiaru wyraźnie widać, że kategoria „zielone” znalazła się jako jedyna po dodatniej stronie drugiego wymiaru, podczas gdy pozostałe kategorie znajdują się po jego ujemnej stronie.

Mapa (rysunek 2.1) jest „wzbogacona” w stosunku do standardowych map analizy korespondencji poprzez zaznaczenie mas każdego profilu – wielkość punktów profili jest powiązana z masami w ten sposób, że profile o większej masie oznaczone są przy pomocy punktów o większej powierzchni. Pozwala to zidentyfikować profile o bardzo małej masie, które mocno rozpinają dany wymiar. Algorytm analizy korespondencji operuje na częstościach względnych, wobec tego kategorie o małych liczebnościach bezwzględnych mają często tendencję do silniejszej dysproporcji w rozłożeniu mas. W analizowanym przykładzie zjawisko to widać dobrze w przypadku najmniej licznej kategorii „bruneci”, którzy stanowią jedynie 0,022 całej liczby. W tabeli 2.3 przedstawiającej macierz profili kolumnowych profil „bruneci” wygląda następująco: (0,025, 0,034, 0,220, 0,720). Widać wyraźną względną nadreprezentację na ostatnim wymiarze. To znajduje swoje odzwierciedlenie także w macierzy rezyduów standaryzowanych w tabeli 2.8. Odległość w komórce na przecięciu „bruneci” i „ciemne” jest jedną z największych w całym układzie.

Innym sposobem na sprawdzenie tego, które kategorie mają statystycznie istotnie silniejszą tendencję do współwystępowania jest przeprowadzenie korelacji parami (ang. pairwise correlation). Tabela 2.19 przedstawia macierz korelacji parami naszych zmiennych. Widać w niej wyraźnie silniejszą niż w innych przypadkach dodatnią korelację między kategoriami „bruneci” i „ciemne włosy”. Tabela wskazuje ponadto, że w zasadzie wszystkie kategorie (oprócz koniunkcji: rudzi&niebieskie i rudzi&zielone) wykazują korelacje istotne statystycznie.

Tabela 2.19. Macierz korelacji parami dwu zmiennych. (**) oznaczają istotność statystyczną korelacji na poziomie 0,01, (*) – istotność na poziomie 0,05.

  blondyni rudzi szatyni ciemnowłosi bruneci
niebieskie 0.162(**) 0 -0.049(**) -0.094(**) -0.047(**)
jasne 0.24(**) 0.058(**) -0.036(**) -0.205(**) -0.085(**)
zielone -0.121(**) -0.018 0.166(**) -0.042(**) -0.035(*)
ciemne -0.25(**) -0.042(**) -0.105(**) 0.337(**) 0.166(**)

Źródło: obliczenia własne

Komponenty inercji dla i-tego wiersza dla wszystkich K osi (wymiarów) sumują się do inercji i-tego wiersza, którą definiuje się jako iloczyn masy wiersza i kwadratu odległości wiersza od centroidu (profilu średniego):

Inercja wierszowa po lewej stronie jest identyczna z sumą kwadratów elementów i-tego wiersza macierzy A:

Kwadraty korelacji wierszy z osiami głównymi (wymiarami) to komponenty inercji r,fk wyrażone w odniesieniu do inercji wierszy:

W zredukowanej K*-wymiarowej przestrzeni wyjaśniona inercja może być zsumowana dla K* wymiarów w celu otrzymania miary jakości odwzorowania dla każdego wiersza:

Jakość odwzorowania i-tego wiersza

Tabela 2.20 Inercje wierszy

niebieskie    0,0256

jasne            0,0596

zielone          0,0201

ciemne       0 1249

Źródło: obliczenia własne

Tabela 2.21 Kontrybucje osi głównych do wierszy

niebieskie 0,8358 0,1427 0,0215
jasne 0,9564 0,0386 0,0050
zielone 0,0185 0,9810 0,0005
ciemne 0,9649 0,0350 0,0000

Źródło: obliczenia własne

Geometrycznie rzecz ujmując, miary jakości odzwzorowania mogą być również interpretowane jako kwadraty cosinusów kąta pomiędzy każdym profilem wierszowym i podprzestrzenią zdefiniowaną przez pierwsze K* wymiarów. Miary jakości odwzorowania są odpowiednikami communalities w analizie głównych składowych. Tabela 2.22 pokazuje jakość rozwiązania dwuwymiarowego – zsumowane dwie pierwsze kolumny tabeli z kontrybucjami osi głównych do wierszy (tabela 2.21).

Tabela 2.22 Jakość odwzorowania profili wierszowych przy użyciu rozwiązania dwuwymiarowego

niebieskie     0,9785

jasne              0,9950

zielone           0,9995

ciemne         1,0000

Źródło: obliczenia własne