Korelacja
Z Wikipedii
Korelacja (słowo pochodzenia łacińskiego oznaczające wzajemny związek), pojęcie matematyczne, oznaczające wzajemne powiązanie, współzależność jakichś zjawisk lub obiektów.
W teorii prawdopodobieństwa i statystyce na ogół rozumie się tutaj zależność liniową zmiennych losowych i stosuje korelację Pearsona. Istnieją inne rodzaje korelacji, np. korelacja rangowa Spearmana, mierząca zależność monotoniczną, niekoniecznie liniową.
Rozważmy dwie zmienne losowe X i Y. Weźmy pod uwagę kowariancję tych zmiennych, czyli liczbę E[(X - EX)(Y - EY)], gdzie EX oznacza wartość średnią (nadzieję matematyczną, wartość oczekiwaną) zmiennej X. Podzielmy teraz tę liczbę przez iloczyn odchyleń standardowych obu zmiennych. To, co otrzymamy, nosi nazwę współczynnika korelacji i jest zawsze liczbą z przedziału [-1, 1].
![\rho(X, Y) = \frac{ \textrm{Cov} (X, Y) }{\sqrt{D^2X \cdot D^2Y}} = \frac{E[(X - EX) \cdot (Y-EY)]}{\sqrt{D^2X \cdot D^2Y}}](../../../math/3/3/9/3396446872d5d517f415c1378a1a5fff.png)
Jeżeli współczynnik korelacji wynosi 1 lub -1, to zmienne X i Y są całkowicie skorelowane (odpowiednio, dodatnio lub ujemnie); dzieje się tak wówczas, gdy między nimi występuje zależność liniowa. Jeśli współczynnik korelacji jest równy zeru, rozważane zmienne losowe nazywamy nieskorelowanymi.
Dla zastosowań ważny jest fakt, że w przypadku zmiennych X i Y o rozkładzie normalnym, współczynnik korelacji obu zmiennych jest miarą ich zależności i jest równy 0 wtedy, gdy obie zmienne są niezależne.
[edytuj] Wnioskowanie korelacyjne
Częstym błędem jest przyjmowanie, że zmienne silnie nawet skorelowane są związane jakimś związkiem przyczynowo-skutkowym, tym mocniejszym, im korelacja większa. Uświadamia to taki oto przykład: dźwięk syreny lokomotywy jest niezwykle silnie skorelowany z odjazdem pociągu ze stacji, nie jest on jednak żadną przyczyną ruchu - i odwrotnie, odjazd pociągu nie jest przyczyną dźwięku. W tym wypadku mamy jedynie do czynienia ze współwystępowaniem zjawisk, a nie związkiem przyczynowo-skutkowym. W związku z tym jeśli czynnik A (np wykształcenie) i czynnik B (np zarobki) korelują ze sobą, to powinno się tworzyć przynajmniej kilka hipotez na temat ewentualnego związku przyczynowego między nimi:
- Czynnik A wpływa na czynnik B. Tu: wykryto związek między zarobkami a wykształceniem, bo wyższe wykształcenie powoduje że dana osoba więcej zarabia.
- Czynnik B wpływa na czynnik A. Tu: ludzie zamożniejsi mają lepszy dostęp do wykształcenia i dlatego istnieje związek między zarobkami a wykształceniem.
- Jednocześnie A wpływa na B i B na A
- Istnieje czynnik C niezidentyfikowany w badaniu, który koreluje z A i z B. Tu: miejsce zamieszkania (lub ambicje) mogą być czynnikiem, który z jednej strony powoduje, że ktoś więcej zarabia, a z drugiej, że ma wyższe wykształcenie.
- Korelacja nie ujawnia żadnego związku przyczynowo - skutkowego.
Podobnie, można by się dopatrzyć silnej dodatniej korelacji między wzrostem liczby ludności w Indiach a liczbą samochodów w Polsce, choć jest to jedynie czysto statystyczna korelacja, współwystępowanie zjawisk, a nie jakikolwiek związek przyczynowo-skutkowy.
Innym częstym błędem jest niesprawdzanie, czy w próbie nie występują elementy odstające, które mogą całkowicie przekłamać wartość i zwrot współczynnika korelacji Pearsona.
Korelacja w naukach społecznych zbieżność stanu, lub zmian występująca pomiędzy jakimiś parametrami badanej próby np.: w badaniach ankietowych, co do których postawiono hipotezę, lub wynikła z analizy wyników z zastosowaniem metod statystyki. Interpretacja korelacji jest obwarowana licznymi rygorami, które ograniczają możliwość dopuszczenia błędnych wniosków.