Rozkład normalny
Z Wikipedii
Rozkład normalny, zwany też rozkładem Gaussa, lub krzywą dzwonową, jest jednym z najważniejszych rozkładów prawdopodobieństwa. Odgrywa ważną rolę w statystycznym opisie zagadnień przyrodniczych, przemysłowych, medycznych, socjalnych itp.
Spis treści |
[edytuj] Definicja rozkładu normalnego
Istnieje wiele równoważnych sposobów zdefiniowania rozkładu normalnego. Należą do nich: funkcja gęstości, dystrybuanta, momenty, kumulanty, funkcja charakterystyczna, funkcja tworząca momenty i funkcja tworząca kumulanty. Wszystkie kumulanty rozkładu normalnego wynoszą 0 oprócz pierwszych dwóch.
[edytuj] Funkcja gęstości
Funkcja gęstości dla rozkładu normalnego ze średnią μ i odchyleniem standardowym σ (równoważnie: wariancją σ2) jest przykładem funkcji Gaussa.
(Zobacz też: funkcja potęgowa i pi). Jeśli zmienna losowa X ma ten rozkład, piszemy X ~ N(μ, σ²). Jeśli μ = 0 i σ = 1, rozkład nazywamy standardowym rozkładem normalnym, którego funkcja gęstości opisana jest wzorem:
Obrazek u góry artykułu przedstawia wykres funkcji gęstości rozkładu normalnego dla μ = 0 (w jednym przypadku μ=-2) i kilku różnych wartości σ. Im większe σ tym bardziej płaski jest wykres.
We wszystkich rozkładach normalnych funkcja gęstości jest symetryczna względem wartości średniej rozkładu. Około 68% pola pod wykresem krzywej znajduje się w odległości jednego odchylenia standardowego od średniej, około 95,5% w odległości dwóch odchyleń standardowych i około 99,7% w odległości trzech (reguła trzech sigm). Punkt przegięcia krzywej znajduje się w odległości jednego odchylenia standardowego od średniej.
[edytuj] Dystrybuanta
Dystrybuanta jest definiowana jako prawdopodobieństwo tego, że zmienna X ma wartości mniejsze bądź równe x i w kategoriach funkcji gęstości wyrażana jest (dla rozkładu normalnego) wzorem:
Całki powyższej nie da się policzyć dokładnie metodą analityczną. W konkretnych zagadnieniach do obliczenia wartości dystrybuanty stosuje się zatem tablice statystyczne (bądź też odpowiednie kalkulatory czy oprogramowanie komputerów). Tablice zawierają dane dla dystrybuanty standardowego rozkładu normalnego, tradycyjnie oznaczanej jako Φ i zdefiniowanej jako rozkład o parametrach μ = 0 i σ = 1:
Związek dystrybuanty Φ i dystrybuanty rozkładu normalnego X o dowolnie zadanych parametrach μ i σ otrzymuje się za pomocą standaryzowania rozkładu (zob. też poniżej).
Dystrybuanta standardowego rozkładu normalnego może być wyrażona poprzez funkcję specjalną (nieelementarną, przestępną), tzw. funkcję błędu jako:
[edytuj] Funkcje tworzące
[edytuj] Funkcja tworząca momenty
[edytuj] Funkcja charakterystyczna
Funkcję charakterystyczną definiuje się jako wartość oczekiwaną eitX.
[edytuj] Własności
- Jeśli X ~ N(μ, σ2) i a i b są liczbami rzeczywistymi, to aX + b ~ N(aμ + b, (aσ)2).
- Jeśli X1 ~ N(μ1, σ12) i X2 ~ N(μ2, σ22), i X1 i X2 są niezależne, to X1 + X2 ~ N(μ1 + μ2, σ12 + σ22).
- Jeśli X1, ..., Xn są niezależnymi zmiennymi losowymi o standardowym rozkładzie normalnym, to X12 + ... + Xn2 ma rozkład chi-kwadrat z n stopniami swobody.
[edytuj] Parametry rozkładu
- wartość oczekiwana: μ
- mediana: μ
- wariancja: σ2
- odchylenie standardowe: σ
- skośność: 0
- kurtoza: 0 (lub 3, przyjmując dawniej używaną definicję).
[edytuj] Standaryzowanie zmiennych losowych o rozkładzie normalnym
Konsekwencją własności 1 jest możliwość przekształcenia wszystkich zmiennych losowych o rozkładzie normalnym do standardowego rozkładu normalnego.
Jeśli X ma rozkład normalny ze średnią μ i wariancją σ2, wtedy:
Z jest zmienną losową o standardowym rozkładzie normalnym N(0, 1). Ważną konsekwencją jest postać dystrybuanty:
Odwrotnie, jeśli Z jest zmienną losową o standardowym rozkładzie normalnym, to:
jest zmienną o rozkładzie normalnym ze średnią μ i wariancją σ2.
Standardowy rozkład normalny został stablicowany i inne rozkłady normalne są prostymi transformacjami rozkładu standardowego. W ten sposób możemy używać tablic dystrybuanty rozkładu normalnego do wyznaczenia wartości dystrybuanty rozkładu normalnego o dowolnych parametrach.
[edytuj] Generowanie zmiennych losowych o rozkładzie normalnym
W symulacjach komputerowych zdarza się, że potrzebujemy wygenerować wartości zmiennej losowej o rozkładzie normalnym. Istnieje kilka metod, najprostszą z nich jest odwrócenie dystrybuanty standardowego rozkładu normalnego. Są jednak metody bardziej wydajne, jedną z nich jest transformacja Boxa-Mullera, w której dwie zmienne losowe o rozkładzie jednostajnym (prostym do wygenerowania — patrz generator liczb losowych) są transformowane na zmienne o rozkładzie normalnym.
Transformacja Boxa-Mullera jest konsekwencją własności 3 i faktu, że rozkład chi-kwadrat z dwoma stopniami swobody jest rozkładem wykładniczym (łatwym do wygenerowania).
[edytuj] Centralne twierdzenie graniczne
Jedną z najważniejszych własności rozkładu normalnego jest fakt, że, przy pewnych założeniach, rozkład sumy dużej liczby zmiennych losowych jest w przybliżeniu normalny. Jest to tak zwane centralne twierdzenie graniczne.
W praktyce twierdzenie to ma zastosowanie jeśli chcemy użyć rozkładu normalnego jako przybliżenia dla innych rozkładów.
- Rozkład dwumianowy z parametrami n i p jest w przybliżeniu normalny dla dużych n i p nie leżących zbyt blisko 1 lub 0. Przybliżony rozkład ma średnią równą μ = np i odchylenie standardowe σ = (n p (1 - p))1/2.
- Rozkład Poissona z parametrem λ jest w przybliżeniu normalny dla dużych wartości λ. Przybliżony rozkład normalny ma średnią μ = λ i odchylenie standardowe σ = √λ.
Dokładność przybliżenia tych rozkładów zależy od celu użycia przybliżenia i tempa zbieżności do rozkładu normalnego. Zazwyczaj takie przybliżenia są mniej dokładne w ogonach rozkładów.
[edytuj] Nieskończona podzielność
Rozkład normalny należy do rozkładów mających własność nieskończonej podzielności.
[edytuj] Występowanie
[edytuj] Natężenie źródła światła
Natężenie światła z pojedynczego źródła zmienia się w czasie i zazwyczaj zakłada się, że ma rozkład normalny. Jednak zgodnie z mechaniką kwantową światło jest strumieniem fotonów. Zwykłe źródło światła, świecące dzięki termicznej emisji, powinno świecić w krótkich przedziałach czasu zgodnie z rozkładem Poissona lub rozkładem Bosego-Einsteina. W dłuższym przedziale czasowym (dłuższym niż czas koherencji) dodawanie się do siebie niezależnych zmiennych prowadzi w przybliżeniu do rozkładu normalnego. Natężenie światła lasera, który jest zjawiskiem kwantowym, ma dokładnie rozkład normalny.
[edytuj] Błędy pomiaru
Wielokrotne powtarzanie tego samego pomiaru daje wyniki rozrzucone wokół określonej wartości. Jeśli wyeliminujemy wszystkie większe przyczyny błędów, zakłada się, że pozostałe mniejsze błędy muszą być rezultatem dodawania się do siebie dużej liczby niezależnych czynników, co daje w efekcie rozkład normalny. Odchylenia od rozkładu normalnego rozumiane są jako wskazówka, że zostały pominięte błędy systematyczne. To stwierdzenie jest centralnym założeniem teorii błędów.