Rozkład normalny – teoria

Rozkład normalny, znany również jako rozkład Gaussa lub krzywa Gaussa, jest najczęściej wykorzystywanym rozkładem w statystyce. Spowodowane jest to faktem, że jeśli jakaś wielkość jest średnią wielu pojedynczych zmiennych losowych, to niezależnie od ich rozkładu, jej rozkład będzie zbliżony do normalnego.
W rozkładzie normalnym najczęściej występujące obserwacje skupione są wokół średniej, a te które występują odpowiednio rzadziej, są oddalone od środka w proporcjonalnej odległości. Wykres rozkładu normalnego jest zawsze symetryczny.

Rozkład normalny N(μ,σ) gdzie:
μ
oznacza wartość oczekiwaną, czyli średnią. Zamiast μ używa się również litery m.
σ oznacza odchylenie standardowe- im większa jego wartość, tym częściej występują wartości oddalone od średniej.

Prawdopodobieństwo rozkładu N(μ,σ) prezentuje krzywa Gaussa:

krzywa Gaussa - prawdopodobieństwo rozkładu normalnego

  1.     \[X \sim N(\mu, \sigma)\, oraz \: a, b\varepsilon R \: oraz \: b>0 \: wtedy \: a+ bX \sim N(a + b \cdot \mu, b \sigma)\]

  2.     \[Jezeli\, X_{1} \sim N(\mu_{1}, \sigma_{1})\: to\: X_{1}+X_{2} \sim N(\mu_{1} + \mu_{2}, \sqrt{\sigma_{1}^{2}+\sigma_{2}^{2}})\]

  3.     \[Jezeli\, X \sim N(\mu, \sigma)\: to\: \overline{X} \sim N( \mu, \frac{\sigma}{\sqrt{n}} )\]

  4.     \[Jezeli \, X_{i} \sim N(0,1)\: to\: \sum X_{i}^{2}\]

    jest z rozkładu Chi kwadrat z n-stopniami swobody – Chi2(n)

Standaryzacja rozkładu normalnego

Przez standaryzację rozkładu normalnego N(m,σ) rozumie się normalizację rozkładu normalnego w celu uzyskania rozkładu N(0,1) – średnia wartość oczekiwana zero i odchylenie standardowe jeden. Tę metodę wykorzystuje się w zadaniach, w których należy policzyć prawdopodobieństwo zdarzenia zmiennej N(m,σ). Jest to konsekwencją tego, że dysponujemy jedynie tablicami dla N(0,1), więc aby podać wynik trzeba przekształcić zadanie, tak aby operowało na standardowej zmiennej normalnej N(0,1).

Gdy X∼N(m,σ) to normalizację można wyrazić w następujący sposób:

    \[Z = \frac{X-m}{\sigma} \sim N(0,1)\]

Najczęściej zmienną N(0,1) uzyskaną w wyniku standaryzacji określa się literą Z.

Centralne twierdzenie graniczne

Centralne Twiedzenie Graniczne to jedno z najważniejszych twierdzeń statystyki – uzasadnia powszechność występowania rozkładów zbliżonych do rozkładu normalnego.

    \[\lim_{x\to 0} \frac{\sum\limits_{i=1}^nX_{i} - n \cdot \mu }{\sqrt{n}\cdot \sigma} \stackrel{d}= N(0,1)\]

Gdy mamy zmienne Xi – niezależne i o jednakowym rozkładzie,  o identycznych wartościach oczekiwanych (średnich) μ oraz wariancji σ2 wtedy zmienna d nad znakiem równości oznacza, że zbieżność jest względem rozkładu – oznacza to że całe rozkłady, nie poszczególne wartości dążą do siebie.

Oznacza to, że im większe n, w tym większym stopniu na mocy CTR dany rozkład przypomina rozkład normalny N(0,1).

Popularniejszą formą zapisu tego twierdzenia jest wzór:

    \[\overline{X} \sim N(\mu, \frac{\sigma}{\sqrt{n}})\]

    \[Nalezy\; jednak\; pamietac\;, ze\; dla\; duzego\; n\; X\; nie\; zmienia\; sie\; w\; rozklad\; normalny.\]

    \[Rozklad\; X\; zostaje\; taki\; sam,\; zmienia\; sie\; jedynie\; rozklad\;\overline{X}\]

Reguła Trzech Sigm

Reguła Trzech Sigm dla rozkładu normalnego N(μ,σ) mówi nam że w przedziale [μ3σ,μ+3σ] zawiera się 99.7 % wszystkich obserwacji. Można z tego wyciągnąć wniosek, że obserwacje nie należące do tego przedziału zdarzają się bardzo rzadko. Takie obserwacje nazywamy obserwacjami odstającymi.

krzywa Gaussa - prawdopodobieństwo rozkładu normalnego

Korzystając z własności rozkładu normalnego, wiemy że procenty po obu stronach μ rozkładają się w sposób symetryczny. Ponadto, w łatwy sposób można odczytać poszczególne wartości procentowe przedziałów.

PrzedziałProcent obserwacji
[μ−σ,μ+σ]68,2%
[μ−2σ,μ+2σ]95,4%
[μ−3σ,μ+3σ]99,7%

Reguła Trzech Sigm jest sygnałem ostrzegawczym w przypadku nienaturalnych zachować np. podejrzenia przypadków oszustwa, manipulacji itp. Wartości znajdujące się poza przedziałem Trzech sigm mogą oczywiście zajść w sposób naturalny, jednakże są one podejrzane i często weryfikowane przez człowieka.