Miary tendencji centralnej – teoria
Miary centralne, to takie które wskazują na centralne(bliskie środka) wartości cechy w rozkładzie. Są jedną z podstawowych grup statystyki opisowej – pozostałe to miary rozproszenia oraz symetrii rozkładu. Do miar tendencji centralnej zaliczamy średnią, dominantę oraz medianę.
Średnia
Średnia jest najprostszą miarą stosowaną w analizie danych. Często jest kojarzona jako wartość leżąca blisko środka danej zbiorowości. Informuje nas o tym jakiej wartości możemy się spodziewać przy analizie losowej obserwacji. Jednakże średnia nie zawsze zwraca wartość możliwą w rzeczywistości.
Np. Co oznacza sformułowanie, że średnia liczba samochodów posiadanych przez rodzinę jest równa 1.23 ?
Możemy zinterpretować to stwierdzenie w ten sposób, że przeciętna rodzina ma ok. 1 samochodu, ale pewna część rodzin posiada co najmniej 2 auta(prawdopodobnie istnieją także rodziny posiadające 0, zaniżające średnią).
Musimy jednak pamiętać, że istnieje również możliwość, że żadna z rodzin nie posiada 1 samochodu, a istnieją wyłącznie rodziny z 0 lub kilkoma samochodami. Dzieje się tak, ponieważ średnie są silnie narażone na działanie wartości skrajnych.
Rodzaje szeregów:
a) SZCZEGÓŁOWY
b) ROZDZIELCZY-ILOŚCIOWY
c) ROZDZIELCZY-CZESTOŚCIOWY
d) PRZEDZIAŁOWY – ILOŚCIOWY
e) PRZEDZIAŁOWY – CZĘSTOŚCIOWY
Oznaczenia:
n – ilość obserwacji
Xi – wartość i-tej obserwacji
wi – częstość i-tej obserwacji lub przedziału
– wartość środkowa i-tego przedziału
Mediana
Mediana często określana również jako wartość środkowa, wartość przeciętna, drugi kwartyl. Jest środkową wartością zbioru danych obserwacji. Oznacza to, że 50% wszystkich obserwacji leży na lewo od niej oraz 50% na prawo.
Aby wyznaczyć medianę trzeba wcześniej uporządkować wszystkie dane rosnąco. Następnie należy policzyć liczbę danych. Jeśli ich liczba jest nieparzysta to mediana jest wartością środkową. W przypadku gdy liczba danych jest parzysta mediana to średnia arytmetyczna dwóch środkowych wartości.
Mediana jest częściej używana w statystyce niż średnia arytmetyczna ze względu na większą odporność na wartości skrajne. Ma swoje zastosowanie także w innych dziedzinach np. grafice, przetwarzaniu obrazu w celu odszumiania.
Rodzaje szeregów:
a) SZCZEGÓŁOWY
b) ROZDZIELCZY-ILOŚCIOWY
c) PRZEDZIAŁOWY-ILOŚCIOWY
d) PRZEDZIAŁOWY-CZĘSTOŚCIOWY
Oznaczenia:
xMe – lewy koniec przedziału z Medianą
nMe – liczebność przedziału z Medianą
nMesk−1 – liczebność skumulowana przedziału przed przedziałem z Medianą
ωMe – częstość przedziału z Medianą
ωMesk−1 – częstość skumulowana przedziału przed przedziałem z Medianą
hMe – długość przedziału z Medianą
Dominanta
Dominanta(modalna), jest to wartość najczęściej występująca w zbiorze danych, czyli ta której prawdopodobieństwo wystąpienia jest najwyższe. Dla zmiennej losowej ciągłej modalna to argument, dla którego funkcja gęstości prawdopodobieństwa osiąga maksimum. Istnieje możliwość aby więcej niż jedna wartość była dominantą
np. 2,2,2,3,4,5,5,5,6,7
W tym zestawieniu zarówno 2 jak i 5 jest dominantą.
Rodzaj szeregu:
a)SZCZEGÓŁOWY: wartość najczęściej występująca
b)ROZDZIELCZY-ILOŚĆIOWY: wartość najczęściej występująca(największe ni)
c)ROZDZIELCZY-CZĘSTOŚCIOWY: wartość najczęściej występująca(największe wi)
d)PRZEDZIAŁOWY-ILOŚCIOWY:
e)PRZEDZIAŁOWY-CZĘSTOŚCIOWY:
legenda:
xD – lewy koniec przedziału z Dominantą
nD – liczebność przedziału z Dominantą
nD−1 – liczebność przedziału przed przedziałem z Dominantą
nD+1 – liczebność przedziału po przedziale z Dominantą
hD – długość przedziału z Dominantą
ωD = częstość w przedziale z dominantą
ωD+1 = częstość w przedziale następnym