Cechy Estymatorów – teoria
Aby wnioskowanie statystyczne dało pożądane rezultaty, należy posługiwać się w nim jak najlepszymi narzędziami. Narzędziem wnioskowania jest estymator, czyli statystyka zbudowana na wynikach próby, gdzie statystyką nazywa się dowolną funkcję rzeczywistą określoną na wynikach próby. Estymatorem może być zatem każda wielkość otrzymana dla wyników próby: średnia arytmetyczna, dominanta, kolejne kwartyle, rozstęp, odchylenie standardowe i przeciętne, współczynniki zmienności i wiele innych, ale nie każda powinna nim być.
Wybór estymatora jest uzależniony od przedmiotu wnioskowania statystycznego. Jeżeli wnioskowanie jest parametryczne, czyli przedmiotem dociekań są wartości parametryczne rozkładu cechy statystycznej, to estymator służy do oceny wartości tych parametrów. Parametrami są np:
Jak łatwo zauważyć, parametry poszczególnych rozkładów są na ogół prostymi funkcjami dwóch podstawowych momentów rozkładu. W większości przypadków wnioskowanie parametryczne sprowadza się zatem do ustalenia wartości oczekiwanej oraz wariancji. Jeżeli zaś wnioskowanie jest nieparametryczne i jego celem jest ustalenie postaci funkcyjnej rozkładu bądź też wartości dystrybuanty tego rozkładu, to estymatory służą do oceny prawdopodobieństw: P(X=x0), jeśli cecha statystyczna jest skokowa lub też P(x0i < X < x1i), jeśli cecha jest typu ciągłego. Układ tych prawdopodobieństw rozstrzyga bowiem o postaci rozkładu.
Logiczne zatem wydaje się, że o wartości oczekiwanej będziemy wnioskować, posługując się miarami położenia jako jej estymatorami, zaś o wariancji – na podstawie miar dyspersji, natomiast o prawdopodobieństwach zdarzeń – na podstawie częstości względnych bądź częstości skumulowanych itd. Jednakże to za mało, aby rozstrzygnąć, które statystyki z próby są najlepszymi estymatorami poszczególnych
parametrów
rozkładu populacji. Aby estymatory mogły być stosowane we wnioskowaniu statystycznym, powinny posiadać pewne pożądane własności. Do pożądanych własności estymatorów należą w pierwszej kolejności: nieobciążoność, efektywność i zgodność.
Nieobciążoność estymatora
Statystyka Tn jest nieobciążonym estymatorem parametru Θ, jeśli: E(Tn)=Θ
Własność ta oznacza, że kiedy posługujemy się estymatorem nieobciążonym w calu ustalenia wartości parametru, uzyskujemy wyniki jedynie średnio rzecz biorąc “prawdziwe”, tzn. równe parametrowi. Przykład:
Przyjrzyjmy się rozkładowi średniej arytmetycznej z dwuelementowej próby pobranej z 10 000 opakowań spinaczy biurowych oraz rozkładowi średniej geometrycznej z wyników próby.
Rozkład średniej arytmetycznej przyjmuje postać:
średnia Xi 0 0,5 1 1,5 2 2,5 3 pi 1/9 1/3 35/108 4/27 11/162 1/81 1/324 i charakteryzuje go wartość oczekiwana na poziomie 0,89.
Rozkład średniej geometrycznej przyjmuje zaś postać:
średnia Xi 0 0,5 1 1,5 2 2,5 3 pi 1/9 1/3 35/108 4/27 11/162 1/81 1/324 i charakteryzuje go wartość oczekiwana na poziomie 0,56.
Jeżeli przedmiotem wnioskowania statystycznego jest wartość oczekiwana zmiennej X, tzn. parametr E(X), to warto zauważyć, że średnia arytmetyczna z próby losowej, jako proponowany estymator tego parametru, spełnia kryterium nieobciążoności:
Średnia geometryczna z próby jest zaś estymatorem obciążonym parametru E(X), gdyż:
Różnica bn=E(Tn) – Θ nosi nazwę obciążenia estymatora i określa przeciętność rozbieżność ocen względem wartości parametru.
W naszym przykładzie obciążenie średniej geometrycznej jako estymatora wartości oczekiwanej wynosi bn=0,56-0,89=-0,33; co oznacz, że kiedy posługujemy się średnią geometryczną w ustalaniu wartości oczekiwanej E(X), otrzymujemy oceny tego parametru, przeciętnie rzecz biorąc, zaniżone.
Warto zauważyć, że żadna z możliwych do otrzymania wartości średniej geometrycznej z próby nie jest równa wartości parametru, natomiast możliwe do otrzymania wyniki z próby losowej są jedynie, przeciętnie rzecz biorąc, równe temu parametrowi. Posługując się estymatorem nieobciążonym, możemy więc uzyskiwać wyniki odmienne od rzeczywistości, jednakże ich odmienność nie wyraża żadnej regularności. Natomiast posługiwanie się estymatorem obciążonym sprawia, że występujące rozbieżności między ocenami parametru i jego rzeczywistą wartością mają charakter błędów systematycznych (regularnych). Jeżeli zaś obciążenie estymatora jest uzależnione od liczebności próby i wraz ze wzrostem tej liczebności maleje do zera, to taki estymator nazywamy asymptotycznie nieobciążonym
Efektywność estymatora
Spośród nieobciążonych estymatorów Tn(1), Tn(2), … parametru Θ najefektywniejszy jest ten, którego wariancja jest najmniejsza.
Wariancja rozkładu dowolnej statystyki z próby losowej jest miarą opisującą zróżnicowanie wartości, jakie przyjmuje ta statystyka w poszczególnych próbach. Informuje o rozproszeniu tych wartości wokół jej wartości średniej. Jeżeli statystyka ta jest estymatorem nieobciążonym parametru Θ, to znaczy, że jej wariancja wyraża zakres rozproszenia możliwych wyników z próby wokół parametru Θ, gdyż zgodnie z regułą nieobciążoności E(Tn) = Θ (wartość średnia statystyki jest równa parametrowi)
Zgodność estymatora
Estymator Tn jest estymatorem zgodnym parametru Θ, jeżeli dla dowolnie małego ε>0
Warunek ten oznacza, że wraz ze wzrostem liczebności próby wzrasta pewność, że wartość statystyki Tn, liczone na podstawie jej wyników, nie różnią się znacznie od wartość parametru.
Warto podkreślić, że estymatory:
-nieobciążone dają średnio prawdziwe oceny parametru;
-najefektywniejsze dają średnio oceny parametru najmniej różniące się od stanu faktycznego;
-zgodne dają oceny parametru tym bliższe prawdy, im liczniejsza jest próba będąca podstawą wnioskowania.
Pomiędzy wyróżnionymi pożądanym własnościami estymatorów zachodzą następujące relacje:
– jeżeli estymator jest zgodny, to jest co najmniej asymptotycznie nieobciążony;
– jeżeli estymator jest nieobciążony lub asymptotycznie nieobciążony i jego wariancja maleje do zera, wraz ze wzrostem liczebności próby będącej podstawą wnioskowania, to jest on estymatorem zgodnym.