Średnia arytmetyczna, odchylenie standardowe i odchylenie standartowe średniej

Średnia, odchylenie standardowe i odchylenie standardowe średniej. Inne parametry statystyczne.

1Średnia arytmetyczna

Dla większości najlepszym przybliżeniem wartości prawdziwej jest średnia arytmetyczna otrzymanych pomiarów:

x = x1 + x2 + ... + xNN = Ni = 1xiN = Mk = 1xkkkN = Mk = 1pkxk, 

gdzie xi to i-ty pomiar, N oznacza ilość otrzymanych wyników, M to liczba różnych otrzymanych wartości, nk to liczba otrzymanych wartości xk (nk = N), a pk = nkN (pk = 1) to częstość otrzymania wartości xk. Przykładowo:

W wyniku serii dwudziestu pomiarów otrzymano następujące wartości średnicy drewnianej kulki [mm]: 11, 12, 11, 11, 12, 10, 11, 12, 13, 12, 12, 13, 11, 11, 9, 10, 10, 12, 11, 11. Tabela przedstawia otrzymane wyniki:



k 1 2 3 4 5 suma
xk 9 10 11 12 13 225
nk 1 3 8 6 2 20
nkxk 9 30 88 72 26 225
pk 120 320 25 310 110 1
pkxk 0,45 1,5 4,4 3,6 1,3 11,25




Table 1 Przykładowe wyniki pomiarów pogrupowane według ilości wystąpień i częstości wystąpień

Widać, że średnie otrzymane z każdej ,,wersji’’ równania dają tą samą wartość, jednak ostatnie dwie postacie równania są szczególnie wygodne, gdy posługujemy się dużą liczbą obserwacji.

2Odchylenie standardowe

Każdy pomiar obarczony jest niepewnością wynikającą z np. niedokładności przyrządów pomiarowych. Możemy jednak otrzymać pewną ,,średnią’’ niepewność pomiaru sprawdzając, o ile różnią się wartości otrzymane od wartości średniej. Miara ta jest niezależna od przyrządów, którymi się posługujemy. Przyjęło się mierzyć średnią niepewność jako:

σx = 1Ni(xi − x)2 = 1Nknk(xk − x)2 = kpk(xk − x)2.

Wielkość tą nazywamy odchyleniem standardowym. Określa ono przeciętne odchylenie każdego z pomiarów od wartości prawdziwej. Często spotkacie się z alternatywną definicją odchylenia standardowego:


σx = 1N − 1i(xi − x)2 = 1N − 1knk(xk − x)2

Definicja ta jest lepiej uzasadniona teoretycznie i daje nieco większą wartość σx. Dla dużych wartości N wielkości te prawie nie różnią się liczbowo, należy jednak zawsze pisać, której definicji używamy.

3Odchylenie standardowe średniej

Możemy spodziewać się, że niepewność otrzymania każdego z pomiarów będzie większa, niż niepewność wyznaczenia średniej wartości (bo przecież średnia otrzymana z wielu wartości, a błędy przypadkowe powinny się w jakimś stopniu znosić). Rzeczywiście, niepewność otrzymania średniej wynosi:

σx = σxN

i nazywa się odchyleniem standardowym średniej.

4Interpretacja odchylenia standardowego

Odchylenie standardowe wyznacza ok. 68% przedział ufności otrzymanego wyniku. Oznacza to, że ok. 68% wyników znajduje się w odległości nie większej niż σx od wartości średniej przy założeniu, że otrzymane pomiary podlegają rozkładowi normalnemu (o tym na kolejnych zajęciach). Jeżeli chcielibyśmy mieć większą szansę na to, że otrzymany pomiar zmieści się w obszarze błędu, to musielibyśmy przyjąć błąd nie jako ±σx,  ale jako większą wartość. To, jaki będzie przedział ufności (dla rozkładu normalnego) wyznacza tzw. funkcja błędu (oznaczana przez erf(t)). Argument funkcji (t) ma interpretację δx = tσxN, tzn jeżeli t > 1, to przedział ufności jest większy niż dla σx (bo wyliczona niepewność jest większa i jest większa szansa, że otrzymany wynik ,,wpadnie’’ w przedział), a mniejszy dla t < 1. Wartość funkcji erf(t) jest tablicowana, pozwalają ją także wyliczyć bardziej zaawansowane kalkulatory. Warto zapamiętać, że:
  1. dla t = 1 ufność jest na poziomie 68%
  2. dla t = 2 ufność jest na poziomie 95%
  3. dla t = 3 ufność jest na poziomie 99%
Jest to tak zwana reguła trzech sigm.

5Przypadek małej liczby pomiarów

Jeżeli otrzymamy małą ilość wyników pomiarów (tak, definicja ta nie jest zbyt ścisła), to założenie o normalności rozkładu nie jest poprawne. Aby otrzymać podobny przedział ufności, jak w przypadku rozkładu normalnego należy przyjąć błąd większy, niż wynika z wyliczenia σx. Są przesłanki teoretyczne wskazujące, że lepiej pasującym rozkładem jest rozkład Studenta. Jeżeli obliczymy odchylenie standardowe, to niepewność otrzymanej średniej przyjmujemy większą zgodnie ze wzorem:

δx = ±tP, N − 1σxN, 

gdzie tP, N − 1 jest odczytywaną wartością tablicową kwantyla t rozkładu Studenta, P[A]
[A]Uwaga: często w tablicach zamiast tP podaje się tα, gdzie α = 1 − P

jest zadanym prawdopodobieństwem znalezienia wyniku w przedziale x±δx a N jest ilością otrzymanych wyników.

6 Inne parametry statystyczne

Często chcemy opisać otrzymane wyniki w sposób bardziej pełny niż przy pomocy średniej i jej odchylenia standardowego. Możemy chcieć np. ocenić asymetrię rozkładu wyników lub też ich koncentrację. Pomocne są tym parametry statystyczne. Ze względu na zastosowanie można je podzielić na:

6.1 Miary położenia

Miary położenia pozwalają nam porównywać rozkłady podobne do siebie, przesunięte jednak względem osi odciętych (OX). Poznaną już miarą położenia jest średnia arytmetyczna. Inne przykłady to
  1. Mediana m - jest to taka liczba, że połowa otrzymanych wyników ma wartość mniejszą lub równą medianie, a reszta - wartość większą (P(xm) = P(x ≥ m) = 12). Zaletą (i wadą) mediany jest odporność na elementy odstające, tj. takie, które nie pasują do modelu (np. błędy grube).
  2. Moda d - inaczej dominanta, to wartość występująca najczęściej (dla rozkładów dyskretnych) lub o największej wartości funkcji gęstości prawdopodobieństwa (dla rozkładów ciągłych). Zaletą mody jest to, że można ją zastosować także do wartości innych niż liczbowe.
  3. Kwantyle rzędu p xp - takie liczby, że prawdopodobieństwo otrzymania wartości mniejszej niż xp jest większe lub równe p (P(xxp) = p. Podając kilka kwantyli możemy w sposób pełniejszy opisać otrzymany rozkład wyników.

6.2 Miary zróżnicowania

Miary zróżnicowania określają, jak poszczególne otrzymane wartości różnią się od wartości centralnych (np. od średniej). Przykładem jest odchylenie standardowe średniej. Inne popularne miary to:
  1. Średnie odchylenie bezwzględne - obliczane jako D = Ni = 1|xi − x|N.
  2. Rozstęp - to odległość między wartością największą i najmniejszą.
  3. Rozstęp ćwiartkowy - jest to różnica pomiędzy kwantylem 0.75 i kwantylem 0.25 (IQR = x34 − x14), tj. określa, jaka w jakim przedziale leży 50% otrzymanych obserwacji. Jest odporny na wartości odstające.

6.3 Miary asymetrii

Często istotną informacją o wynikach jest asymetria ich rozkładu. Asymetrię tą najczęściej opisuje się przez:
  1. Trzeci moment centralny (obliczany jako M3 = Ni = 1(xi − x)3N). Jeżeli M3 < 0, to rozkład jest lewostronnie asymetryczny (tzn. więcej wyników jest mniejsza od wartości przeciętnej). M3 = 0 dla rozkładu symetrycznego, a M3 > 0 dla rozkładu prawostronnie asymetrycznego.
  2. Współczynnik asymetrii A = M3σ3. Ma podobne własności do trzeciego momentu centralnego, można jednak przy jego pomocy porównywać różne rozkłady.
  3. Współczynnik skośności - proporcjonalny do różnicy pomiędzy dominantą i średnią lub medianą i średnią (Ad = μ − dσ lub Am = 3μ − mσ).

6.4 Miary koncentracji

Miary koncentracji określają, jak bardzo wyniki skupione są wokół wartości centralnych. Najpopularniejszą miarą koncentracji jest kurtoza k = 1N(xi − μ)4σ4 − 3. k przyjmuje wartość 0 dla rozkładu normalnego, wartości większe niż 0, gdy wartości są silnie skoncentrowane wokół wartości średniej i mniejszą niż zero, gdy rozkład jest ,,płaski’’.