Gaussovo rozdělení
Gaussovo rozdělení (normální rozdělení, Gaussova distribuce, Laplace-Gaussovo rozdělení) patří mezi nejdůležitější rozdělení pravděpodobnosti spojité náhodné veličiny. Náhodné děje vyskytující se v přírodě či společnosti lze dobře modelovat právě normálním rozdělením. Jako příklad takového náhodného děje, který se řídí Gaussovým rozdělením, může sloužit např. IQ[pozn. 1] nebo výšky v populaci, vitální kapacity plic nebo třeba chyby měření[pozn. 2] Řada dalších rozdělení se při dostatečně velkém vzorku ke Gaussově distribuci číselně blíží, takže lze využít tabelovaných hodnot distribuce např. k výpočtu problémů modelovatelných binomickým rozdělením. Jiná rozdělení lze na normální poměrně snadno transformovat, např. tzv. lognormální rozdělení popisující stáří bílých krvinek v periferní krvi.
K normálnímu rozdělení patří často zmiňované náhodné chyby, např. chyby měření, způsobené velkým počtem neznámých a vzájemně nezávislých příčin. Proto bývá normální distribuce také označována jako zákon chyb. Tímto zákonem se také řídí rozdělení některých fyzikálních a technických veličin. [1]
Gaussovu distribuci plně charakterizují dvě konstanty: střední hodnota μ a rozptyl σ2. Pokud chceme napsat, že náhodná veličina X (tedy např. výsledek pokusu) má náhodné rozdělení se střední hodnotou μ a rozptylem σ2, obvykle použijeme označení:
Obsah |
upravit Gaussova křivka
Gaussova křivka (hustota pravděpodobnosti) je vlastně funkcí dvou proměnných: střední hodnoty μ a rozptylu σ2. Gaussova křivka je symetrická, střední hodnota μ leží právě pod její vrcholem (viz např. [1]). Tvar křivky s extrémem v místě střední hodnoty vlastně říká to, že při opakování náhodného pokusu řídícího se Gaussovým rozdělením budou nejčastěji vycházet hodnoty v okolí středení hodnoty. Symetrie křivky pak říká to, že výsledky vychýlené nad i pod střední hodnotu budou vycházet zhruba stejně často. Parametr σ2 určuje, jak těsně se křivka přimyká střední hodnotě; čím nižší je tento parametr, tím je graf „ostřejší“. V praxi se často používá tzv. pravidlo tří sigma, někdy i dvou nebo jednoho sigma. Platí totiž, že výsledek náhodného pokusu s rozdělením N (μ ,σ2) leží v intervalu:
- (μ – σ, μ + σ) s pravděpodobností 68,27 %
- (μ – 2σ, μ + 2σ) s pravděpodobností 95,45 %
- (μ – 3σ, μ + 3σ) s pravděpodobností 99,73 %
upravit Význam Gaussovy křivky
Význam křivky popisující hustotu pravděpodobnosti si lze představit konstrukcí z histogramu, tedy sloupcového diagramu tvořeného obdélníky, které mají pevně zvolenou šířku základny na ose x odpovídající zvolenému intervalu (např. při měření výšky můžeme vytvořit kategorie po pěti centimetrech). Výška obdélníku (tedy rozměr v ose y) pak odpovídá četnosti dané třídy. Pokud budeme mít výsledky z pokusu s normálním rozdělením a budeme šířku jedné kategorie limitně snižovat k nule, dostateme právě hustotu pravděpodobosti Gaussova rozdělení.
Předmětem zájmu induktivní statistiky je zjišťování číselných charakteristik rozsáhlých souborů z malých vzorků. Pokud předpokládáme, že má sledovaný znak normální rozdělení, zajímají nás odhady střední hodnoty a rozptylu (nebo směrodatné odchylky, což je vlastně odmocnina z rozptylu). Odhadem střední hodnoty z konečného počtu pokusů je aritmetický průměr, modus i medián, číselně bývají shodné, nejsnáze se počítá aritmetický průměr. Poměrně často je známý jen jeden výběr z populace a jeho aritmetický průměr
a nás zajímá, jak dobrý je to odhad střední hodnoty. Jinými slovy nás zajímá, v jakém pásmu kolem zjištěného aritmetického průměru se s předem stanovenou pravděpodobností nachází skutečná střední hodnota. Tento interval se nazývá interval spolehlivosti, podle anglického confidence interval se někdy hovoří i o konfidenčním intervalu. Pokud je známá směrodatná odchyka σ dané populace, má interval spolehlivosti tvar:
Koeficient spolehlivosti (1 − α) je pravděpodobnost, že se μ vyskytuje v intervalu spolehlivosti, používá se 95 nebo 99 %; přesnost je poloviční délka/šířka intervalu.
je kvantil standardního Gaussova rozložení s hodnotami μ = 0 a σ = 1.
Výběrový průměr výběru o rozsahu n pro náhodnou veličinu s normálním rozložením (μ, σ^2) je také náhodná veličina s normálním rozložením. Čím je rozsah výběru n větší, tím vyšší a užší je křivka hustoty rozložení pravděpodobnosti. Vysoký štíhlý graf odpovídá užšímu intervalu spolehlivosti. Pokud chceme zmenšit interval spolehlivosti, tedy získat větší jistotu v odhadu skutečné střední hodnot, je třeba zvyšovat počet měření. Lze postupovat i opačně, totiž že si k předem stanovené šíři intervalu spolehlivosti a hladině významnosti vypočítáme, kolik měření musíme provést.
Pokud hodnotu směrodatné odchylky σ neznáme, odhadujeme ji na základě výběru o rozsahu n pomocí výběrové směrodatné odchylky s a v odhadu intervalu spolehlivosti budou vystupovat kvantily Studentova rozdělení. Pokud je však počet měření větší než 30, je rozdíl mezi Studentovým a Gaussovým rozdělením prakticky zanedbatelný.[2]
upravit Odkazy
upravit Poznámky pod čarou
- ↑ I když existují názory toto zpochybňující, tak dominuje pohled, že měření IQ je náhodný pokus řídící se Gaussovým rozdělením. To mimo jiné znamená, že relativní četnosti jednotlivých úzkých hodnot IQ by měly dobře vyplnit plochu pod křivkou hustoty pravděpodobnosti.
- ↑ Obvyklým a vesměs splněným předpokladem je to, že chyba měření má normální rozdělení se střední hodnotou nula. To znamená, že ke správné hodnotě se přičte nějaké malé kladné nebo záporné číslo, přičemž průměr těchto čísel s rostoucím počtem měření bude směřovat k nule. To je i podkladem zvyšování přesnosti měření tím, že se měření opakuje.
upravit Reference
upravit Použitá literatura
- GEIZEROVÁ, Helena, et al. Epidemiologie – vybrané kapitoly pro seminární a praktická cvičení. 1. vydání. Praha : Karolinum, 1995. 83 s. ISBN 80-7184-179-X.
- ZVÁROVÁ, Jana. Biomedicínská statistika I. : Základy statistiky pro biomedicínské obory. dotisk 1 vydání. Praha : Karolinum, 2002. 218 s. ISBN 80-7184-786-0.