Testování statistických hypotéz

Z WikiSkript

Testování hypotéz je statistická metoda, která určuje, jak pravděpodobná jsou naměřená data v případě platnosti hypotézy, kterou testujeme.

Historické souvislosti[upravit | editovat zdroj]

Testování statistické významnosti pomocí testování nulové hypotézy (null hypothesis statistical testing – NHST) je velmi staré. Původním autorem myšlenky je zřejmě John Arbuthnott (1710), který se snažil prokázat Boží prozřetelnost skrze odhalování zákona vyrovnávajícího počet narozených mužů a žen.[1] [2]

Postup[upravit | editovat zdroj]

Pro testování vždy vytváříme dvě hypotézy. Testovanou, kterou označíme jako nulovou a značíme ji a alternativní, kterou značíme . Nulová hypotéza je formulovaná negativně („to, co chceme prokázat, neplatí“, tj. pozorovaný efekt vznikl "náhodou" ) a alternativní hypotéza formulovaná jako neplatnost , tj. že pozorovaný efekt nevznikl jen náhodou.

Nulová hypotéza bývá formulovaná pomocí rozdělení, nebo pravděpodobnosti…

Cílem testování je zamítnout a přijmout .

Příklady formulování hypotéz[upravit | editovat zdroj]

  • Jev, který chceme prokázat – formulace hypotézy .
  • Účinek léku A se od léku B liší o „x“ – : střední hodnota veličiny účinku léku A a B je stejná.
  • Účinek léku je u diabetiků vyšší – : střední hodnota veličiny účinku léku a diabetiků a u kontrolní skupiny je stejná.
  • Střední doba dožití je po podání léku A vyšší – : střední doba dožití je po podání léku A stejná jako u kontrolní skupiny.
  • Čím vyšší BMI, tím menší střední doba dožití – : střední doba dožití u skupiny s BMI kolem 20 a u skupiny s BMI kolem 35 je stejná.

Testová statistika[upravit | editovat zdroj]

K samotnému testování se využívá tzv. testová statistika T. Jedná se o vzorec, funkci dat, která udává, jak pravděpodobná jsou naměřená data, pokud platí nulová hypotéza. CAVE!!! U testování hypotéz nelze testovou statistiku interpretovat jako pravděpodobnost, s níž platí nulová hypotéza na základě naměřených dat. Ve frekvenční statistice jsou totiž populační veličiny, o nichž se formulují hypotézy, konstanty, které jsou neměnné, stálé (a pokud se nezměří celá populace, tak neznámé). Mluvit o jejich pravděpodobnosti proto nemá smysl[† 1]. Naopak, mluví se o pravděpodobnosti naměření naměřených dat za předpokladu platnosti nulové hypotézy (testování se tedy provádí svým způsobem naruby).

Nulové rozdělení[upravit | editovat zdroj]

Nulové rozdělení je rozdělení testové statistiky při platnosti H0.

p-hodnota testu[upravit | editovat zdroj]

p-hodnota testu (z anglického p value) je pravděpodobnost, že při H0 by testová statistika T nabyla hodnoty, jaká vyšla z dat, nebo hodnoty ještě extrémnější (mimo interval <−T,T>).

Hladina významnosti testu[upravit | editovat zdroj]

Hladina významnosti testu se označuje α. (Nejčastěji α = 0,05 = 5 %). Je to zvolené číslo z intervalu od 0 do 1, resp. 100 % (čím menší, tím lepší). Pokud je p < α, tak platnost H0 je velmi málo pravděpodobné a potom:

Zamítáme H0 na hladině významnosti α a přijímáme HA.

Buď H0 platí, ale nastala data, která se objevují s pravděpodobností menší než α (nastalo něco velmi nepravděpodobného), nebo vskutku platí HA, k čemuž se kloníme.

Výsledek testu je pak statisticky významný na hladině α. (Často značeno „*“ pro α = 0,05, „**“ pro α = 0,01 a „***“ pro α = 0,001)

CAVE!!! Pokud p ≥ α, pak to neznamená, že zamítáme HA, ale pouze nezamítáme H0. Výsledek je pak statisticky nevýznamný (insignifikantní) na hladině α. (Často značeno „NS“.)

Kritická hodnota testu pro hladinu α[upravit | editovat zdroj]

Kritická hodnota testu pro hladinu α je hranice mezi statisticky významnou a nevýznamnou hodnotou testové statistiky T.

Neporovnává se p přímo s α, ale pro α se vypočítá kritická hodnota, s níž se porovná samotné T. Jedná se o ekvivalentní porovnání. (Dříve numericky přístupnější — nebylo nutné počítat kvantily.)

Vztah ke konfidenčním intervalům[upravit | editovat zdroj]

Konfidenční interval (interval spolehlivosti) pro daný parametr je intervalový odhad nějakého parametru s danou pravděpodobností. Pokud je μ0 v konfidenčním intervalu na hladině spolehlivosti 1−α, pak hypotéza μ = μ0 se nezamítá na hladině α. Konfidenční interval je složen z hodnot, které test na dané hladině nezamítá.

Statistické chyby[upravit | editovat zdroj]

  • Chyba prvního typu – zamítneme-li hypotézu, ačkoliv je správná.
  • Chyba druhého typu – nezamítneme-li nulovou hypotézu ačkoliv není správná.

Často používané testy[upravit | editovat zdroj]

  1. V tomto spočívá rozdíl mezi frekvenční a bayesovskou statistikou, v níž populační veličiny nejsou konstantní, ale náhodnými veličinami.

Odkazy[upravit | editovat zdroj]

Související články[upravit | editovat zdroj]

Reference[upravit | editovat zdroj]

  1. ARBUTHNOTT, John. An Argument for Divine Providence, taken from the constant Regularity observ'd in the Births of both Sexes. Philosophical Transactions of the Royal Society [online]. 1710, vol. 27, s. 186–190, dostupné také z <http://www.jstor.org/stable/103111>. 
  2. SOUKUP, Petr. Nesprávná užívání statistické významnosti a jejich možná řešení. Data a výzkum - SDA Info [online]. 2010, roč. 4, no. 2, s. 77–104, dostupné také z <http://dav.soc.cas.cz/issue/3-data-a-vyzkum-2-2010/6>. ISSN 2336-2391. 

Použitá literatura[upravit | editovat zdroj]

  • KLASCHKA, Jan. Testování statistických hypotéz [přednáška k předmětu Zdravotnická statistika 1,2, obor Všeobecné lékařství, 1. lékařská fakulta Univerzita Karlova]. Praha. 26. 4. 2011. 
  • BENCKO, Vladimír, et al. Epidemiologie : výukové texty pro studenty 1. LF UK. 1. vydání. Praha : Karolinum, 2002. 168 s. ISBN 80-246-0383-7.