Studentův t-test

Z WikiSkript

Studentův t-test je často používaná metoda testování statistických hypotéz. V závislosti na situaci, kdy se používá, se rozlišuje:

  • jednovýběrový t-test, který slouží k porovnání střední hodnoty μ s konstantou (H0: μ = μ0);
  • dvouvýběrový (nepárový) t-test, který slouží k porovnání střední hodnoty μ1 jedné skupiny se střední hodnotou μ2 jiné skupiny (H0: μ1 − μ2 = konst);
např. střední hodnota systolického tlaku u kuřáků a nekuřáků;
nebo střední hodnota systolického tlaku u skupiny, která bere placebo, a skupiny, která bere β-blokátory
  • párový t-test, který slouží k porovnání středních hodnot mezi prvními a druhými prvky uspořádaných dvojic (H0: μ1 − μ2 = konst).
např. střední hodnota systolického tlaku u kuřáků před ukončením kouření a po ukončení kouření;
nebo střední hodnota hladiny oxytocinu v krvi u matek a u jejich dětí

Jednovýběrový Studentův t-test[upravit | editovat zdroj]

Jednovýběrový t-test je praxi méně často používaný než dvouvýběrový a párový, ale didaktičtější.

Data[upravit | editovat zdroj]

Máme data x1, …, xn ~ N(μ, σ2). Z nich získáme výběrový průměr [math]\overline{x}[/math] a výběrovou směrodatnou odchylku [math]s[/math].

Hypotézy[upravit | editovat zdroj]

  • H0: μ = μ0 (konstanta)
  • HA: μ ≠ μ0 (oboustranná alternativa; jednostranné: μ < μ0, μ > μ0)

Nulové rozdělení[upravit | editovat zdroj]

tn−1 (Studentovo s n−1 stupni volnosti)

Testová statistika[upravit | editovat zdroj]

[math] T=\frac{\overline{x}-\mu_0}{\mathrm{SEM}}=\frac{\overline{x}-\mu_0}{s}\cdot\sqrt{n} [/math]

Kritická hodnota testu pro hladinu α[upravit | editovat zdroj]

tn−1, 1−α/2[† 1]

Výpočetní technika[upravit | editovat zdroj]

  • Program STATISTICA: StatistikyZákladní statistikyt-test, samostatný vzorek
  • Program EXCEL:
    1. Je nutné použít párový t-test, jako data do páru je nutné vytvořit sloupec s testovanou konstantou
    2. NástrojeDoplňkyAnalýza dat (zaškrtnout)
    3. NástrojeAnalýza datDvouvýběrový párový studentův test na střední hodnotu
    CAVE!!! V české verzi je nutné dát pozor na parametr stupně volnosti, který je špatně přeložen jako rozdíl.

Dvouvýběrový Studentův t-test[upravit | editovat zdroj]

Data

[math]x_1,\ldots,x_n\sim N(\mu_1,\sigma_1^2)[/math], směrodatná odchylka [math]s_1[/math]

[math]y_1,\ldots,y_m\sim N(\mu_2,\sigma_2^2)[/math], směrodatná dochylka [math]s_2[/math]

Nulová hypotéza

H0: μ1 = μ2 (obecněji H0: μ1 − μ2 = konstanta)

Alternativní hypotéza
  • HA: μ1 ≠ μ2 (oboustranná alternativa)
  • HA: μ1 > μ2; μ1 < μ2 (jednostranná alternativa)
Používání jednostranné alternativy se obecně nedoporučuje.
Testová statistika

[math]T=\frac{\overline{x}-\overline{y}}{\mathrm{SE}(\overline{x}-\overline{y})}[/math]

[math]\mathrm{SE}(\overline{x}-\overline{y})[/math] se dá chápat jako:

  1. Předpokládáme [math]\sigma_1=\sigma_2=\sigma[/math], „t-test pro shodné rozptyly“ (klasická varianta)
  2. Uvažujeme i možnost [math]\sigma_1\neq\sigma_2[/math], „t-test pro neshodné rozptyly“ (tzv. Welchův test, Satterthwaiteův test)

K rozlišení vhodnosti daných variant lze použít např. F-test shody rozptylů.

CAVE!!! Použití na testování na shodu rozptylů není ovšem univerzální. Testy na rozptyl mohou vyjít falešně signifikantní pouze díky velkému počtu dat, či falešně nesignifikatní kvůli malému množství dat.

T-test pro shodné rozptyly[upravit | editovat zdroj]

Označován jako pooled variance t-test. Předpokládáme:

[math]\sigma_1^2=\sigma_2^2=\sigma^2,[/math]

Společný rozptyl se odhaduje jako

[math]s^2=\frac{1}{n+m-2}[\sum_{i=1}^{n}(x_i-\overline{x})^2+\sum_{i=1}^{m}(y_i-\overline{y})^2]=[(n-1)s_1^2+(m-1)s_2^2]/(n+m-2)[/math]

[math]\mathrm{SE}(\overline{x}-\overline{y})=s\cdot\sqrt{\frac{1}{n}+\frac{1}{m} }[/math]

Nulové rozdělení

Při H0 platí:

[math]T\sim\ t_{n+m-2}[/math]

T-test pro neshodné rozptyly[upravit | editovat zdroj]

Občas označován jako Welchův test, Satterthwaitův test či separed variance t-test. Předpokládáme:

[math]\sigma_1\ne\sigma_2,[/math]

[math]\mathrm{SE}(\overline{x}-\overline{y})=\sqrt{\frac{s_1^2}{n}+\frac{s_2^2}{m}}.[/math]

Nulové rozdělení

Při H0[math]T[/math] přibližně rozdělení [math]t_{\mathrm Df}[/math]. Počet stupňů volnosti odpovídá n, m, s1, s2. Nemusí to být celé číslo. [math]\mathrm{Df} \le n + m-2[/math]

Párový Studentův t-test[upravit | editovat zdroj]

Data

[math]x_1,\ldots,x_n\sim N(\mu_1,\sigma_1^2)[/math], průměr [math]\overline{x}[/math]

[math]y_1,\ldots,y_n\sim N(\mu_2,\sigma_2^2)[/math], průměr [math]\overline{y}[/math]

Párové diference

[math]z_1=x_1-y_1,\ldots,z_n=x_n-y_n\sim N(\mu_1-\mu_2,\sigma^2)[/math]

[math]\overline{z}=\overline{x}-\overline{y}[/math]

[math]s_z[/math] je SD párových diferencí.

Nulová hypotéza

H0: μ1 = μ2 (obecněji H0: μ1 − μ2 = konstanta)

Alternativní hypotéza
  • HA: μ1 ≠ μ2 (oboustranná alternativa)
  • HA: μ1 > μ2; μ1 < μ2 (jednostranná alternativa)
Používání jednostranné alternativy se obecně nedoporučuje.
Testová statistika

[math]T=\frac{\overline{z}}{s_z/\sqrt{n}}=\frac{\overline{x}-\overline{y}}{s_z/\sqrt{n}}=\frac{\overline{z}}{\mathrm{SE}(\overline{x}-\overline{y})}[/math]

[math]\overline{x}[/math], [math]\overline{y}[/math] jsou realizace náhodné veličiny, [math]\overline{x}-\overline{y}[/math] je tedy také realizace náhodné veličiny, [math]\mathrm{SE}(\overline{x}-\overline{y})[/math] je její směrodatná odchylka

(Obecněji [math]T=\frac{\overline{z}-\mathrm{konst}}{s_z/\sqrt{n}}[/math])

Nulové rozdělení

Při platnosti H0: [math]T\sim\ t_{n-1}[/math]

Pravděpodobnost, že [math]T[/math] přesáhne hodnotu [math]T_0[/math] nebo bude nižší než [math]-T_0[/math] je

[math]P(-T_0\lt T\lt T_0)=2\cdot(1-F(T_0))[/math]

Kritická hodnota

[math]t_{1-\frac{\alpha}{2}, n-1}[/math]

Výpočetní technika[upravit | editovat zdroj]

  • Program STATISTICA: StatistikyZákladní statistikyt-test, závislé vzorky
  • Program EXCEL:
    1. NástrojeDoplňkyAnalýza dat (zaškrtnout)
    2. NástrojeAnalýza datDvouvýběrový párový studentův test na střední hodnotu
    CAVE!!! V české verzi je nutné dát pozor na parametr stupně volnosti, který je špatně přeložen jako rozdíl.

Výpočetní technika[upravit | editovat zdroj]

  • Program SAS: TasksANOVAt Test…
  • Program STATISTICA: StatistikyZákladní statistiky → Vhodný typ testu
  • Program Excel: funkce TTEST()
  • Program Excel, alternativní způsob:
    1. V Excelu, který nemá data ve formě objekty × veličiny, je nutné data vhodně uspořádat
    2. NástrojeDoplňkyAnalýza dat (zaškrtnout)
    3. NástrojeAnalýza dat → Vhodný typ testu
    CAVE!!! V české verzi je nutné dát pozor na parametr stupně volnosti, který je špatně přeložen jako rozdíl.

Poznámky[upravit | editovat zdroj]

  1. (1−α/2)-kvantil rozdělení tn−1

Odkazy[upravit | editovat zdroj]

Související články[upravit | editovat zdroj]

Použitá literatura[upravit | editovat zdroj]

  • KLASCHKA, Jan. Testování statistických hypotéz [přednáška k předmětu Zdravotnická statistika 1,2, obor Všeobecné lékařství, 1. lékařská fakulta Univerzita Karlova]. Praha. 26.4.2011. 
  • KLASCHKA, Jan. Studentův t-test [přednáška k předmětu Zdravotnická statistika 1,2, obor Všeobecné lékařství, 1. LF Univerzita Karlova]. Praha. 3.5.2011. 
  • KLASCHKA, Jan. Studentův t-test [přednáška k předmětu Zdravotnická statistika 1,2, obor Všeobecné lékařství, 1. LF Univerzita Karlova]. Praha. 10.5.2011.