5.2: Többszörös összehasonlítás
Amikor az F-teszt elutasítja a nullhipotézist, úgy gondoljuk, hogy jelentős különbségek vannak a k populáció átlagai között. Így, melyek különböznek egymástól? A többszörös összehasonlítási módszer annak azonosítására szolgál, hogy az eszközök közül melyik különbözik egymástól, miközben ellenőrizzük a kísérletenkénti hibát (az összehasonlítási családhoz kapcsolódó felhalmozott kockázat). Számos összehasonlítási módszer áll rendelkezésre.
A legkevésbé szignifikáns különbség tesztben minden egyes hipotézist a hallgatói t-statisztikával tesztelnek. Ha az I. típusú hiba valószínűségét valamilyen értékre állítjuk be, és az s2 varianciája v szabadságfokkal rendelkezik, a nullhipotézist minden megfigyelt értékre elutasítják úgy, hogy |to|> tα/2, v. Ez az összes lehetséges páronkénti t-teszt rövidített változata. Ennek a módszernek gyenge kísérleti hibaaránya van. A Fisher védett LSD valamivel jobban képes kezelni ezt a problémát.
A Bonferroni egyenlőtlenség konzervatív alternatíva, ha a szoftver nem áll rendelkezésre. Amikor n összehasonlítást végez, αe≤ n αc ezért αc = αe/n Más szavakkal, ossza meg a kísérleti szignifikancia szintjét a többszörös összehasonlítások számával, hogy megkapja az összehasonlítás szerinti szignifikanciaszintet. A Bonferroni eljárás az egyes lehetséges μ párok közötti különbségek konfidenciaintervallumainak kiszámításán alapul.A konfidencia intervallumok kritikus értéke egy táblázatból származik, amelyben (N — k) szabadságfok és k (k — 1) /2 intervallumok száma van. Ha egy adott intervallum nem tartalmaz nullát, a két eszköz jelentősen különbözik egymástól. A nullát tartalmazó intervallum azt jelzi, hogy a két eszköz NEM különbözik jelentősen.
Dunnett eljárását olyan vizsgálatokhoz hozták létre, ahol az egyik kezelés kontrollkezelésként működik a fennmaradó kezelések egy részében vagy mindegyikében. Elsősorban akkor használják, ha a vizsgálat érdeke annak meghatározása, hogy a kezelésekre adott átlagos válaszok eltérnek-e a kontrollétól. A Bonferronihoz hasonlóan konfidencia intervallumokat hoznak létre a két kezelési átlag közötti különbség becslésére a kritikus értékek meghatározott táblázatával, amelyet a kísérleti hibaarány szabályozására használnak. A különbség standard hibája az.
Scheffe tesztje szintén konzervatív módszer az adatok által javasolt összes lehetséges egyidejű összehasonlításra. Ez a teszt egyenlővé teszi az ANOVA F statisztikáját a t-teszt statisztikával. Mivel t2 = F akkor t = √F, helyettesíthetjük √F (αe, v1, v2) t (αe, v2) -t Scheffe statisztikájához.
A Tukey-teszt erősen érzékeli a kísérleti hibaarányt a kezelési eszközök összes páronkénti összehasonlításához. Ezt a tesztet őszintén jelentős különbségnek is nevezik. Ez a teszt megrendeli a kezeléseket a legkisebbtől a legnagyobbig, és a vizsgált tartomány statisztikáját használja
q=ˉy(largest)−ˉy(smallest)√MSE/r
A két átlag abszolút különbségét azért használjuk, mert a két átlag elhelyezkedése a számított különbségben tetszőleges, a különbség előjele attól függően, hogy melyik átlagot használjuk először. Az egyenlőtlen replikációkhoz helyette a Tukey-Kramer közelítést használják.
A Student-Newman-Keuls (SNK) teszt egy többszörös tartományú teszt, amely a vizsgált tartomány statisztikáján alapul, mint például a Tukey-é. A kritikus érték egy adott eszközpáron alapul, amelyet a rendezett eszközök teljes készletén belül tesztelnek. A vizsgálati kritériumokhoz két vagy több tartományt használnak az átlagok között. Bár tesztstatisztikáját tekintve hasonló a Tukey-hoz, gyenge kísérleti hibaarányokkal rendelkezik.
Bonferroni, Dunnett és Scheffe tesztjei a legkonzervatívabbak, ami azt jelenti, hogy a két átlag közötti különbségnek nagyobbnak kell lennie, mielőtt jelentős különbséget állapítana meg. Az LSD és az SNK tesztek a legkevésbé konzervatívak. Tukey tesztje középen van. Robert Kuehl, a Kísérletek tervezése: A kutatás tervezésének és elemzésének statisztikai alapelvei (2000) szerzője kijelenti, hogy a Tukey -módszer biztosítja a legjobb védelmet a döntési hibák ellen, valamint erős következtetést von le a különbségek nagyságáról és irányáról.
Térjünk vissza az alaszkai, floridai és texasi esősavassággal kapcsolatos kérdésünkhöz. A null- és alternatív hipotézisek a következők voltak:
H 0: μA = μF = μT |
H 1: legalább az egyik eszköz különbözik |
A p-az F-teszt értéke 0,000229 volt, ami kevesebb, mint az 5% -os szignifikancia szintünk. Elutasítottuk a nullhipotézist, és elegendő bizonyítékkal rendelkeztünk ahhoz, hogy alátámasszuk azt az állítást, hogy legalább az egyik eszköz jelentősen eltér a másiktól. Bonferroni és Tukey módszereit fogjuk használni többszörös összehasonlításhoz annak meghatározására, hogy melyik átlag (ok) különbözik.
Bonferroni többszörös összehasonlítási módszer
Minden páronkénti összehasonlításhoz kiszámítják a Bonferroni konfidencia intervallumot. Mert k populációk, lesz k (k -1) /2 többszörös összehasonlítás. A konfidencia intervallum a következő formában jelenik meg:
For μ1−μ2:(¯x1−¯x2)±(Bonferronit critical value)√MSEn1+MSEn2
For μk−1−μk:(¯xk−1−¯xk)±(Bonferronit critical value)√MSEnk−1+MSEnk
Ahol az MSE a varianciatáblázatból származik, és a Bonferroni t kritikus érték az alábbi Bonferroni táblázatból származik. A Bonferroni t kritikus értéket a hallgató t kritikus érték helyett az MSE használatával kombinálva legalább 95% -os egyidejű megbízhatósági szint elérésére használják az összes kiszámított intervallumra. A két eszközt jelentősen eltérőnek ítélik meg, ha a megfelelő intervallum nem tartalmaz nullát.
5. táblázat. Bonferroni t-kritikus értékek.
df |
2 |
3 |
4 |
5 |
6 |
10 |
---|---|---|---|---|---|---|
2 |
6.21 |
7.65 |
8.86 |
9.92 |
10.89 |
14.09 |
3 |
4.18 |
4.86 |
5.39 |
5.84 |
6.23 |
7.45 |
4 |
3.50 |
3.96 |
4.31 |
4.60 |
4.85 |
5.60 |
5 |
3.16 |
3.53 |
3.81 |
4.03 |
4.22 |
4.77 |
6 |
2.97 |
3.29 |
3.52 |
3.71 |
3.86 |
4.32 |
7 |
2.84 |
3.13 |
3.34 |
3.50 |
3.64 |
4.03 |
8 |
2.75 |
3.02 |
3.21 |
3.36 |
3.48 |
3.83 |
9 |
2.69 |
2.93 |
3.11 |
3.25 |
3.36 |
3.69 |
10 |
2.63 |
2.87 |
3.04 |
3.17 |
3.28 |
3.58 |
11 |
2.59 |
2.82 |
2.98 |
3.11 |
3.21 |
3.50 |
12 |
2.56 |
2.78 |
2.93 |
3.05 |
3.15 |
3.43 |
13 |
2.53 |
2.75 |
2.90 |
3.01 |
3.11 |
3.37 |
14 |
2.51 |
2.72 |
2.86 |
2.98 |
3.07 |
3.33 |
15 |
2.49 |
2.69 |
2.84 |
2.95 |
3.04 |
3.29 |
16 |
2.47 |
2.67 |
2.81 |
2.92 |
3.01 |
3.25 |
17 |
2.46 |
2.66 |
2.79 |
2.90 |
2.98 |
3.22 |
18 |
2.45 |
2.64 |
2.77 |
2.88 |
2.96 |
3.20 |
19 |
2.43 |
2.63 |
2.76 |
2.86 |
2.94 |
3.17 |
20 |
2.42 |
2.61 |
2.74 |
2.85 |
2.93 |
3.15 |
21 |
2.41 |
2.60 |
2.73 |
2.83 |
2.91 |
3.14 |
22 |
2.41 |
2.59 |
2.72 |
2.82 |
2.90 |
3.12 |
23 |
2.40 |
2.58 |
2.71 |
2.81 |
2.89 |
3.10 |
24 |
2.39 |
2.57 |
2.70 |
2.80 |
2.88 |
3.09 |
25 |
2.38 |
2.57 |
2.69 |
2.79 |
2.86 |
3.08 |
26 |
2.38 |
2.56 |
2.68 |
2.78 |
2.86 |
3.07 |
27 |
2.37 |
2.55 |
2.68 |
2.77 |
2.85 |
3.06 |
28 |
2.37 |
2.55 |
2.67 |
2.76 |
2.84 |
3.05 |
29 |
2.36 |
2.54 |
2.66 |
2.76 |
2.83 |
3.04 |
30 |
2.36 |
2.54 |
2.66 |
2.75 |
2.82 |
3.03 |
40 |
2.33 |
2.50 |
2.62 |
2.70 |
2.78 |
2.97 |
60 |
2.30 |
2.46 |
2.58 |
2.66 |
2.73 |
2.91 |
120 |
2.27 |
2.43 |
2.54 |
2.62 |
2.68 |
2.86 |
Ehhez a problémához k = 3 tehát k (k — 1) /2= 3 (3 — 1) /2 = 3 többszörös összehasonlítás. A szabadságfokok megegyeznek N — k = 18 — 3 = 15 értékkel. A Bonferroni kritikus értéke 2,69.
ForμA−μF:(5.033−4.517)±(2.69)√0.10116+0.10116=(0.0222,1.0098)
ForμA−μT:(5.033−5.537)±(2.69)√0.10116+0.10116=(−0.9978,−0.0102)
ForμF−μT:(4.517−5.537)±(2.69)√0.10116+0.10116=(−1.5138,0.5262)
Az első konfidencia intervallum tartalmazza az összes pozitív értéket. Ez azt mondja, hogy szignifikáns különbség van a két eszköz között, és hogy Alaszka átlagos eső pH-ja lényegesen nagyobb, mint Florida átlagos eső pH-ja.
A második konfidencia intervallum tartalmazza az összes negatív értéket. Ez azt mondja, hogy szignifikáns különbség van a két eszköz között, és hogy Alaszka átlagos eső pH-ja lényegesen alacsonyabb, mint Texas átlagos eső pH-ja.
A harmadik konfidencia intervallum az összes negatív értéket is tartalmazza. Ez azt mondja, hogy jelentős különbség van a két eszköz között, és hogy Florida átlagos eső pH-ja lényegesen alacsonyabb, mint Texas átlagos eső pH-ja.
Mindhárom államban jelentősen eltérő az eső pH-szintje. Texasban a legmagasabb az eső pH-ja, majd Alaszka követi Floridát, ahol a legalacsonyabb az eső pH-értéke. A konfidencia intervallumok segítségével megbecsülheti az állapotok közötti átlagos különbséget. Például Texasban az eső átlagos pH-ja 0,5262 és 1,5138 között mozog, mint Floridában az átlagos eső pH-ja.
Most használjuk a Tukey módszert több összehasonlításhoz. Hagyjuk, hogy a szoftver kiszámítsa számunkra az értékeket. Az Excel nem végez több összehasonlítást, így a Minitab kimenetre támaszkodunk.
Egyirányú ANOVA: pH vs. állapot
Forrás |
DF |
SS |
MS |
F |
P |
---|---|---|---|---|---|
állam |
2 |
3.121 |
1.561 |
15.4 |
0.000 |
Hiba |
15 |
1.517 |
0.101 |
||
Összesen |
17 |
4.638 |
|||
S = 0,3180 |
R-Sq = 67,29% |
R-Sq (adj) = 62,93% |
A kimenetnek ezt a részét már láttuk. Most a Tukey módszerrel történő csoportosítási információkra szeretnénk összpontosítani. Mindhárom állapot különböző betűkkel rendelkezik, jelezve, hogy az egyes állapotok átlagos eső pH-ja jelentősen eltér. A legmagasabbtól a legalacsonyabbig is fel vannak sorolva. Könnyen belátható, hogy Texasban a legmagasabb az eső pH-ja, míg Floridában a legalacsonyabb.
Információk csoportosítása Tukey módszerrel
állam |
N |
Átlag |
Csoportosítás |
Texas |
6 |
5.5367 |
A |
Alaszka |
6 |
5.0333 |
B |
Florida |
6 |
4.516 |
C |
Azok az eszközök, amelyek nem osztják meg a levelet, jelentősen különböznek egymástól. |
Ez a következő konfidencia intervallumkészlet hasonló a Bonferroni konfidencia intervallumokhoz. Becsülik az egyes átlagpárok különbségét. Az egyéni konfidencia intervallum szintjét 95% helyett 97,97% -ra állítják be, így szabályozzák a kísérleti hibaarányt.
Tukey 95% egyidejű konfidencia intervallumok |
Minden páronkénti összehasonlítás az állapotszintek között |
Egyéni megbízhatósági szint = 97,97% |
állam = Alaszka kivonva: |
|||||||
állam |
Alsó |
Központ |
Felső |
————+————————+ |
|||
Florida |
-0,9931 |
-0,5167 |
-0,0402 |
(——*—-) |
|||
Texas |
0.0269 |
0.5033 |
0.9798 |
(——*——) |
|||
————+————————+ |
|||||||
-0,80 |
0.00 |
0,80 |
1.60 |
állam = Florida kivonva: |
|||||||
állam |
Alsó |
Központ |
Felső |
————+————————+ |
|||
Texas |
0.5435 |
1.0200 |
1.4965 |
(——*——) |
|||
————+————————+ |
|||||||
-0,80 |
0.00 |
0,80 |
1.60 |
Az első párosítás Florida — Alaszka, ami (-0,9931, -0,0402) intervallumot eredményez. Az intervallumnak minden negatív értéke van, ami azt jelzi, hogy Florida lényegesen alacsonyabb, mint Alaszka. A második párosítás Texas - Alaszka, ami (0,0269, 0,9798) intervallumot eredményez. Az intervallumnak minden pozitív értéke van, ami azt jelzi, hogy Texas nagyobb, mint Alaszka. A harmadik párosítás Texas - Florida, amely (0,5435, 1,4965) intervallumot eredményez. Minden pozitív érték azt jelzi, hogy Texas nagyobb, mint Florida.
Az intervallumok hasonlóak a Bonferroni intervallumokhoz, szélességbeli különbségekkel az alkalmazott módszerek miatt. Mindkét esetben ugyanazok a következtetések vonhatók le.
Ha egyirányú ANOVA-t használunk, és arra a következtetésre jutunk, hogy az eszközök közötti különbségek jelentősek, nem lehetünk teljesen biztosak abban, hogy az adott tényező felelős a különbségekért. Lehetséges, hogy más ismeretlen tényező variációja felelős. Az idegen tényezők hatásának csökkentésének egyik módja egy kísérlet megtervezése, hogy teljesen véletlenszerű kialakítású legyen. Ez azt jelenti, hogy minden elemnek egyenlő a valószínűsége annak, hogy bármilyen kezelést kap, vagy bármely más csoporthoz tartozik. Általában a jó eredmények megkövetelik, hogy a kísérletet gondosan megtervezzék és végrehajtsák.
További példa: