學(xué)前端什么網(wǎng)站好足球世界排名
方差分析的基本前提假設(shè)與t檢驗(yàn)的前提假設(shè)類似,包括正態(tài)分布假設(shè)、觀察獨(dú)立性假設(shè)和方差齊性假設(shè)。
一、基本術(shù)語
在R語言以及更廣泛的統(tǒng)計(jì)學(xué)領(lǐng)域中,方差分析(ANOVA,即Analysis of Variance)是一種用于比較兩個(gè)或更多組數(shù)據(jù)的均值是否存在顯著差異的統(tǒng)計(jì)方法。可以使用aov()函數(shù)或其他相關(guān)函數(shù)(如anova())來執(zhí)行方差分析.下面是方差分析中的一些基本術(shù)語定義:
1、因素(Factor)
在方差分析中,因素是指影響響應(yīng)變量(因變量)的一個(gè)或多個(gè)分類變量。例如,在比較不同教學(xué)方法對學(xué)生成績的影響時(shí),教學(xué)方法就是一個(gè)因素。
2、水平(Level)
因素的每個(gè)不同取值稱為一個(gè)水平。例如,如果教學(xué)方法因素有三個(gè)取值:傳統(tǒng)教學(xué)法、互動(dòng)教學(xué)法和項(xiàng)目式學(xué)習(xí)法,那么這三個(gè)取值就是該因素的三個(gè)水平。
3、響應(yīng)變量(Response Variable)
?又叫因變量。響應(yīng)變量是方差分析中我們想要研究的變量,其值受到因素水平的影響。在上面的例子中,學(xué)生成績就是響應(yīng)變量。
4、組間變異(Between-Groups Variation)
組間變異是指由不同因素水平引起的響應(yīng)變量值之間的差異。在方差分析中,組間變異用于評估因素對響應(yīng)變量的影響是否顯著。
5、?組內(nèi)變異(Within-Groups Variation)
組內(nèi)變異是指在同一因素水平內(nèi),響應(yīng)變量值之間的差異。它反映了在每個(gè)組內(nèi)數(shù)據(jù)的自然波動(dòng)。
6、總變異(Total Variation)
總變異是組間變異和組內(nèi)變異的總和,代表了響應(yīng)變量值的整體波動(dòng)。
7、均方(Mean Square)
均方是變異量(如組間變異或組內(nèi)變異)除以相應(yīng)的自由度得到的值。均方用于計(jì)算F統(tǒng)計(jì)量,以評估組間變異是否相對于組內(nèi)變異顯著。
8、F統(tǒng)計(jì)量(F-Statistic)
F統(tǒng)計(jì)量是組間均方與組內(nèi)均方的比值。它用于檢驗(yàn)零假設(shè)(即所有組的均值相等)是否成立。如果F值足夠大,則拒絕零假設(shè),認(rèn)為至少有兩個(gè)組的均值存在顯著差異。
9、P值(P-Value)
P值是與F統(tǒng)計(jì)量相關(guān)聯(lián)的概率值,表示在零假設(shè)為真的情況下,觀察到當(dāng)前或更極端結(jié)果的可能性。通常,如果P值小于某個(gè)顯著性水平(如0.05),則拒絕零假設(shè)。
10、顯著性水平(Significance Level)
顯著性水平是用于判斷統(tǒng)計(jì)檢驗(yàn)結(jié)果是否顯著的一個(gè)預(yù)設(shè)概率值。在方差分析中,常見的顯著性水平包括0.05、0.01和0.001。如果P值小于顯著性水平,則認(rèn)為結(jié)果是顯著的。
二、aov()函數(shù)
基本格式:
aov(formula, data)
- formula:以公式的形式指定方差分析的類型,如y~A表示單因素組間設(shè)計(jì)方差分析或單因素非重復(fù)測量方差分析。y為因變量,A為自變量。
- data:指定用于方差分析的數(shù)據(jù),y和A必須被包含在data中。?
符號 | 含義 |
~ | 分隔符號,左邊為響應(yīng)變量(因變量),右邊為自變量。如A預(yù)測y,代碼為y~A |
+ | 分隔自變量,表示變量之間的線性關(guān)系。例如A和B預(yù)測y,代碼為y~A+B |
: | 自變量之間的交互作用。例如A和B間交互作用為A:B |
* | 變量間所有可能的效應(yīng)。例如y~A*B*C,可展開為y~A+B+C+A:B+A:C+B:C+A:B:C |
^ | 表示交互項(xiàng)達(dá)到某個(gè)次數(shù)。例如y~(A+B+C)^2,可展開為y~A+B+C+A:B+A:C+B:C |
. | 表示除了因變量的所有變量。例如一個(gè)數(shù)據(jù)框包含了A、B、C和y四個(gè)變量,代碼為y~A+B+C |
- | 表示從公式中除去某個(gè)變量。例如y~A*B-A:B可擴(kuò)展為y~A+B |
-l | 刪除截距項(xiàng)。例如y~A+B-l |
0 | 刪除截距項(xiàng)。例如y~A+B+0 |
I() | 放在I()中的表達(dá)式按照算數(shù)意義進(jìn)行解釋。例如y~A+I(B+C),表示A作為一個(gè)自變量,B和C的和作為另一個(gè)自變量,y是因變量。 |
公式 | 類型 |
y~A | 單因素非重復(fù)測量方差分析 |
y~x+A | 含有一個(gè)協(xié)變量的單因素方差分析 |
y~A+B | 兩因素非重復(fù)測量方差分析 |
y~x1+x2+A*B | 含兩個(gè)協(xié)變量的兩因素非重復(fù)測量方差分析 |
y~A+Error(Subject/A) | 單因素重復(fù)測量方差分析 |
y~A+B+Error(Subject/A) | 兩因素混合設(shè)計(jì)的方差分析 |
?1、單因素非重復(fù)測量方差分析
在R語言中,單因素非重復(fù)測試方差分析(One-Way ANOVA)用于比較三個(gè)或更多獨(dú)立組的均值,以確定這些組之間是否存在顯著差異。非重復(fù)測試意味著每個(gè)觀察值只測量一次,而不是重復(fù)測量。
下面用car包中的Prestige數(shù)據(jù)集來演示:我們只關(guān)注聲望指數(shù)(prestige)和職業(yè)(type)這兩個(gè)變量。其中type中的bc代表藍(lán)領(lǐng),prof代表從事管理或技術(shù)方面工作,wc表示白領(lǐng)。
library(car)
head(Prestige)
# 各組樣本大小
table(Prestige$type)
# 求各組的均值
aggregate(prestige ~ type, data = Prestige, FUN=mean)
# 求各組的標(biāo)準(zhǔn)差
aggregate(prestige ~ type, data = Prestige, FUN=sd)
# 非重復(fù)測量方差分析
result <- aov((prestige ~ type, data = Prestige)
summary(result)
從下面結(jié)果可知:p值<2e-16表明在0.05的顯著性水平下,type因子對因變量(prestige)的影響是高度顯著的。這意味著至少有兩個(gè)type水平之間的均值存在顯著差異。
2、單因素協(xié)方差分析
在R語言中,單因素協(xié)方差分析(ANCOVA)用于研究一個(gè)分類自變量(因子)對一個(gè)連續(xù)因變量的影響,同時(shí)考慮一個(gè)或多個(gè)連續(xù)協(xié)變量的影響。協(xié)變量是那些您認(rèn)為可能會(huì)影響因變量,但不在主要考慮范圍內(nèi)的變量。通過包括協(xié)變量,ANCOVA可以幫助減少誤差變異,從而提高統(tǒng)計(jì)檢驗(yàn)的效力。
下面用nlme包中的bdf數(shù)據(jù)集做演示:
library(nlme)
# 選擇數(shù)據(jù):IQ.vern表示學(xué)生的語言智商分?jǐn)?shù);
# denomina表示學(xué)校的類別,其中1為公立學(xué)校,2為新教私立學(xué)校,3為天主教私立學(xué)校,4為非教派私立學(xué)校;
# schoolSES表示學(xué)校的社會(huì)經(jīng)濟(jì)地位指數(shù)。
bdf.sub <- bdf [, c("IQ.verb", "denomina", "schoolSES")]
head(bdf.sub)
# 查看各組的樣本量
table(bdf.sub$denomina)
以下結(jié)果可知:學(xué)校的社會(huì)經(jīng)濟(jì)地位指數(shù)對學(xué)生的語言智商分?jǐn)?shù)的影響顯著。?
# 計(jì)算各組的均值
tapply(bdf.sub$IQ.verb, bdf.sub$denomina, mean)
# 計(jì)算各組標(biāo)準(zhǔn)差
tapply(bdf.sub$IQ.verb, bdf.sub$denomina, sd)
# 單因素協(xié)差分析
result <- aov(IQ.verb ~ schoolSES + denomina, data=bdf.sub)
summary(result)
?3、單因素重復(fù)測量方差分析
在R語言中,單因素重復(fù)測量方差分析(Repeated Measures ANOVA)可以使用aov()函數(shù)來實(shí)現(xiàn)。單因素重復(fù)測量方差分析用于分析一個(gè)因素在不同時(shí)間點(diǎn)或不同條件下對同一組被試的影響。
4、兩因素方差分析
在R語言中,兩因素方差分析(Two-Way ANOVA)通常用于分析兩個(gè)分類自變量對一個(gè)連續(xù)因變量的影響。
下面用R語言內(nèi)置的warpbreaks做演示:研究該數(shù)據(jù)集中羊毛的類型(A和B),以及張力水平(L、M和H)對紗線斷裂次數(shù)的影響。
head(warpbreaks)
# 計(jì)算各處理組合的次數(shù)
table(warpbreaks$wool, warpbreaks$tension)
# 計(jì)算各處理組合的均值和標(biāo)準(zhǔn)差
library(dplyr)
group_by(warpbreaks, wool, tension) %>% summarise(breaks.mean = mean(breaks)) # %>%重定向
group_by(warpbreaks, wool, tension) %>% summarise(breaks.sd = sd(breaks))
# 兩因素方差分析
result <- aov(breaks ~ wool * tension, data=warpbreaks)
summary(result)
從上面方差分析結(jié)果可知:羊毛類型(wool)的主效應(yīng)不顯著(p=0.058>0.05),但張力(tension)大小的主效應(yīng)顯著(p=0.0006<0.05),羊毛類型與張力大小之間(wool:tension)之間的交互作用顯著(p=0.021<0.05)。?