0 引言
方差分析发明于 20 世纪 20 年代,英国统计学家R.A.Fisher 提出分析数据的误差来源检验总体均值有无差异的方法,即方差分析,也就是给出一个或多个自变量对因变量是否独立的初步判断。方差分析的理论简单,但计算量相对比较大。然而,随着计算机技术的不断发展,方差分析的优势日渐凸显。SPSS 软件操作界面极为友好,功能强大,输出结果美观漂亮,适合用于常见的统计分析。因此,在这样的背景下,运用 SPSS 软件,结合数理统计中方差分析的相关知识,应用 SPSS 软件来对不同水稻品种百丛中 A 幼虫数进行方差分析就显得十分必要。
1 方差分析的概述
1.1 方差分析的基本思想
方差分析(Analysis of Variance,简称 ANOVA),又称“变异数分析”或“F 检验”,是用于两个及两个以上样本均数差别的显著性检验。复杂系统中各种要素及因素相互联系及制约。在这种关系下,研究得到的数据往往呈现波动形式。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析的目标为经过数据分析判断敏感因素,因素间的相互影响,以及敏感因素的最佳值等。方差分析是在供对比的数组中,把数据间的总的“变差”根据相应的指定的变差来源进行分解的分析策略。对变差的度量,采用离差平方和。方差分析法即将可回溯到来源的部分分离差平方和从总离差平方和中分离出来中的一种非常重要的策略。如果假设检验在分析过程中被拒绝,则说明样本均值全部相等的假设不成立。在分析基础上进行更详细的分析能得到各均值之间的更多对比信息。
1.2 方差分析的基本条件
应用方差分析在应用之前有其前提条件,包括:
①随机性:各处理条件下的样本是随机的。
②独立性:各处理条件下的样本是彼此独立的。
③可比性:若资料中各组均数本身不具可比性则不适用方差分析。
④正态性:即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
⑤方差齐性:组间具有方差其性才可应用方差分析。一般采用 Bartlett 法进行多个方差的齐性检验。
1.3 方差分析的假设检验
假设有 N 个样本,提出原假设 H0,样本均数都相同,即 μ1=μ2=…μN=μ,且 N 个样本有共同的方差 σ2,则 N 个样本来自同一个总体。
通过构造 F 统计量,判断试验结果。如果试验条件中,伴随概率 p 值小于预先设定的显著性水平,则表示小概率事件发生,推翻原假设,认为样本来自不同正态总体,试验条件下,因素 A 对总体有影响;否则,认为样本来自相同总体,试验条件下,因素 A 对总体没影响。
2 单因素方差分析
2.1 单因素方差分析的基本原理
假设单一因素 A 有 k 个水平指标,每个水平指标下做 ni次试验,则有如表 1 所示的实验数据。
那么,试验总次数 n=n1+n2+n3+…+nk,水平 Ai下的样本均值为X軍i=1nnij = 1Σxij,n 次试验得到的总样本均值X軍=1nki = 1Σnj = 1Σxij=1kki = 1Σx軃i。由此得到下面 3 个变异指标:
①反映因素 A 对总体样本影响产生的变异用总离差平方和表示,即 SST=ki = 1Σnij = 1Σ(xij-x軃)2;
②反映因素 A 水平差异对组间样本的影响产生的变异,用组间平方和表示,即 SSA=ki = 1Σn1(x軃i-x軃)2;
③反映随机误差及其他因素对组内样本的影响产生的变异,用组内平方和表示,即 SSE=ki = 1Σnij = 1Σ(xij-x軃i)2。
三个变异指标间的关系有:SST=SSA+SSE。这个式子表明,总离差平方和可以分解为因素 A 的组间平方和与误差平方和两部分。这就是方差分析的本质所在。现在的问题是研究因素 A 对指标的影响是否显著。由上式可知,当 SST 一定时,若因素 A 对指标有显著影响,则 SSA 较大,SSE 较小。否则 SSA 较小,SSE 较大。
2.2 单因素方差分析的基本步骤
单因素方差分析属于推断统计问题,其步骤与假设检验基本一致。
①提出零假设:单因素方差分析的零假设 H0:控制变量不同水平下观测变量各总体的均值无显著性差异,即可认为 xij来自统一总体,则有 H0:μ1=μ2=……=μk。
②选择统计量 F 作为检验统计量,确定其分布:其中F=SSA/(k-1)SSE/(n-k)=MSAMSE。
③计算检验统计量的观测值和概率 p 值:若控制变量对观测变量造成了显著影响,相比较于随机变量来说观测变量总变差中控制变量比例必定较大,F 值明显比数值 1大;反之,若控制变量对观测变量影响较小,观测变量的变差应归结于随机变量的影响,F 值约等于 1。
④给定显著性水平 α,并根据该值判段决定:当概率p 值比 α 小时,则应拒绝零假设,认为总体均值之间差异明显,控制变量各水平的效应不同时为 0,控制变量的不同水平对观测变量的影响很大;反之,若概率值 p 比 α 大,零假设成立,认为控制变量不同水平下观测变量的总体均值的影响基本相同,控制变量各水平的效应同时为 0,控制变量的不同水平对观测变量的影响并不显著。
2.3 单因素方差分析的基本操作
以 SPSS17.0 为例,简介单因素方差分析基本流程。在利用 SPSS 进行单因素方差分析时,数据的组织形式十分重要。SPSS 要求定义两个变量分别存放观测变量和控制变量的水平值。其基本操作步骤如图 1 所示。
3 用 SPSS 进行单因素方差分析的应用实例
3.1 模型设计
调查不同水稻品种百丛中 A 幼虫的数量,数据如表 2所示。分析水稻品种对 A 幼虫抗虫性是否存在显著性差异。表 2 不同水稻品种百丛中 A 幼虫数(个/100 丛)。
调整分析数据变量格式,建立因变量“虫数”和因素水平变量“品种”,然后在数据编辑窗口中输入对应的数值。变量格式如图 2 所示。
3.2 分析过程和结果
①首先进行方差齐性检验:方差分析的前提是各个水平 下 的 总 体 服 从 方 差 相 等 的 正 态 分 布 。 于 是 要 用Homogeneity of variance test 方法进行方差齐性检验,结果分别如表 3,表 4 所示。
表 3 表明,5 种不同的水稻品种中品种 1 百丛中 A 幼虫数量的最多,品种 5 百丛中 A 幼虫数量的最少,品种 3百丛中 A 幼虫数量与总体均值相近。
由表 4 可以看出,不同水稻品种下方差齐性检验值为0.750,概率 p 值为 0.580,明显大于显著性水平 0.05,不应该拒绝零假设,认为不同水稻品种下百丛中 A 幼虫数量的总体方差无显著差异,满足方差分析的前提要求。
②方差分析结果:分析结果如表 5 所示。
表 5 是水稻品种对 A 幼虫数量的单因素方差分析结果。可以看到,观测变量 A 幼虫数量的总离差平方和为111.600;总变差中水稻品种可解释的变差为 87.600,抽样误差引起的变差为 24.000,它们的方差(平均变差)分别为21.900 和 2.400,相除所得的 F 统计量的观测值为 9.125,对应的概率 p 值为.002<显著性水平 0.05,则应拒绝零假设,认为不同水稻品种对 A 幼虫数量产生了显著影响。
③多重比较检验。
观察分析结果得到总体均值间存在显著不同,接下来通过多重比较对每个水平的均值逐对进行对比,以判断具体是哪些水平间存在显著差异。通过之前的方差齐性检验可知本实例方差具有齐次性,因此可以采用检验敏感度较高的 LSD 方法和 Duncan 方法来进行多重比较检验,结果如表 6 和表 7 所示。
如表 6 所示,“[i]品种”为比较基准品种,“[j]品种”是比较品种。在平均数差值上会用“*”号表示有显著性差异的比较品种。于是,品种 1 与 2、3 和 5 之间存在显著性差异;2与1和4之间存在显著性差异;3与1和5之间存在显著性差异;4与2和5之间存在显著性差异;5与1,3和4之间存在显著性差异。
如果平均数在同一列,则平均数无显著性差异,反之有。5与3,4和1之间存在显著性差异。2与4和1之间存在显著性差异;3与5和1之间存在显著性差异;4与5和2之间存在显著性差异;1与5,2和3之间存在显著性差异。与LSD法得出的结论一致。
4均值折线图
由图3可以看出,水稻品种1百丛中A幼虫数量的平均值大大高于其他品种,品种5百丛中A幼虫数量的平均值最低。