如何在多种可控制因素中找到主要因素?
残差剖析已知,检测假定H的一个样本。因而,当H一.回想两总体均值检测的概念问题:总体高于两个怎样作检测?横向的差别称随机(实验)偏差实质分析因素,(组内差距)纵向的差别称系统偏差,(组间差别)品种重复引进例:五个玉米品种单位产值的观测值——.4ij1、在实践中,影响一个事物的诱因常常这些,人们总是要通过实验视察各类诱因的影响。诸如,栽培作物,不同的作物品种,不同的耕种方式,不同的耕种人员、不同的气候等等实质分析因素,对小麦的销量、性能就会有影响。在马铃薯、耕作方式、耕作人员、气候诸诱因中,有的诱因影响大,有的诱因影响小,有的诱因可控制,有的诱因可不控制。怎样在多种可控制诱因中找到主要诱因,通过对主要诱因的控制调整,减少作物总量、质量,解决此问题的有效办法之一就是残差剖析.(,ANOVA)一、方差剖析的基本问题2、在数据处理上,是要通过实验视察数据偏差来源的剖析判定多个总体均值是否相等。随机偏差(组内差距):来自随机干扰系统偏差(组间差别):来自总体我们要通过实验数据来辨别5个不同的马铃薯品种对销量的影响,记每位品种单位产值均值为即要检测假定:中至小两个不相等一、方差剖析的基本问题上例中,品种的马铃薯、耕作方式,耕种人员、为可控诱因,故为自变量。
#
而不同的马铃薯品种,不同的耕种方式,不同的耕种人员、不同的气候的“不同”为该诱因不同的水平而小麦销量、质量为实验指标故称为响应变量。4、方差剖析本质要解决的问题在诸个不同水平的诱因的组合寻求出优化的组合。残差剖析法在上世纪20年代由日本大统计家成立,先适于农业实验,后这个步骤被适于其它领域,尤其在工业实验数据的剖析中,取得巨大的成功。二、方差剖析(单诱因)的基本原理单诱因实验指的是在实验中,只有一个(可控)诱因在改变,其它(可控)条件不变的实验。中上例,影响我们感兴趣的指标--总量的诱因只有一个,即种籽品种,所考虑的不同的种籽品种有5个,每一个详细的品种,都称为品种这个诱因的一个“水平”,故上例品种这个因素共有5个水平,该实验为单诱因5水平的实验。互相独立,因而各子样也互相独立。我们的目的是通过实验数据来判定诱因A的不同水平对实验指标的影响。即要检测假定:因此我们作如下假定:表示欲视察的诱因,它的个不同水平对应的指标视作个总体每位水平下我们作若干次实验:(可等重复也可不等重复)同一水平的个结果就是这个总体的一个样本:1、单诱因实验的残差剖析的假定横向的差别称随机(实验)偏差,(组内差距)纵向的差别称系统偏差,(组间差别)品种重复例:五个玉米品种单位产值的观测值——.4ij其中诸可以不一样,单诱因实验资料表水平重复1121(样本组平均值)(样本总平均值)指标因为同一水平下各次重复的差别是随机偏差,因此设:其中为实验偏差,互相独立且服从正态分布ij(其中)称为总平均数。 #
称为第个水平(对实验指标)的效应。则线性统计模型弄成然后检测假定:ijij若假定创立,则2、单诱因实验的残差剖析的英语模型三、总偏离平方和的分解组内平方和偏差平方和ijij这儿反映的是各子样随机偏差的大小。其中组间平方和反映的是各总体平均值的差距程度。若假定创立,则可推得:单侧检测由此知,残差剖析只是假定检测的一种,(从残差的视角)单诱因实验中水平为两个时也可用上面提及的两总体的假定检测。留意,在假定检测中,检测水平一般取0.05和0.01,即在0.01的水平下,差距有统计意义,这时作标记,称作差别极有统计意义。若0.050.01差距没有统计意义,这时作标记,称作差距有统计意义,即在0.05的水平下,差距有统计意义,而在0.01的水平下,0.10,则称差距没有统计意义。单诱因实验残差剖析表残差来源总和平方和SS自由度SSSS诱因平方和的自由度为水平数减一,总平方和的自由度为实验数量减一。残差剖析简化估算公:其中四、单诱因实验残差剖析表简化运算残差来源总和平方和SS自由度三种草料喂鱼,得一个月后每猪所增体重(单位:500g)于下表,试作残差剖析。 #
草料增重,,,74,51,..11934...8390....3690..3631.1015.030.010.05不同的草料对猪的体重的影响极有统计意义。残差剖析表残差来源总和平方和934...89SS自由度.052,65.140.012,610.92在过程中的CLASS句子(分类句子)是应当的,并且一定要置于MODEL句子之前。在残差剖析中要使用的分类变量(诱因),首先要在CLASS句子中说明。分类变量可以是数值型的,也可以是字符型的。MODEL句子拿来规定诱因对试验结果的效应,通常方式为,因变量=诱因效应。本例即为株高=品系效应。(GLM);CLASS诱因;MODEL因变量=诱因效应;在过程中的CLASS以后,MEANS句子后列举希望得到均值的某些变量。 #
MEANS句子有很多选项,下边列举几个有关的选项,将选项写在MEANS句子的“/”之后。:对MEANS句子列举的所有主效应均值进行检测。SNK:对MEANS句子列举的所有主效应均值进行--Keuls检测。LSD:对MEANS句子列举的所有主效应均值进行两两t检测,它相当于在样本纯度相同时的LSD检测。ALPHA=均值间对比检测的明显水平,缺省值是0.05。当用选项时只好取0.01、0.05和0.10,对于其它选项,α可取0.0001到0.9999之间的任何值。:在选项T和LSD时,过程将两个均值之差以置信区间的方式输出。CLM:在选项T和LSD时,过程把变量的每一水平均值以置信区间的方式输出。种籽(TRT)销量(Y)A1413940A2333735A3383535A4373938A5313434单诱因方剖析的SAS程序datali_1;(方式2)dotrt=1;end;end;cards;413940333735383535373938313434;classtrt;modely=trt;meanstrt;run;datali_1;(方式1)inputtrt$cards;a141a139a140a233a237a235a338a335a335a437a439a438a531a534a434;classtrt;modely=trt;meanstrt;run;ClassLevelClasstrt:Mean87..9.130.0023Error1024.2.Total14111.R-CoeffVarRootMSEMean0.4.1.36.40000DFAnovaSSMean87..9.130.002317:21,10,2008LevelDev40..35..36..38..33..单诱因残差剖析的SAS程序。
#
SAS程序如下:=76;datawheat;inputhight;class;modelhight=;means;means;run;:HIGHTSumDF131..42.280.0001Error2022.0.Total24147.R-C.V.RootMSEHIGHTMean0.1.0.8826167.2800DFAnovaSSMean131..42.280.0001?sRangeTest:HIGHTNOTE:rate,rateAlpha=0.05df=20MSE=0.7791.1641.2221.2591.285Meansnt.Mean五、利用SAS菜单作单诱因实验的残差剖析数据是书P35例3.4.10.010.05双诱因实验的残差剖析双诱因实验的残差剖析指的是在实验中,同时视察两个诱因的改变对实验指标的影响,它的思想方式与单诱因实验的残差剖析类同。 #
也是在双诱因实验中,不仅要视察各诱因对试验指标形成的影响此外,需要考虑各诱因不同水平的搭配对实验指标形成的影响(交互作用)。双诱因无重复(无交互作用)实验资料表诱因A1112个不同水平。A与B的不同水平的组合称为一个处理,每位处理只作一次实验,得到的观察值记作并将其分解为:其中:SSSSSSSS反映诱因A对实验指标的影响。反映诱因B对实验指标的影响。若“各个处理对实验指标的影响无差别”的假定创立,则:可推得:SSSSSSabSSSSSSSSdfdfdfdfSSdfMSSSdfMSSSdfMSSSdfMSSSdfMSSSdfMSSSdfMSSSdfMS抵制“A诱因的影响无统计意义”的假定。抵制“B诱因的影响无统计意义”的假定。双诱因(无重复)实验残差剖析表残差来源诱因A总和平方和SS自由度SSMSdfSSMSdf诱因B偏差SSMSdfdfdfdfSSSSSSSS留意到且各诱因平方和的自由度为水平数减一,总平方和的自由度为实验数量减一。双诱因(无重复)实验残差剖析表残差来源诱因A总和平方和SS自由度SSMSdfSSMSdf诱因B偏差SSMSdf估算式:其中:设甲、乙、丙、丁四个女工操作机器、、各三天,其产品销量如下表,问女工和机器对产品销量是否有明显影响?女工A50635247544247574153584849.358.045.8机器B18316514314515955.047.748.353.0运用SAS菜单作双诱因实验的残差剖析数据是书上P37例3.4.3>0.05 #