(每日一题)统计分析模型有哪些?
在实际业务中,我们经常需要对一些业务问题进行建模,并利用统计分析模型来解决问题。 接下来,我们将进入统计学习的高级阶段,了解什么是统计分析模型。
#
1 统计分析方法体系 #
可变测量尺度 #
多元统计分析方法的分类 #
当我们需要根据某些因素(自变量)来预测结果(因变量)时,例如:根据房子的一些信息(面积、楼层、位置等)来预测未来的房价,并分类如下根据不同情况:
2 方差分析模型 #
2.1 什么是方差分析? #
方差分析是 20 世纪 20 年代开发的一种统计方法。 它最早是由英国统计学家费舍尔在设计实验时为了解释实验数据而引入的。
方差分析(ANOVA)是通过测试每个总体的均值是否相等来确定分类自变量是否对数值因变量有显着影响。 #
从定义可以看出,在研究一个(或多个)类别自变量与数值因变量之间的关系时,方差分析是主要方法之一。 它与回归分析方法有很多相似之处,但也有本质的区别。
#
从表面上看,方差分析是一种检验多个总体均值是否相等的统计分析方法,但本质上是研究的分类自变量对数值因变量的影响,例如:变量之间是否存在关系? 强弱等问题。
根据类别自变量的个数,方差分析分为:单因素方差分析和多因素方差分析。
#
举个栗子
消协经常收到消费者对各行业的各种投诉。 现在消费者协会想要研究不同行业的服务质量是否存在显着差异。 因此,它随机选择了不同行业的不同数量的公司,并提取了以下数据。 进行测试。 #
分析:从方差分析的概念我们知道,方差分析主要决定类别自变量对数值因变量是否有显着影响。 #
这里的自变量:零售、旅游、航空和家电制造
#
因变量:这些行业的投诉数量, #
分析目的:分析不同行业对投诉数量是否有显着影响
#
数据如图: #
2.2 理解几个概念
#
或:要测试的对象。 在这个例子中,行业是被测试的对象,因此行业就是因素。 由于只有一个因素,因此称为单因素方差分析。
#
水平或治疗:因素的不同表现。 零售、旅游、航空、家电制造是行业的具体表现,是级别或待遇。 #
观测值:在各因素水平上得到的样本数据称为观测值,表中得到的各行业的投诉数即为观测值。
#
2.3 方差分析的基本假设 #
1 每个总体应服从正态分布。 例如:在这个例子中,每个行业的投诉数量必须服从正态分布。
#
2 每个总体的方差σ^{2}必须相同,即每组观测数据都是从具有相同方差的正态总体中提取的。 例如:本例中要求各个行业的方差相同。 #
3 观察结果是独立的。 在此示例中,针对每个公司的投诉数量独立于其他公司。 #
2.4 方差分析原理 #
为了分析类别自变量对数值因变量的影响,有必要分析数据误差的来源。 #
从方差分析的基本假设可以看出,对于分类自变量,它们的总体方差相同且服从正态分布,相当于最终比较它们的均值是否相等。 如果它们相等,则意味着来自同一人群,它们之间不存在显着差异。 如果平均值不相等,可能有两个原因:
#
1 抽样误差的后果 #
2 它们来自不同人群,因此存在显着差异 #
那么我们要分析的就是从是否是抽样误差造成的入手,计算出相关数据。 如果我们最终得出抽样误差的概率P很小,小于a,则说明自变量之间存在显着差异。
#
2.5 单因素方差分析 #
方差分析仅涉及一个分类自变量
接下来我们来进行实际操作 #
或者上面的案例
#
分析不同行业的服务质量是否存在显着差异 #
1. 提出假设 #
令平均值为 μ
H_{0}: \mu_{1} = \mu_{2} = \mu_{3} = \mu_{4} 自变量对因变量没有显着影响
#
H_{1}: \mu_{i} (i = 1,2,3,4) 并非所有相等的自变量都对因变量产生显着影响
#
2.构建测试统计量
计算每个样本的均值和总体均值
计算总误差平方和 (SST)
#
SST是总平方和,即所有数据与总体均值之间的误差平方和。 它是所有数据总误差程度的度量。 #
计算组间的平方和 (SSA) #
SSA 是每组平均值与总体平均值之间的平方误差之和。 SSA反映了每个样本之间的差异程度。 它也称为因子平方和。 它是随机误差和系统误差大小的度量。
#
计算方法:各组均值与总均值的误差平方和*洗牌后的数据个数
#
计算组内平方和 (SSE)
它是各水平或组内各样本数据与其组均值的误差平方和,反映各样本各观测值的离散程度。 SSE 是随机误差大小的度量。 它除了反映自变量对因变量的影响外,还反映其他因素对因变量的影响。 因此,SSE也称为残差变量。
计算如下:
三者之间的关系如下图,可以通过数据验证
计算统计数据
由于误差平方和与观测值有关,为了消除误差平方和对观测值大小的影响,需要对其进行平均,即除以平方和通过自由度。 这个结果称为均方,也称为方差,三个平方和对应的自由度为: #
SST 的自由度为 n-1,其中 n 是所有观测值的数量。 在这个问题中,n=23
#
SSA 的自由度为 k-1,其中 k 是因子水平的数量(总体)。 在这个问题中,k = 4
SSE的自由度为nk
我们其实是想比较SSA和SSE,因为我们确认了SSE,即组内误差来自于随机误差,那么我们就用SSE作为基准来比较SSA。 如果两者之间没有太大差异,我们认为组间误差只是随机误差。 不存在系统误差,而且由于两者的大小(自由度)不同,很难直接比较,所以我们可以比较两者的均方误差: #
MSA(组间均方)= \frac{组间平方和}{自由度} = \frac{SSA}{k-1} = \frac{1456.}{4-1} =485。 #
MSE(群内均方)= \frac{群内平方和}{自由度} = \frac{SSE}{nk} = \frac{2708}{23-4} =142。 #
将上述MSA与MSE进行比较,得到所需的检验统计量F。当H_{0}为真时,两者之比服从F分布,分子为自由度k-1,分母为自由度NK。
F = \frac{MSA}{MSE} ~F(k-1,nk) #
计算 F = 3.459 #
3 统计决策
如果原假设正确,则意味着只有随机误差,没有系统误差,MSA和MSE之间的差异不会太大。 否则,说明原假设不正确。 在这个例子中,如果行业对投诉数没有影响,那么四个行业的平均投诉数之间的差异和每个行业投诉数的内部差异不会相差太大; 那么现在的问题就演变成了计算的F统计量,如何判断是否存在显着性差异,由于F统计量服从F分布,所以给定显着性水平a的临界值F可以与计算的F统计量进行比较来确定如何针对原假设做出相应的决策。 #
在此示例中 F= 3.459
#
假设 a = 0,05
分子自由度 df = 3
#
分母自由度 = 19
#
查F表,得F_{0.05}(3,19) = 3.127
得到:F > F_{0.05} #
因此,零假设被拒绝,行业对投诉数量有显着影响。
#
有兴趣的同学还可以了解关系强度衡量指标R^{2}的实现过程。
但如果按照上面的步骤来计算的话,就太麻烦了。 但没关系。 Excel专门提供了方差分析的功能。 操作如下。 简单几步,就全部实现了。
使用 Excel 进行方差分析 #
如果在【数据选项卡】中没有找到数据分析功能按钮,则需要单独设置
#
Excel 结果
#
使用 SPSS 进行单因素方差分析
操作方法如下:
#
决策时可以直接将方差分析表中的P值与显着性水平α进行比较。 如果Pα,则不能拒绝原假设。在这个问题中P=0。 多重比较
#
但我们现在才知道它们之间存在显着差异。 我们还没有体现出哪些行业不同,因此需要进一步进行两两比较: #
常用的方法有:
#
LSD法: #
它是提出的最小显着性差异法()。 它实际上是t检验的变形。 它在计算变异度和自由度时只使用了整个样本信息,因此仍然存在误差放大的问题。
(雪费)方法: #
当每组人数不相等,或者想要进行复杂比较时,使用这种方法比较安全,但比较保守。
#
SNK方法:
它是应用最广泛的成对比较方法,它利用极差分布对所有组的均值进行成对比较。 这种方法保证了H0真正建立时总的α水平等于实际设定值,即控制了一种误差。 #
以下演示了检查的操作方式:
#
结果表明:
#
说明:同一列没有太大区别。 从上图可以看出,航空公司和家电制造业接到的投诉数量存在显着差异。 #
3 回归分析模型 #
3.1 相关分析与回归分析的比较
#
在讲回归分析之前,我们先来说说相关分析和回归分析的区别。 #
相关性:变量之间不确定的数量关系称为相关性。 #
我们先看这张图 #
随机变量 X 和 Y 之间的相关系数(源自协方差)
#
\rho_{xy} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} #
其中 Cov(X,Y) = E{[XE(X)][YE(Y)]} 协方差公式。
#
从上图我们可以看出,左图相对离散,右图相对集中。
#
从相关性角度分析:右图比左图相关性更强,呈现正相关,因为随着随机变量的上升,但是离散点会更多。
#
从回归角度分析:As Y之间是否存在联系以及联系的强度,并不是一个具体的数值来反映变化的大小。 #
但实际上,他们描述的问题是一样的,只是侧重点不同。 #
回归分析和相关分析都是研究变量之间关系的统计学主题。 他们的主要区别是:
1、回归分析中,y称为因变量,处于需要解释的特殊位置。 在相关性分析中,x和y处于同等地位,即研究x和y的紧密程度与研究y和x的紧密程度一致;
#
2、相关分析中,x和y都是随机变量,而回归分析中,y是随机变量,x可以是随机变量,也可以是非随机变量。 通常在回归模型中,x 始终被假定为非随机的。 ;
3、相关分析的研究主要关注两个变量之间的接近程度,而回归分析不仅可以揭示x对y的影响,还可以通过回归方程对其进行定量预测和控制。
#
3.2 回归分析模型介绍
#
研究连续变量(因变量)的值随着其他变量(自变量)的值变化而变化的趋势 #
通过回归方程来解释两个变量之间的关系更为准确。 可以计算当自变量变化1个单位时因变量变化的平均单位数。 这是相关分析无法做到的。
回归方程除了描述两个变量之间的关系外,还可以用于预测和控制,这在实际工作中尤为重要。
回归分析假设自变量对因变量的影响强度始终恒定,如公式所示: #
因变量的预测值可以分为两部分: #
:x为0时y的平均估计量,可以视为基线水平 #
回归部分:描述因变量Y的值中由因变量Y与自变量X之间的线性关系确定的部分,即可以由X直接估计的部分。 #
解释一下公式
a:常数项,表示自变量全为0时因变量的平均水平,以及4条回归线在y轴上的截距
b:回归系数,多元回归中也称为偏回归系数。 当自变量X变化1个单位时,Y的估计值发生变化,即回归线的频率。
#
剩余的
#
估计值与每个测量值之间的差异称为残差。 它描述了因变量y的变化,除了未进入模型的自变量x,或者是由未知但可能与y有关的随机和非随机因素引起的,即无法预测的部分。由x直接估计。
为了估计方程,我们经常假设 \{i} 服从正态分布 N(0, \sigma^{2} )
y_{i} = a + bx + \{i} #
3.3 模型的几个假设
#
在一变量线性回归模型中,y是x(a+bx)加上误差项\的线性函数,a+bx反映了y因x的变化而发生的线性变化; \是一个随机项,称为误差项变量,它反映了除x和y之间的线性关系之外的随机因素对y的影响,是无法用x和y之间的线性关系解释的变异性,其中a和b称为模型的参数。 #
3.4 回归方程
#
根据回归方程的假设,\的期望值为0,因此y的期望值E(y) = \beta_{0} + \beta_{1} x ,也就是说y 是 x 的线性函数,因此因变量 y 的期望值如何变化取决于自变量 x 的方程称为回归方程。 线性回归方程的形式为: #
E(y) = β_{0} + β_{1}x
3.5 估计回归方程 #
如果回归方程\beta_{0}和\beta_{1}已知,对于给定的x值,可以根据解析公式计算出y值,但整体回归参数往往是未知的,需要通过以下方式进行估计样本数据。 使用样本统计量,估计回归方程为:
3.6 最小二乘法
#
观测值与估计值之差的平方和
计算观测值与估计值之差的最小平方和,以求出未知参数的值。
#
3.7 决定系数
线性回归方程的最优情况是所有观测点都落在这条拟合直线上,但这种情况一般不存在。 退一步来说,如果观察点越靠近直线,则意味着直线越适合观察到的数据,反之亦然。 回归线与各观测点的接近程度称为回归线与数据的拟合优度。 为了说明直线的拟合优度,需要计算决定系数。
#
因变量y的值不同。 y 的这种波动称为变异。 变异计算可以根据实际观测值 y 与其均值 (y - \bar{y}) 之间的差值来表示,而 n 个观测值的总变异可以用这些偏差的平方和来表示,称为总平方和,表示为 SST #
SST=\sum({y_{i} - \bar{y}})^{2} #
由图可知,y_{i} - \bar{y} =( y - ?_{i} ) + ( ?_{i} - \bar{y}) #
因此公式可以改写为 #
\sum({y_{i} - \bar{y}})^{2} = \sum({y_{i} - ?_{i} })^{2} + \sum({ ?_{i} - \bar{y}})^{2} #
其中\sum({y_{i} - ?_{i} })^{2}是实际观测点与回归值之间的残差平方和观测值中误差计算公式,这是除了x对y的线性影响之外的其他因素造成的。 变化的部分是变异中不能用回归直线解释的部分,称为残差平方和或误差平方和,记为SSE。 #
\sum({ ?_{i} - \bar{y}})^{2} 被视为自变量 x 的变化引起的 y 的变化,其平方和反映了由于自变量 x 的变化而引起的 y 的整体变化x y与y之间的线性关系引起的y的变化部分,即y的变化可以用回归直线解释的部分,记为回归平方和,SSR #
总平方和(SST)= SSR(回归平方和)+ SSE(残差平方和)
#
回归线拟合的质量取决于SSR和SSE的大小,或者换句话说,取决于SSR与SST的比例。
每个观测值越接近直线,SSR/SST越大,直线拟合越好。
#
回归平方和占总平方和的比例称为决定系数,记为:R^{2}
R^{2} = \frac{ \sum({ ?_{i} - \bar{y}})^{2}}{\sum({y_{i} - \bar{y}})^{2 }} = 1 - \frac{ \sum({y_{i} - ?_{i} })^{2} }{\sum({y_{i} - \bar{y}})^{2}}
#
决定系数R^{2}衡量回归直线对观测数据的拟合程度。 取值范围为[0,1]。 如果观测值都落在直线上,则 R^{2} = 1。如果 x 变化 y 始终在均值上,则 R^{2} = 0
#
之前我们学过的相关性分析中的r观测值中误差计算公式,其实就是用来判断两者相关性强弱的。 这里的r是R^{2}的平方根,它实际上是一个指标。
#
案件: #
分析影响销售的因素 #
某公司计划在全国开设多家分公司,因此提供了目前已开设的分公司的销售数据以及分公司所在城市的人数(其中超过16人),来分析人数的影响城市里从事销售的人。 #
分析步骤如下: #
绘制散点图以观察变量之间的趋势 #
脚步
结果如下:
从图中可以看出,需要分析是否是线性的,是否存在异常值,是否存在一定的趋势。 #
分析后基本满意 #
适合型号
#
y_{i} = a + bx + e_{i} #
Excel运算
结果输出: #
结果是a = 6.8,b = 1.8 #
y=6.8+1.8x #
如何预测呢?
#
很简单,只要带入x,求y值就可以了。 #