• 1.41 MB
  • 2022-04-29 14:48:34 发布

最新2、计量经济学【一元线性回归模型——回归分析概述】课件PPT.ppt

  • 51页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'2、计量经济学【一元线性回归模型——回归分析概述】 第二章经典单方程计量经济学模型:一元线性回归模型第一节回归分析概述第二节一元线性回归模型的参数估计第三节一元线性回归模型的统计检验第四节一元线性回归模型的预测 第一节:回归分析概述一、变量间的关系及回归分析的基本概念二、总体回归函数(方程)PRF三、总体回归函数(方程)PRF的随机设定四、随机误差项的涵义五、样本回归函数(方程)SRF 一、变量间的关系及回归分析的基本概念2、回归分析的基本概念回归分析(regressionanalysis)是研究一个变量关于另一个(些)变量的统计依赖关系的计算方法和理论。其用意:在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。这里:前一个变量被称为被解释变量(ExplainedVariable)或应变量,后一个(些)变量被称为解释变量(ExplanatoryVariable)或自变量。例如: 二、总体回归函数(方程)PRF Populationregressionfunction由于变量间统计相关关系的随机性(非确定性),回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。例2.1:一个假想的社区是由60户家庭组成的总体,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系;即知道了家庭的每月收入,预测该社区家庭每月消费支出的(总体)平均水平。为达到此目的,将该60户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。 表2.1某社区家庭每月收入与消费支出调查统计表 每月家庭收入与消费支出散点图(总体)描出散点图发现:随着收入X的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。 二、总体回归函数(方程)PRF总体回归线在给定解释变量的条件下,被解释变量的期望轨迹称为总体回归线(Populationregressionline)。总体回归函数(PRF)即总体回归线所对应的函数形式,表示为:可以是线性或非线性的,为了研究的方便,计量经济学中总体回归函数常设定为线性形式。 三、总体回归函数(方程)PRF的随机设定总体回归函数形式:计量经济学模型形式:其中是一个随机变量,又称为随机干扰项(stochasticdisturbance)或随机误差项(stochasticerror);由于方程中引入了随机误差项,成为计量经济学模型,因此也称为总体回归模型。 四、随机误差项的涵义随机误差项是在模型设定中省略下来而又集体的影响着被解释变量Y的全部变量的替代物。涵义如下:1、在解释变量中被忽略的因素的影响;2、变量观测值观测误差的影响;3、模型关系的设定误差的影响;4、其它随机因素的影响。设定随机误差项的主要原因:1、理论的含糊性;2、数据的欠缺;3、节省的原则。 五、样本回归函数(方程)SRF Sampleregressionfunction总体的信息往往是无法掌握的,现实的情况只能是在一次观测中得到总体的一个样本。例2.2:在例2.1假定的总体中有如下一个样本(见下表2.2),问:能否用该样本预测总体中对应于选定收入水平X的平均每月消费支出?即能否用该样本估计总体回归函数PRF? 每月家庭收入与消费支出散点图(样本)样本散点图中点的分布近似于线性,可以画一条直线来尽量好的拟合这个散点图,这条线称为样本回归线(sampleregressionlines) 五、样本回归函数(方程)SRF为了更好地理解,假设我们从例2.1假定的总体中,也就是从表2.1中再次随机抽取一个样本,称为随机样本二,见下表2.3。 每月家庭收入与消费支出散点图(样本二) 每月家庭收入与消费支出散点图(样本一/样本二) 五、样本回归函数(方程)SRF样本回归线:从总体中随机抽出的一个样本,画出散点图之后,找一条直线能够尽量好地拟合该散点图,这条直线就称为样本回归线(Sampleregressionlines)。样本回归函数(SRF):即样本回归线的函数形式,表示为:样本回归函数的随机形式:其中为(样本)残差(Residual),可看成是随机误差项的的具体估计值。由于引入随机项,称为样本回归模型。 总体回归线与样本回归线的基本关系 总结总体回归函数(总体回归线):它代表了总体变量间的依存规律。样本回归函数(样本回归线):它代表了样本显示的变量依存规律。总体回归模型与样本回归模型的区别是:描述的对象不同,模型建立的依据不同。总体回归模型与样本回归模型的联系是:样本回归模型是总体回归模型的一个估计式,之所以建立样本回归模型,目的是用来估计、替代总体回归模型。 Logistic回归分析公共卫生学院 一、前言应变量为分类指标的资料线性回归分析:应变量为连续计量资料 二、Logistic回归模型Logistic回归的分类二分类多分类条件Logistic回归非条件Logistic回归 Logit变换也称对数单位转换logitP= 流行病学概念:设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P之比为优势(odds),logitP就是odds的对数值。 Logistic回归模型Logistic回归的logit模型Logistic回归模型 三、参数估计最大似然估计法(Maximumlikehoodestimate)似然函数:L=∏Pi对数似然函数:lnL=∑(lnP)=lnP1+lnP2+…+lnPn非线性迭代方法——Newton-Raphson法 四、参数检验似然比检验(likehoodratiotest)通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G(又称Deviance)。G=-2(lnLp-lnLk)样本量较大时,G近似服从自由度为待检验因素个数的2分布。 比分检验(scoretest)以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的2分布。 Wald检验(waldtest)即广义的t检验,统计量为uu服从正态分布,即为标准正态离差。Logistic回归系数的区间估计 上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。 五、回归系数的意义单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即bi表示xi改变一个单位时,logitP的平均变化量。 流行病学中的一些基本概念:相对危险度(relativerisk):RR=P1/P2比数Odds=P/(1-P)比数比OR=[P1/(1-P1)]/[P2/(1-P2)]在患病率较小情况下,OR≈RR Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数(bi)表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。 Logistic回归系数的意义分析因素xi为二分类变量时,存在(暴露)xi=1,不存在(未暴露)xi=0,则Logistic回归中xi的系数bi就是暴露与非暴露优势比的对数值.即OR=exp(bi)=e(bi) 分析因素xi为多分类变量时,为方便起见,常用1,2,…,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummyvariable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。 分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时,e(bi)表示xi增加一个等级时的优势比,e(k*bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。分析因素xi为连续性变量时,e(bi)表示xi增加一个计量单位时的优势比。 多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。 根据Wald检验,可知Logistic回归系数bi服从u分布。因此其可信区间为进而,优势比e(bi)的可信区间为 六、Logistic回归分析方法基本思想同线性回归分析。从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量,而是以上介绍的参数检验方法中的三种统计量之一。 为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。 七、条件Logistic回归对配对/比调查资料,应该用条件Logistic回归分析。对于配比资料,第i个配比组可以建立一个Logistic回归: 假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。配比设计的Logistic回归模型其中不含常数项。 可以看出此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。条件Logistic回归的回归系数检验与分析,和非条件Logistic回归完全相同。 八、Logistic回归的应用危险/保健因素的筛选,并确定其作用大小。预测:预测某种情况下或者某个病例,某特定事件发生的概率。 九、Logistic回归应用实例 十、注意事项应用条件1.各观察对象间相互独立;2.logitP与自变量呈线性关系。异常值计量资料间的共线性问题 暴露率样本量 谢谢!'