主页 > imtoken钱包安卓版下载步骤 > 统计---知识点.doc

统计---知识点.doc

《Statistics---Key Points of Knowledge.doc》会员共享,可在线阅读。更多相关的《统计学---知识点.doc(25页珍藏版)》统计学中的全距,请搜索悦读图书馆。

1、第一章知识结构1.掌握统计学的几个基本概念(1)总而言之:所谓总体,是指研究涉及的所有单位的集合。(< @2)整体单位:即构成整体的各个单位。(3)Mark:整体单位的特征,分为质量标志和数量标志。质量标志只能用文字来表达,而量号只能用数字。(4)指标:量号聚合后成为指标。指标只能用数字表示,可以相加。(比如我国的GDP在2009年为3335353亿元)指标分为数量指标和质量指标。数量指标一般用绝对数表示;质量指标一般用相对数或平均数表示。质量指标一般以倍数、系数、%结尾,没有单位. (<@k 6@>变量:一般可以分为连续变量和离散变量两种。连续变量可以划分,可以用小数表示,比如身高、体重、降雨量,

2、土地面积、数量等;离散变量是不可分割的,不能用小数表示,如员工数量和设备数量。 2 数据类型P7(1)数据可分为定性数据和定量数据。定性数据用文字表示,定量数据用数字表示。(<@2)定性数据可分为分类数据) (无法排序))和序数数据(可排序,如满意度数据)(3)实验数据,观测数据;横截面数据,持续时间数据(略)3.抽样方法P9(1)简单随机抽样(<@2)分层抽样:分层抽样后的数据可以按大小排列,如:优、中、差;老、中、年轻;100-200元、200- 300元、300-400元等(3)整群抽样:整群抽样一般按照现行的分类标准进行,如地区:广东、广西、河南、山东等;如性质企业类型:国有企业、中外合资企业、民营企业

3、等。 (4)等间隔抽样(也叫系统抽样)4.统计学的研究对象是数据。第2章知识要点一、构造频数分布表(1)定性频数分布表P15-16(<@2)量化频数分布表,了解等距分组和不等间距分组P18-20(3)如果某组的上限和相邻组的下限上限重合,采用“上限不在本组”的原则,中位数=下限+(组相邻组间距离/<@2)组中位数=上限(组相邻组间距离/ <@2)示例题1.在进行中的分组中)在距离分组中,每当一个单元的标志值正好等于相邻两组的上下限的值时,一般是( ) 表示该值包含在上限所在的组中,并且该值包含在下限所在的组中。上限或下限所在的组可以单独分组。【】举例。连续变量

4、,最后一组在""之上,且其相邻组的下限已知,则最后一组的组中值为()选择【】三、集中趋势和离散度 P27 1. 均值可以用来表示一组数字的集中趋势,包括众数、中位数和均值(算术平均数、调和平均数、几何平均数),其中众数和中位数是位置平均。 (1)所谓众数,就是一批数据中出现频率(次数)最多的数,用MO表示。(<@2)所谓中位数就是对a排序后一批数据,在中间位置的值用Me表示。(3)数值平均包括算术平均、调和平均、几何平均等,每个数据都参与计算。2.@ > 离散度可用于计算 表示一组数字偏离均值的程度 离群值、四分位距和四分位距的比值 注:当样本数大于 36 时,总体标准差可以替换样本标准差S full

5、距离=最大值和最小值。平均差:AD=[|x- - X|]/n 注:总距离、平均差、标准差、方差和离差系数统称为标记变异指标。符号变异指数越小,平均在序列中的表示越大;符号变化指数越大,序列中平均值的表示越小。 3.当一个分布偏左时,Mo Me -x 当一个分布偏右时,-x Me 3.841,落入拒绝域,拒绝原假设,所以参与志愿者活动与学历挂钩。 (注:设置假设时,原假设为负,备择假设为正。)第6章课后练习一、1、列联表百分化结果为:软件难易易学位 软件 1 软件 2 软件 3 软件 4 总 低 5/32=15.6/32=31.3/32=43.8%3/32=9.30%(

6、32)8/61=13.1%28/61=45.9/61=29.5%7 / 61=11.50%(61)高22/57=38.6%7/57=12.@>3%8/57=14.0%20/57=35.10%(57)总计35/150=23.3%45/150=30.0%40 / 150=26.7%30/150=20.00%(150)2、解:建立统计假设如下: H0:难度软件与软件类别无关哈:软件难易程度与软件类别有关。检验统计量为卡方值。2/e ij1 low 5(35*3 2)/150=7.470.811中

7、8(35*61)/150=14.232.@>731 高22(35*57)/150=1< @3.35.692 低10(45*32)/150=9.60.022 中28(45*61)/150 =18.35.142高7(45*57)/150=17.15.973低14(40*32)/150=8.533.503 中18(40*61)/150=16.270.183 高8(40*5 7)/150=15.23.414 低 3(30*32)/150=6.41.814 中 7( 30*61)/150=12.@>22.@>224高20(30*57)/150=11.46. 49 从上表可以看出总共15015037.97个,所以cell的预期频率不低于5个,所以可以做到

8、卡方检验。从上表可以看出,卡方值为37.97,在0.05的显着性水平下,临界值为12.@>59。由于37.9712.@>59,在0.05的显着性水平拒绝原假设,即认为软件的难度与软件的类别有关。第7章回归分析知识要点主要概念解释1.回归很多变量集中或逼近某一点、某一条线或某一区域,这个过程称为“回归”。 2.@>(1)线性回归2.@>(<@2)非线性回归如果变量接近或集中在一条直线上,称为“线性回归”;如果变量接近或如果集中后不能形成直线,则称为“非线性回归”。3.(1)一元线性回归分析3.(<@2)一-变量线性回归方程3.(3)多元线性回归分析(1)如果回归分析只涉及一个自变量和一个因变量

9、是“一元回归分析”,涉及多个自变量和一个因变量的称为“多元回归分析”。 (<@2)用一个方程来表示一元线性回归分析的结果,我们称这个方程为“一元线性回归方程”。试题类型1.构造一元回归线性方程2.@ > 求估计标准误差 注:估计标准误差越小,观测值越接近回归方程,估计标准误差越大,观测值离回归方程越远。【示例】假设有是 8 家公司,其产量和生产成本的关系如下图 Q:(1)用最小二乘法构造回归方程;(<@2)计算估计的标准误;解:第 7 章课后练习1. 下面是两个变量 X 和 Y 的数据:X 160 99 132 91 125 108 142 133 138 128Y 55 36 39 25 47 33 56 46 42

10、50 根据以上数据解决下列问题。 (1)用最小二乘估计法估计Y关于X的回归方程。(<@2)计算估计的标准误。(注意得到的a和b的值不应该位置不对)模拟自测题一、单选题(这个大题有10个小题,每个小题2分,共20分)1.最后一组为“500以上”的连续变量,其邻居组的下限为400,则最后一组的组中位数为(D),标准差为8.8且< @8.4,则(A). A. A系列均值的代表性高于第二系列 B. 第二系列均值的代表性高于A系列 C . 两个序列均值的代表性相同 D. 两个序列均值的代表性无法比较3.在简单随机中

11、在机器重复抽样的情况下,当平均抽样误差降低到原来的1/3时,样本单元数是原来的(C)A.2倍B. 3次 C. 9次 D. 无法判断4. 抽查学生的学习情况,按学号顺序排列,每5个学号选一个学生走访。这种随机检查方法是(C)。 A. 简单随机抽样 B. 类型抽样 C. 等距抽样 D. 整群抽样只有一个成立,一个必须成立 D.零假设必须成立,备择假设一定不成立6.在其他条件不变的情况下,提高估计的概率置信度统计学中的全距,以及其估计的准确程度(B)A、扩大B、缩小C、保持不变D,不能确定7.

12、 从一系列等间隔的间歇时间点计算平均发育水平的方法是(D)。 A. 简单算术平均法 B. 加权算术平均法 C. 简单几何平均法 D. 端到端切割法 8. 变异指数反映了总体中各单位变量值的分布情况(乙)。 A 集中趋势 B. 离散趋势 C. 变化区域是 D. 长期趋势 9. 在假设检验中,犯某种错误的概率通常称为(B)。 A. 置信水平 B. 显着性水平 C. 伪概率 D. 真概率 10. 下列哪项适用于 t 检验统计量 (C) A. 样本为大样本,总体方差为已知 B.样本为小样本,总体方差已知 C.样本为小样本,总体方差未知 D.样本为大样本,总体方差未知2、 多选问题(这个主要问题有10个子问题,每个

13、子题2分,共20分)1.构成分布序列的两个基本要素是(AB)A.组数B.组间距离 C. 统计分组 D. 每组标志值的大小 E. 每组次数 F. 每组分配的单元数 2.@> 平均值的计算方法是( ABC)。 A. 算术平均 B. 调和平均 C. 几何平均 D. 众数 E. 中位数3. 影响抽样平均误差的因素有(CDE) A. 是有限总体还是无限总体 B. 是 变量总体或属性总体 C. 是重复抽样还是非重复抽样 D. 抽样单元数 E. 总体和总体的变异程度标记4. 标准差(CE) A. 表示一般整体单位标志值的水平 B. 反映整体单位的一般水平 C. 反映整体单位标志值

分散度

14、D.反映了整体分布的集中趋势 E 反映了整体分布的集中趋势 5 各种平均指标中,不受极值影响的平均指标为(DE)A.算术平均值B.调和均值 C. 几何均值 D. 中值 E. 众数。先进工作者人数7. 用样本指标估计总体指标时,判断估计的好标准是(ABC)A、无偏B、一致性C、有效性D、灵活性E、随机性8.@ > 当我们根据样本数据做出接受或拒绝原假设的决定时,可能的情况是(ACDE) A,当原假设为真时接受原假设 B,当原假设为假时接受,我们 Made Type 1 错误 C. 当零假设为真时

15、拒绝它,我们犯第1类错误D,当原假设为假时拒绝它E,当它为假时接受它,我们犯第2类错误9.编译周期序列,每个指标的时间要求(A D) A,相等 B,不相等 C,一般不应该相等,但有时可以相等 D,一般应该相等,但有时不想等 10.判断长期趋势的方法有(ABC)A.时间区间扩展法B.最小二乘法C.移动平均法D.几何平均法第1题满分10分)1.数据预处理是对统计数据进行分组或分类后的必要过程。 (false) 2.@> if =0.05,当我们拒绝 H0 时,我们有 5% 的机会犯错误。 (是)3.flag变异指数值越大,种群中各个单元的值越高

16、 变异程度越大,平均度量的代表性就越小。 (是)4. 某个班级的学生按照考试成绩分组形成的序列就是时间点序列。 (错误)5.样本单元的数量与整体单元标志值的可变性成反比,与抽样限制误差幅度的大小成正比。 (错)6.质量分数描述了整体单元的属性和特点,分数的表现只能用文字来表达,所以不能直接将质量分数转化为统计指标。 (是)7. 许多统计方法假设随机变量服从正态分布。 (True)8. 在抽样推断中,总体指标值是确定性且唯一的,而样本指标值是随机变量。 (对)9.公司数量和广告费用这两个变量是连续变量,后者是离散变量(错)10.定基发展速度等于对应链基于开发速度

的连续积

17、,所以固定基数的增长率也等于各条链相应增长率的乘积。 (假)四、计算题(共5题,总分50分)1.某条高速公路上的汽车碰撞事故很少。假设碰撞次数为每 6 个月 1.5 次,遵循泊松分布。计算 6 个月内恰好发生 2 次碰撞的概率。 (5分)【见相应的课后练习】2.@>保险公司随机抽取36名投保人,计算出这36人的平均年龄为39.5岁。投保人的平均年龄是已知的。近似正态分布,标准差为7.2岁,所有投保人平均年龄的置信水平为95%置信区间。如果其他条件不变,允许误差减半,应该选择多少投保人? (10分)(参数估计)(1)求单个总体均值的区间估计,方差2已知,使用公式(4-1<@2)3.老师希望

18、想知道两个专业的学生在选修运筹学这门课上的区别,感兴趣的是两个专业的学生在运筹学考试成绩上是否有差异研究是平等的。老师从运筹学两个专业学生历年期末考试成绩中随机抽取30个样本,计算出两个专业的样本标准差分别为15分和22分。根据这些数据,老师可以得出什么结论? (=0.05)(10分)(假设测试)4.某学校进行英语测试,为了了解学生的考试情况,随机抽取部分学生进行调查. 结果如下:(10分)考试成绩(分)60以下、60-7070-8080-9090及以上学生人数(人)102022408要求:(1)测试估计平均分该校英语测试95%信度(<@2)在信度相同的情况下,估计本校80分以上学生比例的范围。5.广告费用和销售收入的历史统计某企业的得分如下:(15分)广告费12345678销售收入1014182025283040要求:(1)用最小二乘法求回归方程;(<@2)求估计标准误[参考以第5章“知识点”为例]