AP统计学知识梳理

AP 统计学总计考试时长为3h,包括40道选择题(MCQ),时长为90min,占比50%。6道简答题(FRQ),时长90min,占比50%。考试时全程可以使用计算器。

对于想要拿到5分的同学,需要正确率达到70%+左右,想要拿到4分也需要55%左右的正确率。

AP统计学按照考试大纲共可以分为四个部分,分别是:描述性统计,实验设计和抽样,概率论和推断统计。

其中推断统计在考试中占比最高,也是在statistics考试常会遇到的,但是还有很多同学还掌握不够好的内容,这部分由三部分组成,为抽样分布,区间估计和假设检验,在复习时要注意。

统计的大题由2-4个小题组成,每个小题都有三个等级的评分标准:correct, partially correct, incorrect,所以并不是只求出正确答案就能得到满分,也并不是不会做就得不到分。

在回答大题时要讲究格式:文字描述+列举公式+答案单位缺一不可

思维导图

AP统计学知识梳理,考前多翻翻还能救!

以下是复习干货, 帮助大家在考前梳理一遍!

数据探索部分

· 分类型数据(categorical)注意当两个变量相互独立时,每种变量的所占比例是不变的。

· 数值型数据(quantitative)要分清楚不同的图像,以及如何看不同的图像情况。

· 点图Dotplot,茎叶图Stemplot,直方图Histogram,条形图Bar graph,箱线图Boxplot(几乎每次都会考!)

AP统计学知识梳理,考前多翻翻还能救!

描述图像的三个方向:center,variability ,shape

· Center包括:平均值mean,中位数median

· Variability包括:极差range,四分位数差inter-quartile range,标准差standard deviation,方差variance

· Shape包括:偏态skewness,间隔gap, 异常值outlier

例题:

AP统计学知识梳理,考前多翻翻还能救!

(答案为C)

Range= maximum – minimum

inter-quartile range (IQR)= Q3–Q1

outliner:不在[ Q1-1.5IQR, Q3+1.5IQR ]内

AP统计学知识梳理,考前多翻翻还能救!标准差是用来表现一组数据相对平均值的离散程度。标准差越大,波动性也就越大。

偏态(skewness)分为:左偏分布left skewed,右偏分布right skewed,单峰分布unimodel,双峰分布bimodel,均匀分布uniform

AP统计学知识梳理,考前多翻翻还能救!

根据正态分布表,z值可以和probability 相互转化。

例题:

AP统计学知识梳理,考前多翻翻还能救!(答案为A)

线性回归部分

双变量数值型数据是研究两个变量之间的关系,所用图像为散点图(scatter plot)。

AP统计学知识梳理,考前多翻翻还能救!▲散点图图示

线性关系从两个方向(strong and weak,positive and negative)来进行描述,通常使用相关系数(correlation coefficient)r来描述两者之间的关系。

AP统计学知识梳理,考前多翻翻还能救!

AP统计学知识梳理,考前多翻翻还能救!AP统计学知识梳理,考前多翻翻还能救!判定系数(coefficient of determination)r2(R-sq)含义为:the proportion of the variation in y is explained by its linear relationship with x.

例题:

AP统计学知识梳理,考前多翻翻还能救!(答案选C)

残差图residual plot:

AP统计学知识梳理,考前多翻翻还能救!

一个好的残差图的性质:

(1) around the line of 0.

(2) no obvious pattern.

(3)same variance. (PS: nothing about positive or negative)

抽样方法和实验设计部分

· 抽样方法:simple random sampling,systematic sampling,stratified random sampling,cluster sampling

例题:

AP统计学知识梳理,考前多翻翻还能救!(答案选D)

· 实验设计方法:completely randomized design,block design,match-pair design,paired design

例题:

AP统计学知识梳理,考前多翻翻还能救!(答案选A)

区分各自的特点,同时重点在于如何设计(how to do sampling or design.)

· 实验设计三项原则:

1.control or comparison.

2.randomization.

3.replication.

· 误差error:抽样误差分为抽样误差sampling error和调查偏差survey bias.

抽样误差可以通过增大样本量和改变方法减小。调查偏差只能通过改变方法来调整。

· 偏差bias主要有:Undercoverage bias, non-response bias, voluntary bias, wording bias, response bias这几种,注意区分。

概率和随机变量部分

AP统计学知识梳理,考前多翻翻还能救!

随机变量(random variable) 分为离散型(discrete)随机变量和连续型(continuous)随机变量。

离散型随机变量分为:一般型,二项分布,几何分布

· 一般型:

mean(the expected value)数学期望值

AP统计学知识梳理,考前多翻翻还能救!

variance and standard deviation 方差和标准差

AP统计学知识梳理,考前多翻翻还能救!

AP统计学知识梳理,考前多翻翻还能救!

例题:

AP统计学知识梳理,考前多翻翻还能救!

(答案选D)

· 二项分布(Binomial distribution):试验次数固定,关注于成功的次数。

AP统计学知识梳理,考前多翻翻还能救!

· 几何分布(Geometric distribution):试验次数不固定,关注于何时第一次成功。

AP统计学知识梳理,考前多翻翻还能救!

例题:

AP统计学知识梳理,考前多翻翻还能救!(答案为B)

· 连续型随机变量:正态分布(normal distribution).

AP统计学知识梳理,考前多翻翻还能救!Empirical rule(68-95-99.7rule):68%/95%/99.7%的数据在均值的1/2/3个标准差的范围内。

· 独立随机变量的组合:(出现概率大)

AP统计学知识梳理,考前多翻翻还能救!

例题:

AP统计学知识梳理,考前多翻翻还能救!(答案选B)

抽样分布部分

· 中心极限定理 central limit theorem:当样本量足够大时,统计量的抽样分布可以被视作正态分布。

判定标准:

- 样本均值 sample mean:n≥30

- 样本比例 sample proportion:np≥10 and n(1-p)≥10

· 抽样分布的均值和标准差:AP统计学知识梳理,考前多翻翻还能救!

AP统计学知识梳理,考前多翻翻还能救!

· 抽样分布正态的3个条件:

(1)random sample

(2)N≥10n

(3)The population is normally distributed orsample size is large.

例题:

AP统计学知识梳理,考前多翻翻还能救!(答案选D)

· t分布:当总体标准差未知时,使用t分布来代替正态分布。其自由度为n-1。

AP统计学知识梳理,考前多翻翻还能救!· 置信区间部分:定义:区间包含参数 ←Interval contains parameter( population special value)

例题:

AP统计学知识梳理,考前多翻翻还能救!(答案选B)

· 计算时需要的数据:

AP统计学知识梳理,考前多翻翻还能救!

· 寻找临界值(critical value):

(1)根据总体标准差是否已知(均值问题)

(2)confidence level或α

(3)单尾情况(one tail)还是双尾情况(two tail)(PS: AP里面通常只有双尾区间)

用计算器找critical value时注意使用的是inverse(反向)方法。

注:务必注意单尾和双尾在计算器上输入数值上的不同!!!

· 计算置信区间时注意方法选择:one/two sample t/z interval for mean/proportion

· 置信区间的通项公式:statistic ± critical value × standard error

不同方法所对应的公式不同,注意区分

AP统计学知识梳理,考前多翻翻还能救!

AP统计学知识梳理,考前多翻翻还能救!

例题:

AP统计学知识梳理,考前多翻翻还能救!

(答案选E)

还有两种特别形式:match pair和slope

AP统计学知识梳理,考前多翻翻还能救!

注:Match pair Slope 只使用t值,Match pair情况在计算器计算时使用t interval

· 最小样本量计算:

AP统计学知识梳理,考前多翻翻还能救!

样本量计算时z值均视为双尾情况。计算比例时注意,如果比例没有给出,那么默认p=0.5。

例题:

AP统计学知识梳理,考前多翻翻还能救!(答案选C)

· 置信区间的简答题答题步骤:

(1)State

先陈述要构建一个关于什么数据的置信区间,并说明置信水平。

(2)Plan

先说明要构建置信区间的具体情况和方法,在检查是否满足抽样分布的条件。

(3)Calculate

使用公式或计算器算出置信区间的上下界

(4)Conclude

根据得出的结果进行总结性总结,包括三要素confidence level, parameter, interval.

假设检验部分

做假设时注意原假设总是使用=,备择假设使用<,>或≠。

两种错误类型:

AP统计学知识梳理,考前多翻翻还能救!

AP统计学知识梳理,考前多翻翻还能救!

第一类错误(Type I Error) :发生概率为α(红色部分),原假设正确但拒绝原假设。

第二类错误(Type II Error) : 发生概率为β(蓝色部分),原假设错误但接受原假设。

统计检验力(Power of test): 发生概率为1-β,原假设错误同时拒绝原假设。

两种错误类型的关系是相反的,即一种错误发生概率增加,另一种就会下降。通过增加样本量,可以同时降低两种错误发生的概率。

注:无论是Type I error还是Type II error,本质上都是犯了判断错误。

例题:

AP统计学知识梳理,考前多翻翻还能救!(答案选A)

进行假设检验时也要判断使用的方法:one/two sample t/z test for mean/proportionAP统计学知识梳理,考前多翻翻还能救!不同方法所对应的公式不同,注意区分

AP统计学知识梳理,考前多翻翻还能救!

例题:

AP统计学知识梳理,考前多翻翻还能救!

(答案选C)

同样还有三种特别检验方法:match pair和slope以及置信区间

AP统计学知识梳理,考前多翻翻还能救!

置信区间判定方法:看置信区间的范围有没有涵盖原假设,若包括原假设,则不拒绝原假设。若不包括原假设,则有证据拒绝原假设。

例题:

AP统计学知识梳理,考前多翻翻还能救!

(答案选E)

· 假设检验的简答题答题步骤:

(1)State

根据题目提出假设,并且定义参数含义。

(2)Plan

确定使用的检验方法,并检查是否满足分布的条件。

(3)Calculate

使用公式或计算器算出统计检验量(test statistic)和p值。

(4)Conclude

比较数据情况,根据得出的结果进行总结性陈述。

分类型数据的假设检验使用卡方分布(chi-square distribution)。

AP统计学知识梳理,考前多翻翻还能救!

卡方分布是一个右偏分布,数值型皆为正态分布即对称分布。检验时要满足的条件包含

1. random sample.

2. expected count≥5

AP统计学知识梳理,考前多翻翻还能救!

例题:

AP统计学知识梳理,考前多翻翻还能救!

(答案选B)

同学们在考前临时抱佛脚时可以按照这份cheat sheet来复习准备。

简答题一定要按照考试规范的套路来进行回答,务必要记住!统计考试前一定要熟练计算器的使用,熟练的使用计算器可以大大节约你的做题时间!!!

【竞赛报名/项目咨询请加微信:mollywei007】

微信扫一扫,分享到朋友圈

AP统计学知识梳理
下一篇

A-Level又泄题?怎么考试还没开始就已经有人在卖题了啊?

你也可能喜欢

  • 暂无相关文章!

关注热点

返回顶部