1 / 4
为什么用 χ
2
进行独立性检验
——基于“独立性检验”教学的一些反思
王泽扬
(江苏省南京市金陵中 210005)
在新一轮的课程改革中,原先部分江苏省不考不教的内容,现在重新回到了广大师生
的面前,例如高中数学选 23 教科书的第三章统计案例.在江苏 2008 年至 2020 年间的
高考改革试点中高考不考察独立性检验的有关内容,导致这称为部分教师的知“盲区”
概念教学是高中数学教学中最重要的一环,作为新一轮课程改革中变化最多的一部分,
概率与统计是对教师们挑战最大的.如何在核心素养的指导下让学生能够真正厘清知识的
来龙去脉,建立起知识的关联?
独立性检验的来龙去脉
独立性检验是分布的拟合检验的一种分布的拟合检验是对总体分布的形式建立假设
进行检验的过程生物学中,有一个很著名的例子19 世纪,孟德尔(Mendel)按颜色与形状
把豌豆分为四类黄色圆粒绿色圆粒黄色皱粒与绿色皱粒.孟德尔根据遗传学原理判断这
四类的比例应为 9331为了进行验证,孟德尔在一次豌豆实验中随机收获了 n566
个豌豆,其中这四类豌豆的个数分别为 31510810132该数据是否与孟德尔提出的比
例吻合?
这一例子是属于分类数据的检验问题,它的一般情形为:根据某项指标,总体被分为 r
类:A
1
,…,A
r
,此时我们最关心的是关于各类元素在总体中所占的比率的假设
H
0
A
i
所占的比率是 p
i0
i12…,r (*)
其中 p
i0
已知,满足
i
1
r
p
i0
1
解决这一问题的根本,是弄清实验所得的观测值数据与理论上的预期值之间的差距究竟
有多大。要这一差距多大才算大?1900 年,英国数学家 K·皮尔逊(Karl Pearson)提出用统计
χ
2
类型
(观测值-预期值)
2
预期值
(**)
来衡量观测值与估计值间的差异
[2]
(**)式提供了实际观测值与理论估计值接近程度的一个度量.当原假设 H
0
为真时,它
的值应该比较小所以其拒绝域{χ
2
c}其中 c 为待定的临界值.为了控制上述检验的第
一类错误,我们必须知道此检验统计量在原假设成立下的分布.K·皮尔逊已经证明:在各项
假设 H
0
成立时,(**)检验统计量 χ
2
按分布收敛于 χ
2
(r1)其自由度为 r1因此,
于假设(*)我们可以采用如下的显著性水平近似 α 的显著性检验:检验统计量如(**)所示,
拒绝域为
W{χ
2
χ
1
α
2
(r1)}
[2]
回到高中教学,课程标准要求,通过实例,理解 2×2 列联表的统计意义了解 2×2
联表独立性检验及其应用
[1]
.在教学过程中,我们仅限于 2×2 列联表的独立性检验,掌握
运用 2×2 列联表的方法,解决独立性检验的简单实际问题.即便如此,对于学生而言,独
立性检验的完成流程还是难于理解的.
教学设计
教材分析与学情分析。《独立性检验》是苏教版普通高中教科(实验)高中数学选 2
3 第三章的第 1 节内容.这部分内容是大学的统计学中统计推断的一部分内容,与高中知
本文系南京市教育科学规划第十一期个人课题“中英高中数学教科书中概率统计内容的比较研究”(
规划个十一字第 0c3000 )的阶段性研究成果.
本文发表于《全国优秀作文选·教师教育》2021(05)
2 / 4
识之间具有一些断层.当学生遇到教学的重点难点时,就需要基于理解攻破难点,从而突
出重点.
本节内容重在假设检验.为了让学生在大量的数据和抽象的运算之后,仍能知道自己在
做什么仍能体会到统计问题研究的一般过程,教师需要精心设计教学环节,一环套一环,
使得学生不至于迷失方向.
基于以上分析,本节课的教学目标是(1)基于 2×2 列联表通过对典型案例的探究
了解独立性检验的基本思想,握独立性检验的基本步骤,会用独立性检验解决简单的实际
问题,提升数据分析能力(2)经历由实际问题建立数学模型的过程,体会其中的基本方法
教学重点:独立性检验的理解与基本方法
教学难点:独立性检验的基本思想的领会与方法的应用.
教学设计片断分析:
环节 1 合理抽样收集数据
设计问题情境每年 5 31 日是世界无烟日.有关医学研究表明,许多疾病,例如
心脏病癌症脑血管慢性阻塞性肺病等都与吸烟有关.某医疗机构为了了解呼吸道疾病
与吸烟是否有关进行了一次抽样调查,共调查了 515 个成年人,其中吸烟者 220 人,不吸
烟者 295 人.调查结果是:吸烟的 220 人中有 37 人患呼吸道疾病(简称患)183 人未患
吸道疾病(称未患病);不吸烟 295 人中有 21 人患病274 人未患病.
根据这些数据能否断定:患呼吸道疾病与吸烟有关?
环节 2 整理 2×2 列联表
我们将上述数据(观测值)用下表表示:
患病
未患病
合计
吸烟
37
183
220
不吸烟
21
274
295
合计
58
457
515
设计意图 从生活与医学中引出一个常见的问题:两个分类变量Ⅰ与Ⅱ之间是否有有关
?由此引导学生抽象出数学问题,并将问题的形式简单化从而自然地得到 2×2 列联表
的概念.
环节 3 提出假设,算出估计值
为了研究患呼吸道疾病是否与吸烟有关,最直接的想法是:分别计算出在吸烟样本和不
吸烟样本中患病的频率,利用频率来近似地估计概率.根据表格中的数据可以粗略地估计
出:
在吸烟的人中
37
220
16.82%的人患病不吸烟的人中,
21
295
7.12%的人患病
此,从直观上可以得出结论:吸烟者与不吸烟者患呼吸道疾病的可能性存在差异.
由上述结论能否得出患病与吸烟有关?当我们需要证明的结论并不好直接证明时,我们
可以用反证法加以证明.
提出假设 H
0
:患病与吸烟没有关系.
我们将表中的“观测值”用字母表示,则得下表:
1 观测值
患病
合计
吸烟
a
ab
不吸烟
c
cd
合计
ac
abcdn
基于前面学习的事件的独立性,利用利用频率近似替代概率,若假设 H
0
成立,则
a
n
ab
n
×
ac
n
,得 adbc0.因此,考虑|adbc|这个值越小,患病与吸烟之间的关系
弱.若不然,则关系越强.
3 / 4
基于该假设与独立性的知识,可以算出以下四人群的人数(如表 2 所示)
2 估计值
患病
未患病
合计
吸烟
(ab)(ac)
n
(ab)(bd)
n
ab
不吸烟
(cd)(ac)
n
(cd)(bd)
n
cd
合计
ac
bd
abcdn
设计意图 引导学生了解:如何用数学的语言来说明患病与吸烟“没有关系?这是本
节课的难点.一方面,学生会停留在具体数据上,而无法抽象到一般情形;另一方面,学生
会停留在“比例差不多”的表面上,不利于课堂的自然开展.
环节 4 寻找一个科学合适的“距离”——χ
2
如何刻画观测 abcd 与估计值
(ab)(ac)
n
(ab)(bd)
n
(cd)(ac)
n
(cd)(bd)
n
之间的差异呢?
学生 1距离
1
|a
(ab)(ac)
n
||b
(ab)(bd)
n
||c
(cd)(ac)
n
||d
(cd)(bd)
n
|
(其他学生认为不合适,同样不能消除样本容量的影响;同时,类比探究方差公式时的经验
绝对值不利于计算与化简)
学生 2 距离
2
1
n
[|a
(ab)(ac)
n
| |b
(ab)(bd)
n
| |c
(cd)(ac)
n
| |d
(cd)(bd)
n
|] (其他学生认为不合适,认为每类人群应除以自身相应的“权重”)
学生 3 距离
3
(a
(ab)(ac)
n
)
2
a
(b
(ab)(bd)
n
)
2
b
(c
(cd)(ac)
n
)
2
c
(d
(cd)(bd)
n
)
2
d
学生 4 距离
4
(a
(ab)(ac)
n
)
2
(ab)(ac)
n
(b
(ab)(bd)
n
)
2
(ab)(bd)
n
(c
(cd)(ac)
n
)
2
(cd)(ac)
n
(d
(cd)(bd)
n
)
2
(cd)(bd)
n
学生们在距离
3
“距离
4
中展开了激烈的讨论.最终,达成统一意见,选择“距离
4
来表示.教师补充解释:一方面,我们是与一种基于假设的理想状态,即吸烟与患病没有关
系进行比较,因此除以估计值另一方面,在统计学中,百年以来人们也一直使用这个方式
进行刻画(用数学史 K·皮尔逊提出的统计量帮助说明),这就 χ
2
统计量
设计意图 学生在之前学习方差时已经有过类似的经验,因为方差刻画的也是某种“距
离”只不过对于方差而言,是每一样本数据与一个恒定不变的参照——平均数之间的“距
离”在这里,需要学生进行迁移、类比,以求进一步地发展出适合这个更深入的问题的统
计量.
综上所述,独立性检验的教学环节中需要注意四个关键点
其一,渗透统计思想与概率思想统计基本的思想是用样本估计总体.统计是不确定的,
我们通过科学合理的抽样,基于数学原理,将观测到的现象抽象成数学问题,用数学的语
统计的方法来加以解释说明,进而帮助我们作出推断与决策
[3]
.其二,基于典型案例的
4 / 4
教学.统计学的案例应源于生活抽象于生活,为这也是统计学诞生的“初心”.其三,让
学生经历提出问题数据收集数据整理与分析作出推断与决策的统计研究全过程.每一环
节环环相扣,所以在教学过程中,要有流程图引导学生意识到,什么是统计学研究问题的
过程,究竟要经历哪些环节.这为学生们升入高校后从事更加高水平的科学研究做了铺垫,
同时也能让学生感受到数学研究的乐趣.
参考文献
[1] 中华人民共和国教育部普通高中数学课程标(2017 年版 2020 年修订)[M]北京
民教育出版社,2018.18
[2] 茆诗松,程依明,濮晓龙.概率论与数理统计教程[M]第二版.北京高等教育出版社,
2011.2212283286356387
[3] 张淑梅,马波.对“新课标”中概率与统计内容及要求的认识[J].数学通报,2005(2)
16