🟦 频率分布直方图中的数据计算 (Data Calculation in Histograms)
核心心法
“以面积代频率,以中值代区间”。在频率分布直方图中,小长方形的面积即为频率,其总和恒等于 1。处理直方图数据的关键在于“估算”:用组中值代表组内个体的平均水平,用线性插值法锁定百分位数的精确位置。
一、 频率分布直方图的含义
- 核心定义:频率分布直方图以面积的形式反映了数据落在各个小组的频率大小。
- 基本性质:
- 各个小长方形的面积 。
- 各个小长方形的面积总和等于 1,即样本数据落在整个区间的频率为 1。
二、 样本平均数的估算
在频率分布直方图中,认为每一组的数据都集中在该组的组中值上: 设 为第 组的组中值, 为第 组的频率,则样本平均数 为:
三、 百分位数的计算 (面积分割法)
在频率分布直方图中,通常认为数据均匀分布在各自的区间上。
1. 确定所在组
计算第 百分位数时,先寻找第一个累积面积大于或等于 的小组 :
2. 精确值求解 (线性插值)
设第 组对应的区间为 ,第 百分位数为 ,则满足:
- 几何意义:直线 左侧所有小长方形的面积之和恰好为 。
四、 样本方差的估算
利用组中值和频率进行加权计算: 设 为组中值, 为频率, 为前述估算的平均数,则方差 为:
⚠️ 考场避坑与做题技巧
纵轴的含义
频率分布直方图的纵轴是 ,而不是频率本身。计算频率时务必用纵轴高度乘以组距,这是初学者最容易忽略的细节。
百分位数的快速定位
寻找中位数(第 50 百分位数)时,如果前两组面积和为 0.3,第三组面积为 0.4,那么中位数一定在第三组内,且位于该组的前一半(因为 )。
估算值的局限性
直方图计算出的平均数、方差和百分位数均为估算值。因为在计算过程中,我们假设了组内数据是均匀分布或全部集中在中点,这与原始数据的真实值可能存在微小偏差。