🟦 频率分布直方图中的数据计算 (Data Calculation in Histograms)

核心心法

“以面积代频率,以中值代区间”。在频率分布直方图中,小长方形的面积即为频率,其总和恒等于 1。处理直方图数据的关键在于“估算”:用组中值代表组内个体的平均水平,用线性插值法锁定百分位数的精确位置。


一、 频率分布直方图的含义

  • 核心定义:频率分布直方图以面积的形式反映了数据落在各个小组的频率大小。
  • 基本性质
    • 各个小长方形的面积
    • 各个小长方形的面积总和等于 1,即样本数据落在整个区间的频率为 1。

二、 样本平均数的估算

在频率分布直方图中,认为每一组的数据都集中在该组的组中值上: 设 为第 组的组中值, 为第 组的频率,则样本平均数 为:


三、 百分位数的计算 (面积分割法)

在频率分布直方图中,通常认为数据均匀分布在各自的区间上。

1. 确定所在组

计算第 百分位数时,先寻找第一个累积面积大于或等于 的小组

2. 精确值求解 (线性插值)

设第 组对应的区间为 ,第 百分位数为 ,则满足:

  • 几何意义:直线 左侧所有小长方形的面积之和恰好为

四、 样本方差的估算

利用组中值和频率进行加权计算: 设 为组中值, 为频率, 为前述估算的平均数,则方差 为:


⚠️ 考场避坑与做题技巧

纵轴的含义

频率分布直方图的纵轴是 ,而不是频率本身。计算频率时务必用纵轴高度乘以组距,这是初学者最容易忽略的细节。

百分位数的快速定位

寻找中位数(第 50 百分位数)时,如果前两组面积和为 0.3,第三组面积为 0.4,那么中位数一定在第三组内,且位于该组的前一半(因为 )。

估算值的局限性

直方图计算出的平均数、方差和百分位数均为估算值。因为在计算过程中,我们假设了组内数据是均匀分布或全部集中在中点,这与原始数据的真实值可能存在微小偏差。