🟦 回归分析与线性拟合

核心心法

“散点定趋势,系数定强弱,方程定预测”。回归分析的本质是寻找一条“最优”直线,使得所有样本点到该直线的距离平方和最小。通过相关系数 判定线性相关的紧密程度,通过决定系数 评估模型的拟合优度,而回归方程 则是实现数据外推预测的数学载体。


一、 变量间的相关关系

  1. 关系分类
    • 函数关系:确定性的关系(如 )。
    • 相关关系:非确定性的关系(如身高与体重)。
  2. 散点图与正负相关
    • 正相关:点群从左下向右上延伸。
    • 负相关:点群从左上向右下延伸。


二、 相关系数 (Correlation Coefficient)

用于衡量两个变量 之间线性相关程度的量:

1. 的性质

  • 符号判定 为正相关, 为负相关。
  • 程度判定 越接近 1,相关性越强; 越接近 0,相关性越弱。
  • 强相关标准:通常 即可认为具有很强的线性相关关系。

三、 线性回归方程

1. 最小二乘法系数公式

2. 核心性质

样本中心点

回归直线 一定经过样本点的中心 。这是求解截距 的关键依据。


四、 拟合效果的评估:残差与决定系数

  1. 残差 (Residual)。实际观测值与模型估计值的偏差。
  2. 残差平方和 越小,拟合效果越好。
  3. 决定系数 (Coefficient of Determination)
    • 物理意义 变化的贡献率。
    • 判定 越接近 1,模型拟合效果越好。

五、 非线性回归的线性化转化

当散点图呈现曲线特征时,通过变量代换将其转化为线性回归:

原非线性方程变量代换方法转化后的线性形式
指数型 两边取对数,令 ()
幂函数型

⚠️ 考场避坑与做题技巧

公式选择的“偷懒”法则

  • 如果题目给了一堆散点坐标,先算 ,用第一组减法公式。
  • 如果题目给出了 这种整体和,直接套用第二组乘法公式。

相关性不代表因果性

统计学上的相关关系只能说明两个变量在数值上有同步趋势,并不代表 的原因。在描述结论时,要用“相关”而非“因为”。

的联系

在简单线性回归中, 实际上等于相关系数 的平方。所以如果 很大, 自然也会接近 1。