🟦 回归分析与线性拟合
核心心法
“散点定趋势,系数定强弱,方程定预测”。回归分析的本质是寻找一条“最优”直线,使得所有样本点到该直线的距离平方和最小。通过相关系数 判定线性相关的紧密程度,通过决定系数 评估模型的拟合优度,而回归方程 则是实现数据外推预测的数学载体。
一、 变量间的相关关系
- 关系分类:
- 函数关系:确定性的关系(如 )。
- 相关关系:非确定性的关系(如身高与体重)。
- 散点图与正负相关:
- 正相关:点群从左下向右上延伸。
- 负相关:点群从左上向右下延伸。


二、 相关系数 (Correlation Coefficient)
用于衡量两个变量 与 之间线性相关程度的量:
1. 的性质
- 符号判定: 为正相关, 为负相关。
- 程度判定: 越接近 1,相关性越强; 越接近 0,相关性越弱。
- 强相关标准:通常 即可认为具有很强的线性相关关系。
三、 线性回归方程
1. 最小二乘法系数公式
2. 核心性质
样本中心点
回归直线 一定经过样本点的中心 。这是求解截距 的关键依据。
四、 拟合效果的评估:残差与决定系数
- 残差 (Residual):。实际观测值与模型估计值的偏差。
- 残差平方和 :。 越小,拟合效果越好。
- 决定系数 (Coefficient of Determination):
- 物理意义: 对 变化的贡献率。
- 判定: 越接近 1,模型拟合效果越好。
五、 非线性回归的线性化转化
当散点图呈现曲线特征时,通过变量代换将其转化为线性回归:
| 原非线性方程 | 变量代换方法 | 转化后的线性形式 |
|---|---|---|
| 指数型 | 两边取对数,令 | () |
| 幂函数型 | 令 |
⚠️ 考场避坑与做题技巧
公式选择的“偷懒”法则
- 如果题目给了一堆散点坐标,先算 ,用第一组减法公式。
- 如果题目给出了 这种整体和,直接套用第二组乘法公式。
相关性不代表因果性
统计学上的相关关系只能说明两个变量在数值上有同步趋势,并不代表 是 的原因。在描述结论时,要用“相关”而非“因为”。
与 的联系
在简单线性回归中, 实际上等于相关系数 的平方。所以如果 很大, 自然也会接近 1。