第6章 回归分析入门
知识点6.1:相关 vs 回归
相关分析:衡量两个变量关系的强弱和方向。r范围-1到1。
回归分析:用一个变量预测另一个变量。
知识点6.2:一元线性回归模型
模型公式:Y = a + bX + epsilon
- Y:因变量(被预测的变量)
- X:自变量(用来预测的变量)
- a:截距
- b:斜率,X每增加1单位Y平均变化b单位
知识点6.3:最小二乘法
让所有数据点到回归线的垂直距离的平方和最小。
知识点6.4:R-squared(决定系数)
R-squared表示"自变量X能解释因变量Y多少比例的变异"。
R-squared = 0.85表示Y的变化中85%可由X解释。
知识点6.5:Excel与Python回归分析
Excel:数据→数据分析→回归→选择Y和X区域→确定。
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X, y)
print("R-squared:", model.score(X, y))
配套自学素材
- 免费教程:B站"菜菜的机器学习"线性回归专题
- 数据集:Kaggle "Advertising"数据集
- 工具:Excel数据分析工具包 + Python sklearn
- 阅读材料:《深入浅出数据分析》回归分析章节
交互式练习
0/5
第1题
选择题
回归方程 Y = 50 + 2X 中,R-squared = 0.81,说明?
解析
R-squared=0.81表示X可以解释Y 81%的变异。
第2题
选择题
回归方程 Y = 10 + 3X 中,X=5时的预测值是?
解析
Y = 10 + 3 x 5 = 25。
第3题
选择题
相关系数r = -0.9 表示?
解析
r=-0.9接近-1,是强负相关。
第4题
填空题
回归方程 Y = 100 + 5X 中,X是广告费(千元),Y是销售额(万元)。广告费增加1千元,销售额平均增加万元。
解析
斜率b=5,X每增加1千元,Y平均增加5万元。
第5题
判断题
R-squared高就代表X是Y的因果关系。( )
解析
错误。R-squared高只说明模型拟合好,不代表因果关系成立。相关不等于因果。0/5