首页 / 数据分析技术 / 第6章 回归分析入门

第6章 回归分析入门

 

知识点6.1:相关 vs 回归

相关分析:衡量两个变量关系的强弱和方向。r范围-1到1。

回归分析:用一个变量预测另一个变量。

知识点6.2:一元线性回归模型

模型公式:Y = a + bX + epsilon

  • Y:因变量(被预测的变量)
  • X:自变量(用来预测的变量)
  • a:截距
  • b:斜率,X每增加1单位Y平均变化b单位

知识点6.3:最小二乘法

让所有数据点到回归线的垂直距离的平方和最小。

知识点6.4:R-squared(决定系数)

R-squared表示"自变量X能解释因变量Y多少比例的变异"。

R-squared = 0.85表示Y的变化中85%可由X解释。

知识点6.5:Excel与Python回归分析

Excel:数据→数据分析→回归→选择Y和X区域→确定。

from sklearn.linear_model import LinearRegression model = LinearRegression() model.fit(X, y) print("R-squared:", model.score(X, y))

配套自学素材

  • 免费教程:B站"菜菜的机器学习"线性回归专题
  • 数据集:Kaggle "Advertising"数据集
  • 工具:Excel数据分析工具包 + Python sklearn
  • 阅读材料:《深入浅出数据分析》回归分析章节
交互式练习
0/5
第1题 选择题
回归方程 Y = 50 + 2X 中,R-squared = 0.81,说明?
A. X每增加1,Y增加50
B. X能解释Y 81%的变异
C. X和Y完全无关
D. 预测一定准确
解析
R-squared=0.81表示X可以解释Y 81%的变异。
第2题 选择题
回归方程 Y = 10 + 3X 中,X=5时的预测值是?
A. 15
B. 25
C. 30
D. 50
解析
Y = 10 + 3 x 5 = 25。
第3题 选择题
相关系数r = -0.9 表示?
A. 强正相关
B. 强负相关
C. 弱相关
D. 无相关
解析
r=-0.9接近-1,是强负相关。
第4题 填空题
回归方程 Y = 100 + 5X 中,X是广告费(千元),Y是销售额(万元)。广告费增加1千元,销售额平均增加万元。
解析
斜率b=5,X每增加1千元,Y平均增加5万元。
第5题 判断题
R-squared高就代表X是Y的因果关系。( )
正确
错误
解析
错误。R-squared高只说明模型拟合好,不代表因果关系成立。相关不等于因果。
0/5
← 上一章:第5章 下一章:第7章 →