首页 / 数据分析技术 / 第3章 描述性统计分析

第3章 描述性统计分析

 

知识点3.1:集中趋势度量

  • 均值:所有数据加起来除以个数。最常用,但容易被极端值拉偏。
  • 中位数:排序后位于中间位置的值。不受极端值影响。
  • 众数:出现次数最多的值。适合分类数据。
注意

收入数据通常用中位数而不是均值。少数富豪会把平均收入拉得很高。

知识点3.2:离散程度度量

  • 极差:最大值 - 最小值。简单但不稳定。
  • 方差:每个数据与均值差的平方的平均。
  • 标准差:方差的平方根。与原始数据同单位,最常用。
  • 四分位距(IQR):Q3 - Q1。对异常值不敏感。

知识点3.3:分布形态

偏度:偏度>0右偏(长尾在右边),偏度<0左偏,偏度约等于0大致对称。

知识点3.4:Excel与Python实操

Excel: =AVERAGE() =MEDIAN() =MODE.SNGL() =STDEV.S() Python: df['col'].describe() / .mean() / .median() / .std()

配套自学素材

  • 免费教程:可汗学院"描述统计"中文视频(B站搬运)
  • 数据集:国家统计局"居民收入调查数据"
  • 工具:Excel 2016及以上版本
  • 阅读材料:《商务与经济统计》第3章
交互式练习
0/5
第1题 选择题
下列哪个指标最容易受极端值影响?
A. 中位数
B. 众数
C. 均值
D. 四分位数
解析
均值是所有数据的平均值,极端值会直接拉高或拉低均值。
第2题 选择题
标准差越大,说明数据?
A. 越集中
B. 越分散
C. 越对称
D. 样本量越大
解析
标准差衡量数据偏离均值的程度,越大越分散。
第3题 选择题
下列哪个指标最适合描述分类数据的集中趋势?
A. 均值
B. 中位数
C. 众数
D. 标准差
解析
众数是出现次数最多的值,适合分类数据。
第4题 填空题
标准差是的平方根,它与原始数据具有相同的
解析
标准差是方差的平方根,与原始数据单位一致。
第5题 判断题
偏度大于0表示数据分布右偏(长尾在右边)。( )
正确
错误
解析
正确。偏度>0表示右偏分布,如收入分布。
0/5
← 上一章:第2章 下一章:第4章 →