第3章 描述性统计分析
知识点3.1:集中趋势度量
- 均值:所有数据加起来除以个数。最常用,但容易被极端值拉偏。
- 中位数:排序后位于中间位置的值。不受极端值影响。
- 众数:出现次数最多的值。适合分类数据。
注意
收入数据通常用中位数而不是均值。少数富豪会把平均收入拉得很高。
知识点3.2:离散程度度量
- 极差:最大值 - 最小值。简单但不稳定。
- 方差:每个数据与均值差的平方的平均。
- 标准差:方差的平方根。与原始数据同单位,最常用。
- 四分位距(IQR):Q3 - Q1。对异常值不敏感。
知识点3.3:分布形态
偏度:偏度>0右偏(长尾在右边),偏度<0左偏,偏度约等于0大致对称。
知识点3.4:Excel与Python实操
Excel: =AVERAGE() =MEDIAN() =MODE.SNGL() =STDEV.S()
Python: df['col'].describe() / .mean() / .median() / .std()
配套自学素材
- 免费教程:可汗学院"描述统计"中文视频(B站搬运)
- 数据集:国家统计局"居民收入调查数据"
- 工具:Excel 2016及以上版本
- 阅读材料:《商务与经济统计》第3章
交互式练习
0/5
第1题
选择题
下列哪个指标最容易受极端值影响?
解析
均值是所有数据的平均值,极端值会直接拉高或拉低均值。
第2题
选择题
标准差越大,说明数据?
解析
标准差衡量数据偏离均值的程度,越大越分散。
第3题
选择题
下列哪个指标最适合描述分类数据的集中趋势?
解析
众数是出现次数最多的值,适合分类数据。
第4题
填空题
标准差是的平方根,它与原始数据具有相同的。
解析
标准差是方差的平方根,与原始数据单位一致。
第5题
判断题
偏度大于0表示数据分布右偏(长尾在右边)。( )
解析
正确。偏度>0表示右偏分布,如收入分布。0/5