首页 / 数据分析技术 / 第2章 数据预处理与清洗

第2章 数据预处理与清洗

 

知识点2.1:数据质量四维度

好数据要满足四个标准:

  • 完整性:数据没有大面积缺失。比如100条客户记录,手机号只有30条有值,完整性就差。
  • 一致性:同一含义的数据格式统一。比如日期格式不统一。
  • 准确性:数据真实可靠。比如年龄填了200岁,明显是错误数据。
  • 时效性:数据是近期的、有效的。用3年前的数据预测明年,时效性不足。

知识点2.2:缺失值处理

  • 删除法:缺失比例很小(如<5%)时,直接删除有缺失的行。
  • 填充法:用均值/中位数/众数填补缺失。
  • 标记法:新增一列标记"是否缺失"。
选择技巧

数据分布对称时用均值填充;分布偏斜时用中位数填充更稳健。

知识点2.3:异常值检测

3sigma原则:约99.7%的数据落在(均值 +/- 3 x 标准差)范围内,超出视为异常值。

箱线图法(IQR法):小于Q1 - 1.5 x IQR 或 大于Q3 + 1.5 x IQR 的值视为异常值。

知识点2.4:Python pandas数据清洗入门

import pandas as pd df = pd.read_csv('sales.csv') print(df.isnull().sum()) df['销售额'].fillna(df['销售额'].mean(), inplace=True) df.dropna(axis=1, thresh=len(df)*0.5, inplace=True) df.drop_duplicates(inplace=True)

配套自学素材

  • 免费教程:B站"莫烦Python"pandas入门(前5集)
  • 数据集:Kaggle "Titanic"数据集(经典清洗练习)
  • 工具安装:Anaconda(含Python+pandas)
  • 阅读材料:和鲸社区"数据清洗实战手册"(免费PDF)
交互式练习
0/5
第1题 选择题
下列哪项不属于数据质量评估维度?
A. 完整性
B. 一致性
C. 复杂性
D. 准确性
解析
数据质量四维度是完整性、一致性、准确性和时效性,不包含复杂性。
第2题 选择题
某列数据缺失比例为2%,最合适的处理方法是?
A. 直接删除该行
B. 用均值填充
C. 用回归预测填充
D. 不做处理
解析
缺失比例很小(<5%)时,直接删除缺失行最简单有效。
第3题 选择题
数据分布右偏时,用什么填充缺失值更稳健?
A. 均值填充
B. 中位数填充
C. 最大值填充
D. 最小值填充
解析
右偏分布有极端大值,均值会被拉高,中位数更稳健。
第4题 选择题
箱线图中,IQR指的是?
A. 最大值-最小值
B. Q3-Q1
C. Q2-Q1
D. 均值-中位数
解析
IQR(四分位距)= Q3 - Q1。
第5题 判断题
异常值一定是错误数据,必须删除。( )
正确
错误
解析
错误。异常值不一定是错误数据,可能是真实的极端情况,需要先核实。
0/5
← 上一章:第1章 下一章:第3章 →