第2章 数据预处理与清洗
知识点2.1:数据质量四维度
好数据要满足四个标准:
- 完整性:数据没有大面积缺失。比如100条客户记录,手机号只有30条有值,完整性就差。
- 一致性:同一含义的数据格式统一。比如日期格式不统一。
- 准确性:数据真实可靠。比如年龄填了200岁,明显是错误数据。
- 时效性:数据是近期的、有效的。用3年前的数据预测明年,时效性不足。
知识点2.2:缺失值处理
- 删除法:缺失比例很小(如<5%)时,直接删除有缺失的行。
- 填充法:用均值/中位数/众数填补缺失。
- 标记法:新增一列标记"是否缺失"。
选择技巧
数据分布对称时用均值填充;分布偏斜时用中位数填充更稳健。
知识点2.3:异常值检测
3sigma原则:约99.7%的数据落在(均值 +/- 3 x 标准差)范围内,超出视为异常值。
箱线图法(IQR法):小于Q1 - 1.5 x IQR 或 大于Q3 + 1.5 x IQR 的值视为异常值。
知识点2.4:Python pandas数据清洗入门
import pandas as pd
df = pd.read_csv('sales.csv')
print(df.isnull().sum())
df['销售额'].fillna(df['销售额'].mean(), inplace=True)
df.dropna(axis=1, thresh=len(df)*0.5, inplace=True)
df.drop_duplicates(inplace=True)
配套自学素材
- 免费教程:B站"莫烦Python"pandas入门(前5集)
- 数据集:Kaggle "Titanic"数据集(经典清洗练习)
- 工具安装:Anaconda(含Python+pandas)
- 阅读材料:和鲸社区"数据清洗实战手册"(免费PDF)
交互式练习
0/5
第1题
选择题
下列哪项不属于数据质量评估维度?
解析
数据质量四维度是完整性、一致性、准确性和时效性,不包含复杂性。
第2题
选择题
某列数据缺失比例为2%,最合适的处理方法是?
解析
缺失比例很小(<5%)时,直接删除缺失行最简单有效。
第3题
选择题
数据分布右偏时,用什么填充缺失值更稳健?
解析
右偏分布有极端大值,均值会被拉高,中位数更稳健。
第4题
选择题
箱线图中,IQR指的是?
解析
IQR(四分位距)= Q3 - Q1。
第5题
判断题
异常值一定是错误数据,必须删除。( )
解析
错误。异常值不一定是错误数据,可能是真实的极端情况,需要先核实。0/5