数据预处理与清洗 - 数据分析技术

第2章数据预处理与清洗

知识点2.1：数据质量四维度

好数据要满足四个标准：

完整性：数据没有大面积缺失。比如100条客户记录，手机号只有30条有值，完整性就差。
一致性：同一含义的数据格式统一。比如日期格式不统一。
准确性：数据真实可靠。比如年龄填了200岁，明显是错误数据。
时效性：数据是近期的、有效的。用3年前的数据预测明年，时效性不足。

知识点2.2：缺失值处理

删除法：缺失比例很小（如<5%）时，直接删除有缺失的行。
填充法：用均值/中位数/众数填补缺失。
标记法：新增一列标记"是否缺失"。

选择技巧

数据分布对称时用均值填充；分布偏斜时用中位数填充更稳健。

知识点2.3：异常值检测

3sigma原则：约99.7%的数据落在（均值 +/- 3 x 标准差）范围内，超出视为异常值。

箱线图法（IQR法）：小于Q1 - 1.5 x IQR 或大于Q3 + 1.5 x IQR 的值视为异常值。

知识点2.4：Python pandas数据清洗入门

import pandas as pd
df = pd.read_csv('sales.csv')
print(df.isnull().sum())
df['销售额'].fillna(df['销售额'].mean(), inplace=True)
df.dropna(axis=1, thresh=len(df)*0.5, inplace=True)
df.drop_duplicates(inplace=True)
                

配套自学素材

免费教程：B站"莫烦Python"pandas入门（前5集）
数据集：Kaggle "Titanic"数据集（经典清洗练习）
工具安装：Anaconda（含Python+pandas）
阅读材料：和鲸社区"数据清洗实战手册"（免费PDF）

交互式练习

0/5

第1题选择题

下列哪项不属于数据质量评估维度？

A. 完整性

B. 一致性

C. 复杂性

D. 准确性

解析

数据质量四维度是完整性、一致性、准确性和时效性，不包含复杂性。

第2题选择题

某列数据缺失比例为2%，最合适的处理方法是？

A. 直接删除该行

B. 用均值填充

C. 用回归预测填充

D. 不做处理

解析

缺失比例很小（<5%）时，直接删除缺失行最简单有效。

第3题选择题

数据分布右偏时，用什么填充缺失值更稳健？

A. 均值填充

B. 中位数填充

C. 最大值填充

D. 最小值填充

解析

右偏分布有极端大值，均值会被拉高，中位数更稳健。

第4题选择题

箱线图中，IQR指的是？

A. 最大值-最小值

B. Q3-Q1

C. Q2-Q1

D. 均值-中位数

解析

IQR（四分位距）= Q3 - Q1。

第5题判断题

异常值一定是错误数据，必须删除。（）

正确

错误

解析

错误。异常值不一定是错误数据，可能是真实的极端情况，需要先核实。

0/5

第2章 数据预处理与清洗