项目1:数据读取与基础操作
数据集:学生成绩表 | 难度:入门 | 预计用时:45分钟
学习目标
- 学会安装和导入pandas库
- 掌握CSV和Excel文件的读取方法
- 会用head、tail、info、describe查看数据基本信息
- 理解并能进行简单的数据类型转换
知识点讲解
1. pandas是什么?
pandas是Python中最流行的数据处理库,名字来源于"Panel Data"(面板数据)。你可以把它想象成一个超级强大的Excel表格工具,但它用代码来操作,处理几万行、几十万行数据都非常快。
2. 安装pandas
如果你安装了Anaconda,pandas已经自带了。如果没有,在命令行输入:
pip install pandas
3. 导入pandas
按照行业惯例,我们通常给pandas起别名pd,这样写代码更简洁:
import pandas as pd
4. 读取数据文件
pandas可以读取多种格式的数据,最常用的两种:
pd.read_csv('文件名.csv'):读取CSV文件(纯文本表格,体积小)pd.read_excel('文件名.xlsx'):读取Excel文件(需要安装openpyxl库)
5. 查看数据基本信息
df.head():查看前5行数据,快速了解表格长什么样df.tail():查看最后5行数据df.info():查看每列的数据类型、非空值数量,检查有没有缺失df.describe():对数值列做统计描述(平均值、最大最小值等)
6. 数据类型转换
有时候数字被读成了文字(字符串),需要转换:
df['列名'] = df['列名'].astype(int):转成整数df['列名'] = df['列名'].astype(float):转成小数df['列名'] = pd.to_numeric(df['列名']):智能转成数字
完整代码示例
# 第一步:导入pandas
import pandas as pd
# 第二步:读取学生成绩表(CSV格式)
df = pd.read_csv('students.csv')
# 第三步:查看数据基本信息
print("=== 前5行数据 ===")
print(df.head())
print("\n=== 数据形状(行数, 列数)===")
print(df.shape)
print("\n=== 数据类型与非空值 ===")
print(df.info())
print("\n=== 数值列统计描述 ===")
print(df.describe())
# 第四步:数据类型转换
# 假设'语文'列被读成了字符串,需要转成数字
df['语文'] = pd.to_numeric(df['语文'], errors='coerce')
df['数学'] = pd.to_numeric(df['数学'], errors='coerce')
df['英语'] = pd.to_numeric(df['英语'], errors='coerce')
print("\n=== 转换后的数据类型 ===")
print(df.dtypes)
# 第五步:查看最后几行
print("\n=== 最后3行 ===")
print(df.tail(3))
实操步骤
- 打开Jupyter Notebook,新建一个笔记本
- 在第一行输入
import pandas as pd,按Shift+Enter运行 - 准备数据文件:创建一个students.csv文件,包含姓名、语文、数学、英语四列
- 用
df = pd.read_csv('students.csv')读取数据 - 运行
df.head()查看数据是否正确读入 - 运行
df.info()检查数据类型,看数字列是否被识别为int或float - 如果有类型不对,用
astype()或pd.to_numeric()转换 - 运行
df.describe()查看各科成绩的平均分、最高最低分
配套数据集:students.csv
你可以用以下数据创建students.csv文件进行练习:
姓名,语文,数学,英语
张三,85,90,88
李四,78,82,80
王五,92,95,94
赵六,65,70,68
钱七,88,85,90
孙八,74,78,76
周九,90,92,91
吴十,80,84,82
交互式练习题
0/6
第1题
选择题
pandas通常用什么别名导入?
答案解析
行业惯例使用 import pandas as pd,别名pd。
第2题
选择题
读取CSV文件应该使用哪个函数?
答案解析
pd.read_csv() 是pandas读取CSV文件的标准函数。
第3题
选择题
df.head(3) 会显示什么?
答案解析
head()显示前N行,默认5行,传入3则显示前3行。
第4题
判断题
df.info() 可以查看每列的数据类型和非空值数量。
答案解析
info()方法会输出每列的名称、非空值数量和数据类型。
第5题
填空题
查看数值列统计描述(均值、最大最小值等)的方法是
df.______()答案解析
describe()方法会对所有数值列计算计数、均值、标准差、最小值、四分位数、最大值。
第6题
选择题
将某列转换为整数类型,应该使用?
答案解析
astype()是pandas中转换数据类型的标准方法。
0/6
项目小结
本项目我们学习了pandas最基础的操作:
- 安装并导入pandas库(
import pandas as pd) - 用
read_csv()和read_excel()读取数据文件 - 用
head()、tail()快速查看数据 - 用
info()检查数据结构和缺失情况 - 用
describe()获取数值列的统计信息 - 用
astype()和pd.to_numeric()转换数据类型
掌握了这些基础操作,你就已经迈出了数据分析的第一步!下一个项目我们将学习如何处理数据中的"脏数据"。