首页 > pandas数据分析实战训练营 > 项目1:数据读取与基础操作

项目1:数据读取与基础操作

数据集:学生成绩表 | 难度:入门 | 预计用时:45分钟

学习目标

  • 学会安装和导入pandas库
  • 掌握CSV和Excel文件的读取方法
  • 会用head、tail、info、describe查看数据基本信息
  • 理解并能进行简单的数据类型转换

知识点讲解

1. pandas是什么?

pandas是Python中最流行的数据处理库,名字来源于"Panel Data"(面板数据)。你可以把它想象成一个超级强大的Excel表格工具,但它用代码来操作,处理几万行、几十万行数据都非常快。

2. 安装pandas

如果你安装了Anaconda,pandas已经自带了。如果没有,在命令行输入:

pip install pandas

3. 导入pandas

按照行业惯例,我们通常给pandas起别名pd,这样写代码更简洁:

import pandas as pd

4. 读取数据文件

pandas可以读取多种格式的数据,最常用的两种:

  • pd.read_csv('文件名.csv'):读取CSV文件(纯文本表格,体积小)
  • pd.read_excel('文件名.xlsx'):读取Excel文件(需要安装openpyxl库)

5. 查看数据基本信息

  • df.head():查看前5行数据,快速了解表格长什么样
  • df.tail():查看最后5行数据
  • df.info():查看每列的数据类型、非空值数量,检查有没有缺失
  • df.describe():对数值列做统计描述(平均值、最大最小值等)

6. 数据类型转换

有时候数字被读成了文字(字符串),需要转换:

  • df['列名'] = df['列名'].astype(int):转成整数
  • df['列名'] = df['列名'].astype(float):转成小数
  • df['列名'] = pd.to_numeric(df['列名']):智能转成数字

完整代码示例

# 第一步:导入pandas import pandas as pd # 第二步:读取学生成绩表(CSV格式) df = pd.read_csv('students.csv') # 第三步:查看数据基本信息 print("=== 前5行数据 ===") print(df.head()) print("\n=== 数据形状(行数, 列数)===") print(df.shape) print("\n=== 数据类型与非空值 ===") print(df.info()) print("\n=== 数值列统计描述 ===") print(df.describe()) # 第四步:数据类型转换 # 假设'语文'列被读成了字符串,需要转成数字 df['语文'] = pd.to_numeric(df['语文'], errors='coerce') df['数学'] = pd.to_numeric(df['数学'], errors='coerce') df['英语'] = pd.to_numeric(df['英语'], errors='coerce') print("\n=== 转换后的数据类型 ===") print(df.dtypes) # 第五步:查看最后几行 print("\n=== 最后3行 ===") print(df.tail(3))

实操步骤

  1. 打开Jupyter Notebook,新建一个笔记本
  2. 在第一行输入 import pandas as pd,按Shift+Enter运行
  3. 准备数据文件:创建一个students.csv文件,包含姓名、语文、数学、英语四列
  4. df = pd.read_csv('students.csv') 读取数据
  5. 运行 df.head() 查看数据是否正确读入
  6. 运行 df.info() 检查数据类型,看数字列是否被识别为int或float
  7. 如果有类型不对,用 astype()pd.to_numeric() 转换
  8. 运行 df.describe() 查看各科成绩的平均分、最高最低分

配套数据集:students.csv

你可以用以下数据创建students.csv文件进行练习:

姓名,语文,数学,英语 张三,85,90,88 李四,78,82,80 王五,92,95,94 赵六,65,70,68 钱七,88,85,90 孙八,74,78,76 周九,90,92,91 吴十,80,84,82
交互式练习题
0/6
第1题 选择题
pandas通常用什么别名导入?
A. pd
B. ps
C. pds
D. pan
答案解析

行业惯例使用 import pandas as pd,别名pd。

第2题 选择题
读取CSV文件应该使用哪个函数?
A. pd.read_excel()
B. pd.read_csv()
C. pd.load_csv()
D. pd.open_csv()
答案解析

pd.read_csv() 是pandas读取CSV文件的标准函数。

第3题 选择题
df.head(3) 会显示什么?
A. 最后3行
B. 前3行
C. 第3行
D. 前5行
答案解析

head()显示前N行,默认5行,传入3则显示前3行。

第4题 判断题
df.info() 可以查看每列的数据类型和非空值数量。
正确
错误
答案解析

info()方法会输出每列的名称、非空值数量和数据类型。

第5题 填空题
查看数值列统计描述(均值、最大最小值等)的方法是 df.______()
答案解析

describe()方法会对所有数值列计算计数、均值、标准差、最小值、四分位数、最大值。

第6题 选择题
将某列转换为整数类型,应该使用?
A. df['列名'].to_int()
B. df['列名'].astype(int)
C. df['列名'].convert(int)
D. df['列名'].change(int)
答案解析

astype()是pandas中转换数据类型的标准方法。

0/6

项目小结

本项目我们学习了pandas最基础的操作:

  • 安装并导入pandas库(import pandas as pd
  • read_csv()read_excel() 读取数据文件
  • head()tail() 快速查看数据
  • info() 检查数据结构和缺失情况
  • describe() 获取数值列的统计信息
  • astype()pd.to_numeric() 转换数据类型

掌握了这些基础操作,你就已经迈出了数据分析的第一步!下一个项目我们将学习如何处理数据中的"脏数据"。

← 返回首页 下一项目:数据清洗与预处理 →