数据采集与处理

1

课程基本信息与课时安排

项目	内容
课程名称	数据采集与处理
课程性质	专业核心课（必修课）
适用专业	商务数据分析与应用（高职专科）
总课时	64课时（理论讲授32课时 + 机房上机32课时）
学分	4学分
先修课程	Python基础、计算机应用基础
后续课程	数据分析技术、商务智能与数据可视化
考核方式	平时成绩30%（出勤10% + 作业10% + 课堂表现10%）+ 期末考查70%

2

章节课时分配表

章节	内容	理论	上机	小计
第1章	数据采集概述	4	2	6
第2章	网络爬虫基础	6	6	12
第3章	API数据获取	4	4	8
第4章	数据清洗与预处理	4	6	10
第5章	数据转换与整合	4	4	8
第6章	数据质量评估	4	4	8
第7章	数据存储与管理	4	4	8
第8章	爬虫反爬与合规	2	2	4
合计		32	32	64

3

课程模块导航

单元一：采集技术（第1-3章）

第1章 数据采集概述：数据采集基本概念、数据来源分类、采集流程、常用工具。
第2章 网络爬虫基础：HTTP协议、Requests库、BeautifulSoup解析、CSS选择器、异常处理。
第3章 API数据获取：API概念、JSON格式、RESTful API调用、认证方式、分页处理。

第1章数据采集概述 | 第2章网络爬虫基础 | 第3章 API数据获取 | 单元一考查

单元二：数据处理（第4-5章）

第4章 数据清洗与预处理：缺失值、异常值、重复值处理，数据类型转换。
第5章 数据转换与整合：数据合并、透视表、分组聚合、标准化归一化。

第4章数据清洗与预处理 | 第5章数据转换与整合 | 单元二考查

单元三：质量管理（第6-8章）

第6章 数据质量评估：质量五维度、评估指标、质量报告。
第7章 数据存储与管理：CSV/Excel/JSON/MySQL存储、备份策略。
第8章 爬虫反爬与合规：反爬机制、应对策略、robots协议、法律法规。

第6章数据质量评估 | 第7章数据存储与管理 | 第8章爬虫反爬与合规 | 单元三考查

期末考查

数据采集与处理 - 期末考查卷

4

学习目标与达标标准

理论掌握程度达标标准

能力层级	具体要求	考核方式
了解	能说出数据采集的基本概念、数据来源类型、常见工具名称	课堂提问、选择题
理解	能解释HTTP协议工作原理、API调用流程、数据质量维度含义	简答题、判断题
掌握	能阐述爬虫工作原理、反爬机制类型、数据清洗步骤、合规要求	论述题、案例分析

上机实操能力达标标准

技能模块	达标要求	评分标准
爬虫编写	能独立编写Python脚本，使用Requests获取网页，用BeautifulSoup解析并提取指定数据	代码可运行40% + 结果正确40% + 规范整洁20%
API调用	能根据接口文档构造请求，处理JSON响应，提取所需字段并保存	请求正确30% + 解析正确40% + 保存正确30%
数据清洗	能使用Pandas处理缺失值、异常值、重复值，完成数据类型转换	处理完整50% + 方法合理30% + 结果正确20%
数据存储	能将数据保存为CSV/Excel，能连接MySQL进行读写操作	文件保存40% + 数据库操作40% + 规范正确20%
综合应用	能完成"采集-清洗-转换-存储"完整流程的小型项目	流程完整40% + 功能实现40% + 代码质量20%

总评及格标准：平时成绩（30分）+ 期末考查（70分）>= 60分。其中期末考查理论部分不低于20分，实操部分不低于25分。上机实操考核采用"现场抽题+限时完成+代码演示"方式，学生需在规定时间内完成指定数据采集处理任务并展示运行结果。