数据采集与处理
商务数据分析与应用专业核心课程 | 64课时 | 4学分
课程基本信息与课时安排
| 项目 | 内容 |
|---|---|
| 课程名称 | 数据采集与处理 |
| 课程性质 | 专业核心课(必修课) |
| 适用专业 | 商务数据分析与应用(高职专科) |
| 总课时 | 64课时(理论讲授32课时 + 机房上机32课时) |
| 学分 | 4学分 |
| 先修课程 | Python基础、计算机应用基础 |
| 后续课程 | 数据分析技术、商务智能与数据可视化 |
| 考核方式 | 平时成绩30%(出勤10% + 作业10% + 课堂表现10%)+ 期末考查70% |
章节课时分配表
| 章节 | 内容 | 理论 | 上机 | 小计 |
|---|---|---|---|---|
| 第1章 | 数据采集概述 | 4 | 2 | 6 |
| 第2章 | 网络爬虫基础 | 6 | 6 | 12 |
| 第3章 | API数据获取 | 4 | 4 | 8 |
| 第4章 | 数据清洗与预处理 | 4 | 6 | 10 |
| 第5章 | 数据转换与整合 | 4 | 4 | 8 |
| 第6章 | 数据质量评估 | 4 | 4 | 8 |
| 第7章 | 数据存储与管理 | 4 | 4 | 8 |
| 第8章 | 爬虫反爬与合规 | 2 | 2 | 4 |
| 合计 | 32 | 32 | 64 | |
课程模块导航
单元一:采集技术(第1-3章)
第1章 数据采集概述:数据采集基本概念、数据来源分类、采集流程、常用工具。
第2章 网络爬虫基础:HTTP协议、Requests库、BeautifulSoup解析、CSS选择器、异常处理。
第3章 API数据获取:API概念、JSON格式、RESTful API调用、认证方式、分页处理。
第1章 数据采集概述 | 第2章 网络爬虫基础 | 第3章 API数据获取 | 单元一考查
单元二:数据处理(第4-5章)
第4章 数据清洗与预处理:缺失值、异常值、重复值处理,数据类型转换。
第5章 数据转换与整合:数据合并、透视表、分组聚合、标准化归一化。
第4章 数据清洗与预处理 | 第5章 数据转换与整合 | 单元二考查
单元三:质量管理(第6-8章)
第6章 数据质量评估:质量五维度、评估指标、质量报告。
第7章 数据存储与管理:CSV/Excel/JSON/MySQL存储、备份策略。
第8章 爬虫反爬与合规:反爬机制、应对策略、robots协议、法律法规。
第6章 数据质量评估 | 第7章 数据存储与管理 | 第8章 爬虫反爬与合规 | 单元三考查
期末考查
学习目标与达标标准
理论掌握程度达标标准
| 能力层级 | 具体要求 | 考核方式 |
|---|---|---|
| 了解 | 能说出数据采集的基本概念、数据来源类型、常见工具名称 | 课堂提问、选择题 |
| 理解 | 能解释HTTP协议工作原理、API调用流程、数据质量维度含义 | 简答题、判断题 |
| 掌握 | 能阐述爬虫工作原理、反爬机制类型、数据清洗步骤、合规要求 | 论述题、案例分析 |
上机实操能力达标标准
| 技能模块 | 达标要求 | 评分标准 |
|---|---|---|
| 爬虫编写 | 能独立编写Python脚本,使用Requests获取网页,用BeautifulSoup解析并提取指定数据 | 代码可运行40% + 结果正确40% + 规范整洁20% |
| API调用 | 能根据接口文档构造请求,处理JSON响应,提取所需字段并保存 | 请求正确30% + 解析正确40% + 保存正确30% |
| 数据清洗 | 能使用Pandas处理缺失值、异常值、重复值,完成数据类型转换 | 处理完整50% + 方法合理30% + 结果正确20% |
| 数据存储 | 能将数据保存为CSV/Excel,能连接MySQL进行读写操作 | 文件保存40% + 数据库操作40% + 规范正确20% |
| 综合应用 | 能完成"采集-清洗-转换-存储"完整流程的小型项目 | 流程完整40% + 功能实现40% + 代码质量20% |
总评及格标准:平时成绩(30分)+ 期末考查(70分)>= 60分。其中期末考查理论部分不低于20分,实操部分不低于25分。上机实操考核采用"现场抽题+限时完成+代码演示"方式,学生需在规定时间内完成指定数据采集处理任务并展示运行结果。