首页 / 数据采集与处理

数据采集与处理

商务数据分析与应用专业核心课程 | 64课时 | 4学分

1

课程基本信息与课时安排

项目内容
课程名称数据采集与处理
课程性质专业核心课(必修课)
适用专业商务数据分析与应用(高职专科)
总课时64课时(理论讲授32课时 + 机房上机32课时)
学分4学分
先修课程Python基础、计算机应用基础
后续课程数据分析技术、商务智能与数据可视化
考核方式平时成绩30%(出勤10% + 作业10% + 课堂表现10%)+ 期末考查70%
2

章节课时分配表

章节内容理论上机小计
第1章数据采集概述426
第2章网络爬虫基础6612
第3章API数据获取448
第4章数据清洗与预处理4610
第5章数据转换与整合448
第6章数据质量评估448
第7章数据存储与管理448
第8章爬虫反爬与合规224
合计323264
3

课程模块导航

单元一:采集技术(第1-3章)

课堂重点上机实操

第1章 数据采集概述:数据采集基本概念、数据来源分类、采集流程、常用工具。
第2章 网络爬虫基础:HTTP协议、Requests库、BeautifulSoup解析、CSS选择器、异常处理。
第3章 API数据获取:API概念、JSON格式、RESTful API调用、认证方式、分页处理。

第1章 数据采集概述  |  第2章 网络爬虫基础  |  第3章 API数据获取  |  单元一考查

单元二:数据处理(第4-5章)

课堂重点上机实操

第4章 数据清洗与预处理:缺失值、异常值、重复值处理,数据类型转换。
第5章 数据转换与整合:数据合并、透视表、分组聚合、标准化归一化。

第4章 数据清洗与预处理  |  第5章 数据转换与整合  |  单元二考查

单元三:质量管理(第6-8章)

课堂重点理论+实操

第6章 数据质量评估:质量五维度、评估指标、质量报告。
第7章 数据存储与管理:CSV/Excel/JSON/MySQL存储、备份策略。
第8章 爬虫反爬与合规:反爬机制、应对策略、robots协议、法律法规。

第6章 数据质量评估  |  第7章 数据存储与管理  |  第8章 爬虫反爬与合规  |  单元三考查

期末考查

数据采集与处理 - 期末考查卷

4

学习目标与达标标准

理论掌握程度达标标准

能力层级具体要求考核方式
了解能说出数据采集的基本概念、数据来源类型、常见工具名称课堂提问、选择题
理解能解释HTTP协议工作原理、API调用流程、数据质量维度含义简答题、判断题
掌握能阐述爬虫工作原理、反爬机制类型、数据清洗步骤、合规要求论述题、案例分析

上机实操能力达标标准

技能模块达标要求评分标准
爬虫编写能独立编写Python脚本,使用Requests获取网页,用BeautifulSoup解析并提取指定数据代码可运行40% + 结果正确40% + 规范整洁20%
API调用能根据接口文档构造请求,处理JSON响应,提取所需字段并保存请求正确30% + 解析正确40% + 保存正确30%
数据清洗能使用Pandas处理缺失值、异常值、重复值,完成数据类型转换处理完整50% + 方法合理30% + 结果正确20%
数据存储能将数据保存为CSV/Excel,能连接MySQL进行读写操作文件保存40% + 数据库操作40% + 规范正确20%
综合应用能完成"采集-清洗-转换-存储"完整流程的小型项目流程完整40% + 功能实现40% + 代码质量20%

总评及格标准:平时成绩(30分)+ 期末考查(70分)>= 60分。其中期末考查理论部分不低于20分,实操部分不低于25分。上机实操考核采用"现场抽题+限时完成+代码演示"方式,学生需在规定时间内完成指定数据采集处理任务并展示运行结果。