数据采集与处理 - 单元考查卷（三）

考查范围：第6-8章 | 满分100分 | 考试时间90分钟

数据采集与处理 - 单元考查卷（三）

考查范围：第6-8章 | 满分100分 | 考试时间90分钟

第1题选择题 (3分)

数据质量维度中，"数据是否最新"属于哪个维度？

完整性

准确性

及时性

一致性

答案解析

及时性关注数据是否足够新鲜。

第2题选择题 (3分)

Pandas中，将DataFrame写入MySQL数据库应使用？

df.to_csv()

df.to_excel()

df.to_sql()

df.to_json()

答案解析

to_sql()用于写入SQL数据库。

第3题选择题 (3分)

robots.txt文件的主要作用是？

加速网页加载

告诉爬虫哪些页面可以访问

加密网站数据

记录用户访问日志

答案解析

robots.txt告诉爬虫哪些页面可以访问。

第4题选择题 (3分)

爬虫设置User-Agent的主要目的是？

加快请求速度

模拟浏览器，绕过检测

压缩响应数据

缓存网页内容

答案解析

设置User-Agent是为了模拟真实浏览器。

第5题选择题 (3分)

以下哪种行为可能违反数据采集合规要求？

采集公开的商品价格信息用于学习

遵守robots协议，控制请求频率

采集用户的身份证号并出售

使用API获取授权数据

答案解析

采集并出售个人信息属于违法行为。

第6题判断题 (5分)

使用爬虫采集公开的商品价格信息用于个人学习研究，属于合法行为。

正确

错误

答案解析

采集公开信息用于正当学习研究，遵守robots协议和控制频率，一般属于合法行为。

第7题判断题 (5分)

robots.txt具有法律强制力，违反会被判刑。

正确

错误

答案解析

robots.txt是行业约定，无法律强制力，但违反可能涉及其他法律。

第8题实操题 (25分)

给定一个包含用户信息的DataFrame，请编写数据质量评估脚本，计算并输出：1）整体完整率；2）每列完整率；3）重复记录数；4）生成质量报告CSV。

参考答案与解析

评分标准：整体完整率(6分) + 每列完整率(5分) + 重复记录数(5分) + 生成CSV报告(5分) + 代码规范(4分)

第9题实操题 (25分)

编写一个合规的爬虫脚本，采集某公开网站的文章标题和发布时间。要求：1）设置合理的User-Agent；2）每次请求间隔2-4秒随机延时；3）先查看并打印robots.txt内容；4）将结果保存为CSV；5）代码中包含合规注释。

参考答案与解析

评分标准：查看robots.txt(4分) + User-Agent(4分) + 随机延时2-4秒(5分) + 采集标题和时间(6分) + 保存CSV(3分) + 合规注释(3分)

0/0

返回总览