数据采集与处理 - 单元考查卷(三)
考查范围:第6-8章 | 满分100分 | 考试时间90分钟
数据采集与处理 - 单元考查卷(三)
考查范围:第6-8章 | 满分100分 | 考试时间90分钟
第1题
选择题 (3分)
数据质量维度中,"数据是否最新"属于哪个维度?
答案解析
及时性关注数据是否足够新鲜。
第2题
选择题 (3分)
Pandas中,将DataFrame写入MySQL数据库应使用?
答案解析
to_sql()用于写入SQL数据库。
第3题
选择题 (3分)
robots.txt文件的主要作用是?
答案解析
robots.txt告诉爬虫哪些页面可以访问。
第4题
选择题 (3分)
爬虫设置User-Agent的主要目的是?
答案解析
设置User-Agent是为了模拟真实浏览器。
第5题
选择题 (3分)
以下哪种行为可能违反数据采集合规要求?
答案解析
采集并出售个人信息属于违法行为。
第6题
判断题 (5分)
使用爬虫采集公开的商品价格信息用于个人学习研究,属于合法行为。
答案解析
采集公开信息用于正当学习研究,遵守robots协议和控制频率,一般属于合法行为。
第7题
判断题 (5分)
robots.txt具有法律强制力,违反会被判刑。
答案解析
robots.txt是行业约定,无法律强制力,但违反可能涉及其他法律。
第8题
实操题 (25分)
给定一个包含用户信息的DataFrame,请编写数据质量评估脚本,计算并输出:1)整体完整率;2)每列完整率;3)重复记录数;4)生成质量报告CSV。
参考答案与解析
评分标准:整体完整率(6分) + 每列完整率(5分) + 重复记录数(5分) + 生成CSV报告(5分) + 代码规范(4分)
第9题
实操题 (25分)
编写一个合规的爬虫脚本,采集某公开网站的文章标题和发布时间。要求:1)设置合理的User-Agent;2)每次请求间隔2-4秒随机延时;3)先查看并打印robots.txt内容;4)将结果保存为CSV;5)代码中包含合规注释。
参考答案与解析
评分标准:查看robots.txt(4分) + User-Agent(4分) + 随机延时2-4秒(5分) + 采集标题和时间(6分) + 保存CSV(3分) + 合规注释(3分)
0/0