首页 / 数据采集与处理 / 数据采集与处理 - 单元考查卷(三)

数据采集与处理 - 单元考查卷(三)

考查范围:第6-8章 | 满分100分 | 考试时间90分钟

数据采集与处理 - 单元考查卷(三)
考查范围:第6-8章 | 满分100分 | 考试时间90分钟
第1题 选择题 (3分)
数据质量维度中,"数据是否最新"属于哪个维度?
完整性
准确性
及时性
一致性
答案解析
及时性关注数据是否足够新鲜。
第2题 选择题 (3分)
Pandas中,将DataFrame写入MySQL数据库应使用?
df.to_csv()
df.to_excel()
df.to_sql()
df.to_json()
答案解析
to_sql()用于写入SQL数据库。
第3题 选择题 (3分)
robots.txt文件的主要作用是?
加速网页加载
告诉爬虫哪些页面可以访问
加密网站数据
记录用户访问日志
答案解析
robots.txt告诉爬虫哪些页面可以访问。
第4题 选择题 (3分)
爬虫设置User-Agent的主要目的是?
加快请求速度
模拟浏览器,绕过检测
压缩响应数据
缓存网页内容
答案解析
设置User-Agent是为了模拟真实浏览器。
第5题 选择题 (3分)
以下哪种行为可能违反数据采集合规要求?
采集公开的商品价格信息用于学习
遵守robots协议,控制请求频率
采集用户的身份证号并出售
使用API获取授权数据
答案解析
采集并出售个人信息属于违法行为。
第6题 判断题 (5分)
使用爬虫采集公开的商品价格信息用于个人学习研究,属于合法行为。
正确
错误
答案解析
采集公开信息用于正当学习研究,遵守robots协议和控制频率,一般属于合法行为。
第7题 判断题 (5分)
robots.txt具有法律强制力,违反会被判刑。
正确
错误
答案解析
robots.txt是行业约定,无法律强制力,但违反可能涉及其他法律。
第8题 实操题 (25分)
给定一个包含用户信息的DataFrame,请编写数据质量评估脚本,计算并输出:1)整体完整率;2)每列完整率;3)重复记录数;4)生成质量报告CSV。
参考答案与解析
评分标准:整体完整率(6分) + 每列完整率(5分) + 重复记录数(5分) + 生成CSV报告(5分) + 代码规范(4分)
第9题 实操题 (25分)
编写一个合规的爬虫脚本,采集某公开网站的文章标题和发布时间。要求:1)设置合理的User-Agent;2)每次请求间隔2-4秒随机延时;3)先查看并打印robots.txt内容;4)将结果保存为CSV;5)代码中包含合规注释。
参考答案与解析
评分标准:查看robots.txt(4分) + User-Agent(4分) + 随机延时2-4秒(5分) + 采集标题和时间(6分) + 保存CSV(3分) + 合规注释(3分)
0/0