数据采集与处理 - 期末考查卷
考查范围:全书1-8章 | 满分100分 | 考试时间120分钟 | 闭卷
数据采集与处理 - 期末考查卷
考查范围:全书1-8章 | 满分100分 | 考试时间120分钟 | 闭卷
第1题
选择题 (2分)
以下不属于结构化数据的是?
答案解析
网页HTML文档是非结构化数据,没有固定的行列结构。
第2题
选择题 (2分)
HTTP状态码404表示?
答案解析
404表示页面未找到(Not Found)。200是成功,500是服务器错误,403是被拒绝。
第3题
选择题 (2分)
BeautifulSoup中,soup.select('.item')的作用是?
答案解析
.item表示选中class为item的元素。#item才表示id。
第4题
选择题 (2分)
df.groupby('A')['B'].sum()的含义是?
答案解析
先按A列分组,然后对每组的B列求和。
第5题
选择题 (2分)
以下哪个操作属于数据清洗?
答案解析
删除重复记录是数据清洗操作。其他属于数据转换/分析操作。
第6题
选择题 (2分)
merge函数中how='outer'表示?
答案解析
outer表示外连接,保留两边的所有记录。
第7题
选择题 (2分)
箱线图法中,异常值通常定义为?
答案解析
箱线图法将异常值定义为小于Q1-1.5*IQR或大于Q3+1.5*IQR。
第8题
选择题 (2分)
将DataFrame保存为Excel文件,应使用?
答案解析
to_excel()保存为Excel文件。
第9题
选择题 (2分)
以下哪种行为最可能构成违法数据采集?
答案解析
高频率请求导致服务器瘫痪可能构成破坏计算机信息系统罪。
第10题
选择题 (2分)
数据质量维度中,"同一客户在不同系统中姓名不一致"属于?
答案解析
同一数据在不同地方不一致是典型的数据一致性问题。
第11题
判断题 (2分)
JSON格式中的键必须用双引号包裹。
答案解析
标准JSON格式要求键必须用双引号包裹。
第12题
判断题 (2分)
df.dropna()默认删除包含任何缺失值的行。
答案解析
dropna()默认how='any',即只要有一个缺失值就删除该行。
第13题
判断题 (2分)
Z-score标准化后的数据均值为0,标准差为1。
答案解析
Z-score标准化的定义就是将数据转换为均值为0、标准差为1的分布。
第14题
判断题 (2分)
robots.txt具有法律强制力,违反会被判刑。
答案解析
robots.txt是行业约定,无法律强制力,但违反可能涉及其他法律。
第15题
判断题 (2分)
pd.merge()和pd.concat()都可以用于纵向拼接数据。
答案解析
pd.merge()用于横向拼接(按列合并),pd.concat()用于纵向或横向堆叠。两者用途不同。
第16题
实操题 (60分)
综合实操题(60分):某电商分析公司需要采集某购物网站的手机商品信息,进行价格分析。
任务1(15分):使用Requests和BeautifulSoup编写爬虫,采集前3页商品信息(商品名称、价格、店铺名)。要求设置User-Agent,每页请求间隔2-4秒随机延时。
任务2(15分):使用Pandas对采集的数据进行清洗:删除缺失值行、将价格转为数值类型、删除重复商品、处理异常价格(如价格为0或超过50000的设为NaN)。
任务3(15分):数据分析:计算平均价格、最高价格、最低价格;按店铺统计商品数量;找出价格最低的5款商品。
任务4(10分):将清洗后的数据和分析结果保存:原始数据保存为CSV,分析结果保存为Excel(包含原始数据表和统计汇总表两个工作表)。
任务5(5分):代码规范:添加必要的注释,结构清晰,变量命名有意义。
参考答案与解析
评分标准:
任务1(15分):导入库(1) + User-Agent(2) + 循环3页(3) + 解析商品(5) + 随机延时(2) + 异常处理(2)
任务2(15分):删除缺失值(3) + 价格转数值(4) + 删除重复(3) + 异常值处理(5)
任务3(15分):平均/最高/最低价格(5) + 按店铺统计(5) + 最低5款(5)
任务4(10分):保存CSV(3) + Excel多工作表(5) + 编码正确(2)
任务5(5分):注释(2) + 结构清晰(2) + 命名规范(1)
及格线:理论>=20分,实操>=25分,总分>=60分。
0/0