数据采集与处理 - 期末考查卷

第1题选择题 (2分)

以下不属于结构化数据的是？

MySQL数据库表

Excel电子表格

网页HTML文档

CSV格式文件

答案解析

网页HTML文档是非结构化数据，没有固定的行列结构。

第2题选择题 (2分)

HTTP状态码404表示？

请求成功

服务器错误

页面未找到

请求被拒绝

答案解析

404表示页面未找到（Not Found）。200是成功，500是服务器错误，403是被拒绝。

第3题选择题 (2分)

BeautifulSoup中，soup.select('.item')的作用是？

查找id为item的元素

查找class为item的元素

查找标签名为item的元素

查找文本包含item的元素

答案解析

.item表示选中class为item的元素。#item才表示id。

第4题选择题 (2分)

df.groupby('A')['B'].sum()的含义是？

按A列排序后求B列的和

按A列分组，求每组B列的和

求A列和B列的总和

筛选A列等于B列的行

答案解析

先按A列分组，然后对每组的B列求和。

第5题选择题 (2分)

以下哪个操作属于数据清洗？

按城市分组统计销售额

删除重复记录

将两个表按ID合并

创建数据透视表

答案解析

删除重复记录是数据清洗操作。其他属于数据转换/分析操作。

第6题选择题 (2分)

merge函数中how='outer'表示？

只保留两边都有的记录

保留左表全部记录

保留两边所有记录

保留右表全部记录

答案解析

outer表示外连接，保留两边的所有记录。

第7题选择题 (2分)

箱线图法中，异常值通常定义为？

大于均值的数据

小于Q1-1.5*IQR或大于Q3+1.5*IQR的数据

等于中位数的数据

标准差大于1的数据

答案解析

箱线图法将异常值定义为小于Q1-1.5*IQR或大于Q3+1.5*IQR。

第8题选择题 (2分)

将DataFrame保存为Excel文件，应使用？

df.to_csv()

df.to_excel()

df.to_sql()

df.to_json()

答案解析

to_excel()保存为Excel文件。

第9题选择题 (2分)

以下哪种行为最可能构成违法数据采集？

采集公开新闻标题用于学术研究

高频率请求导致目标网站服务器瘫痪

使用API获取授权数据

遵守robots协议采集公开商品信息

答案解析

高频率请求导致服务器瘫痪可能构成破坏计算机信息系统罪。

第10题选择题 (2分)

数据质量维度中，"同一客户在不同系统中姓名不一致"属于？

完整性问题

准确性问题

一致性问题

及时性问题

答案解析

同一数据在不同地方不一致是典型的数据一致性问题。

第11题判断题 (2分)

JSON格式中的键必须用双引号包裹。

正确

错误

答案解析

标准JSON格式要求键必须用双引号包裹。

第12题判断题 (2分)

df.dropna()默认删除包含任何缺失值的行。

正确

错误

答案解析

dropna()默认how='any'，即只要有一个缺失值就删除该行。

第13题判断题 (2分)

Z-score标准化后的数据均值为0，标准差为1。

正确

错误

答案解析

Z-score标准化的定义就是将数据转换为均值为0、标准差为1的分布。

第14题判断题 (2分)

robots.txt具有法律强制力，违反会被判刑。

正确

错误

答案解析

robots.txt是行业约定，无法律强制力，但违反可能涉及其他法律。

第15题判断题 (2分)

pd.merge()和pd.concat()都可以用于纵向拼接数据。

正确

错误

答案解析

pd.merge()用于横向拼接（按列合并），pd.concat()用于纵向或横向堆叠。两者用途不同。

第16题实操题 (60分)

综合实操题（60分）：某电商分析公司需要采集某购物网站的手机商品信息，进行价格分析。任务1（15分）：使用Requests和BeautifulSoup编写爬虫，采集前3页商品信息（商品名称、价格、店铺名）。要求设置User-Agent，每页请求间隔2-4秒随机延时。任务2（15分）：使用Pandas对采集的数据进行清洗：删除缺失值行、将价格转为数值类型、删除重复商品、处理异常价格（如价格为0或超过50000的设为NaN）。任务3（15分）：数据分析：计算平均价格、最高价格、最低价格；按店铺统计商品数量；找出价格最低的5款商品。任务4（10分）：将清洗后的数据和分析结果保存：原始数据保存为CSV，分析结果保存为Excel（包含原始数据表和统计汇总表两个工作表）。任务5（5分）：代码规范：添加必要的注释，结构清晰，变量命名有意义。

参考答案与解析

评分标准：任务1(15分)：导入库(1) + User-Agent(2) + 循环3页(3) + 解析商品(5) + 随机延时(2) + 异常处理(2) 任务2(15分)：删除缺失值(3) + 价格转数值(4) + 删除重复(3) + 异常值处理(5) 任务3(15分)：平均/最高/最低价格(5) + 按店铺统计(5) + 最低5款(5) 任务4(10分)：保存CSV(3) + Excel多工作表(5) + 编码正确(2) 任务5(5分)：注释(2) + 结构清晰(2) + 命名规范(1) 及格线：理论>=20分，实操>=25分，总分>=60分。