首页 / 数据采集与处理 / 数据采集与处理 - 单元考查卷(一)

数据采集与处理 - 单元考查卷(一)

考查范围:第1-3章 | 满分100分 | 考试时间90分钟

数据采集与处理 - 单元考查卷(一)
考查范围:第1-3章 | 满分100分 | 考试时间90分钟
第1题 选择题 (3分)
以下哪种数据属于结构化数据?
网页新闻文章
数据库中的订单表
微信语音消息
产品宣传视频
答案解析
数据库中的订单表是典型的结构化数据,有明确的行列结构。
第2题 选择题 (3分)
HTTP协议中,用于向服务器提交数据的请求方法是?
GET
POST
DELETE
PUT
答案解析
POST用于向服务器提交数据,如登录表单。GET用于获取数据。
第3题 选择题 (3分)
BeautifulSoup中,查找所有匹配元素的方法是?
find()
find_all()
select_one()
get()
答案解析
find_all()返回所有匹配元素的列表。find()只返回第一个。
第4题 选择题 (3分)
API返回的数据格式最常见的是?
XML
HTML
JSON
CSV
答案解析
JSON是API返回数据最常用的格式。
第5题 选择题 (3分)
requests.get()返回的响应对象中,获取文本内容应使用?
response.content
response.text
response.json()
response.headers
答案解析
response.text返回响应的文本内容。
第6题 判断题 (2分)
CSS选择器中,#header表示选中class为header的元素。
正确
错误
答案解析
#header表示选中id为header的元素。.header才表示class。
第7题 判断题 (2分)
调用API时,time.sleep()的作用是防止请求过快被封IP。
正确
错误
答案解析
time.sleep()用于在请求之间添加延时,防止被封IP。
第8题 实操题 (30分)
编写Python爬虫,采集 quotes.toscrape.com 网站首页的所有名言和作者,保存为CSV文件。要求:设置User-Agent、处理编码、使用BeautifulSoup解析。
参考答案与解析
评分标准:正确导入库(3分) + 设置User-Agent(4分) + 发送GET请求处理编码(5分) + BeautifulSoup解析(6分) + 定位元素(6分) + 保存CSV(4分) + 代码规范(2分)
第9题 实操题 (30分)
调用聚合数据天气API,查询"北京"今天的天气信息,提取城市、温度、天气状况、风向,并打印输出。要求:正确处理JSON响应,处理可能的错误返回。
参考答案与解析
评分标准:正确构造URL和参数(5分) + 发送请求(4分) + response.json()解析(5分) + 提取四个字段(8分) + 错误处理(5分) + 代码规范(3分)
0/0