首页 / 数据采集与处理 / 第1章 数据采集概述

第1章 数据采集概述

理论4课时 + 上机2课时 | 难度:入门

1.1 什么是数据采集

数据采集就是从各种来源获取原始数据的过程。比如你想知道某款手机在京东上的价格变化,你需要去京东网站把价格信息"拿"下来,这个过程就是数据采集。简单来说:数据采集 = 找到数据在哪里 + 把数据取回来。

1.2 数据的三种类型

结构化数据:像Excel表格那样,行列整齐,比如数据库里的订单表(订单号、商品名、价格、时间各一列)。 半结构化数据:有一定格式但不严格,比如XML、JSON格式的数据。 非结构化数据:没有固定格式,比如网页文章、图片、视频、音频等。

1.3 数据来源有哪些

内部数据:企业自己的数据库、业务系统、日志文件。 外部公开数据:政府开放数据平台、行业报告、公开API。 网络数据:网页内容、社交媒体、电商平台、新闻网站。 传感器数据:物联网设备、监控设备等产生的数据。

1.4 数据采集的基本流程

第1步:明确采集目标(要采什么数据?)→ 第2步:确定数据来源(从哪里采?)→ 第3步:选择采集工具/方法(怎么采?)→ 第4步:执行采集 → 第5步:验证数据完整性 → 第6步:存储数据

1.5 常用采集工具简介

八爪鱼采集器:可视化操作,不用写代码,适合新手。 Python+Requests/BeautifulSoup:写代码采集,灵活强大,是本课程重点。 浏览器开发者工具:按F12打开,查看网页结构和网络请求。

自学拓展素材

  • 免费教程:B站搜索"数据采集入门",推荐尚硅谷、黑马程序员相关视频
  • 在线工具体验:注册八爪鱼采集器免费版,完成一个简单采集任务
  • 阅读材料:浏览国家数据开放平台(data.stats.gov.cn),了解公开数据资源
  • 实训数据集:本章暂无代码数据集,以概念理解为主

自学自检小问题

  1. 你能说出三种不同类型的数据,并各举一个生活中的例子吗?
  2. 数据采集的6个基本步骤是什么?按顺序说一遍。
  3. 打开任意一个网页,按F12打开开发者工具,找到"Elements"标签,你能看到网页的HTML结构吗?
  4. 结构化数据和非结构化数据的区别是什么?
基础巩固层练习
0/5
第1题 选择题
以下哪种数据属于结构化数据?
网页新闻文章
数据库中的订单表
微信语音消息
产品宣传视频
答案解析
数据库中的订单表是典型的结构化数据,有明确的行列结构。网页文章是非结构化数据,语音和视频也是非结构化数据。
第2题 选择题
数据采集的基本流程中,第一步应该做什么?
选择采集工具
明确采集目标
执行采集
存储数据
答案解析
数据采集的第一步是明确采集目标,确定需要采集什么数据,然后才能确定来源和方法。
第3题 判断题
JSON格式的数据属于结构化数据。
正确
错误
答案解析
JSON属于半结构化数据。它有一定格式(键值对),但不像数据库表那样有严格的行列结构。
第4题 选择题
以下哪个工具是可视化数据采集工具,不需要写代码?
Requests
BeautifulSoup
八爪鱼采集器
Pandas
答案解析
八爪鱼采集器是可视化操作的数据采集工具,不需要编写代码,适合新手使用。
第5题 填空题
按F12可以打开浏览器的______工具,用于查看网页结构。
答案解析
按F12可以打开浏览器开发者工具(Developer Tools),其中Elements标签可以查看网页的HTML结构。
0/0