大数据采集与处理工具清单

Macshion

2024-02-21

中文

etl, flume, hadoop, java, kafka, kettle, mysql, python

做《大数据采集与处理》相关作业/项目时，工具往往不止一个：你需要“把数据采进来”，再“可靠地存下来”，最后“能批处理/流处理并产出结果”。这篇笔记把常见工具按数据链路分层整理，并给出一个最小可用的选型思路。

一个典型数据链路可以抽象成：

数据源：业务库、日志、埋点、第三方接口等
采集/接入：把数据搬运出来（采集 agent / connector）
缓冲/消息队列：削峰填谷、解耦生产与消费
存储：关系型数据库 / 分布式文件系统 / NoSQL
计算：离线批处理（批量）/ 实时流处理（连续）
ETL/建模：清洗、转换、聚合、装载到目标库

本文列的工具基本都能在这条链路里找到位置。

2. 工具清单（按层分组）

2.1 数据存储：MySQL

适合场景：

结构化数据（强 schema）、需要 SQL 查询、需要事务或一致性
作为“业务库”或“结果库”（ETL 输出落库、报表查询）

不太适合：

超大规模文件存储（大量大文件、海量冷数据）
纯日志/事件流的高吞吐写入（通常更适合走消息队列 + 数据湖/专用存储）

官网：https://www.mysql.com/

2.2 开发语言：Python / Java

在“采集与处理”里，语言更像是你写胶水层/业务逻辑的工具：爬虫、数据清洗、调度脚本、数据服务、批处理作业等。

Python

优点：上手快、生态丰富（采集/清洗/分析/可视化都强）
常见用途：脚本化采集、数据预处理、简单 ETL、数据分析

官网：https://www.python.org/

Java（JDK）

优点：工程化成熟、性能稳定、生态与大数据组件耦合深（Hadoop 生态、Kafka 客户端等）
常见用途：Kafka 消费/生产、实时处理服务、数据平台组件开发

JDK 官网：https://www.oracle.com/java/

IDE：PyCharm（写 Python 体验更好）

官网：https://www.jetbrains.com/pycharm/

2.3 分布式存储与离线计算：Hadoop（HDFS / MapReduce）

你可以把 Hadoop 理解成两件事：

HDFS：分布式文件系统，适合存放海量文件/日志/离线数据
MapReduce：离线批处理计算模型（今天更多项目会用 Spark，但 Hadoop 仍是重要基础概念）

官网：https://hadoop.apache.org/

2.4 日志/事件采集：Flume

定位：更偏“采集层”，把日志/事件从各个机器汇聚起来，常见落点是 HDFS、HBase 等。

适合场景：

机器日志采集、汇聚、可靠传输
需要配置化地搭建采集管道（source/channel/sink 模型）

官网：https://flume.apache.org/

2.5 消息队列 / 流平台：Kafka

定位：缓冲层 + 事件流平台。Kafka 的核心价值是：高吞吐、可持久化、可回放、可扩展。

常见用法：

采集端把日志/事件写入 Kafka
下游多个消费者分别做：实时计算、落湖/落库、监控告警等

官网：https://kafka.apache.org/

2.6 ETL 工具：Kettle（Pentaho Data Integration）

定位：偏“ETL/数据集成层”，用拖拽方式做数据抽取、转换、装载。

适合场景：

业务系统之间的数据同步、定时抽取与清洗
不想为每条数据管道都写一套代码，希望用可视化流程管理

官网（中文站点）：http://www.kettle.org.cn/

3. 快速选型：从“能跑”开始

如果你要做一个课程项目/作业，追求的是先跑通链路，再逐步增强，可以从下面的“最小组合”开始：

采集：Flume（采日志）或 Python（采接口/爬虫）
缓冲：Kafka（让链路更稳定、可扩展）
存储：MySQL（结构化结果落库）+（可选）HDFS（存原始数据/大文件）
ETL：Kettle（可视化流程）或 Python/Java（代码实现）

一个简单但常见的路径是：

Python/Flume → Kafka →（消费者）→ MySQL
或者：Python/Flume → HDFS →（离线清洗）→ MySQL

4. 对比速览（你最关心的 4 个维度）

工具	在链路中的位置	优点	你需要注意
MySQL	结果库/业务库	SQL 友好、生态成熟	不适合超大规模文件与超高吞吐日志直写
Python	采集/清洗/脚本	快、灵活、库多	工程化与性能要靠规范与架构补足
Java (JDK)	消费端/平台组件	稳定、性能好、生态深	开发成本更高、迭代相对慢
Hadoop (HDFS/MR)	数据湖/离线计算	海量存储、批处理基础	组件多，上手成本较高
Flume	采集层	配置化、适合日志	生态偏传统，更多是“采集”而不是“平台”
Kafka	缓冲/事件流	高吞吐、可回放、解耦	需要做好 topic 规划与运维监控
Kettle	ETL/集成层	可视化、适合业务同步	复杂逻辑会变得难维护，版本管理要注意

5. 参考链接（原始资料）

以下链接来自最初草稿的资料来源，保留在这里便于回溯（内容质量需自行甄别）：

MySQL 介绍：https://blog.csdn.net/weixin_50498482/article/details/124315351
Python 介绍：https://blog.csdn.net/embelfe_segge/article/details/125056779
PyCharm 介绍：https://blog.csdn.net/m0_60487995/article/details/123386217
JDK 介绍：http://c.biancheng.net/view/1286.html
Hadoop 介绍：https://blog.csdn.net/m0_67391377/article/details/126565351
Flume 介绍：https://blog.csdn.net/weixin_44912627/article/details/118890386
Kafka 介绍：https://blog.csdn.net/qq_51114151/article/details/123988155
Kettle 介绍：https://blog.csdn.net/weixin_39977136/article/details/110803502