DE Zoomcamp:别学成工具清单

如果你也在数据、AI 工程和自动化工具之间来回跳,这里会继续记录更能落到项目里的学习路径。 关注更新

数据工程最容易学成工具清单。

Docker 看一点,Terraform 看一点,dbt、Spark、Kafka 也都听过。单独看每个工具都不难,真正麻烦的是把它们接起来:数据从哪里来,怎么进湖,怎么进数仓,怎么转换,怎么调度,最后怎么变成别人能看的 dashboard。

这条线一断,学习就会散。学完一堆名词,还是不知道自己能不能独立做出一条管道。

DataTalksClub/data-engineering-zoomcamp 值得看的地方就在这里。它不是又给数据工程列了一张更长的技能表,而是把学习目标压成一句很具体的话:从零搭一条端到端数据管道。

数据工程学习为什么容易散

先把管道跑通

这个仓库把自己定义成一门免费的 9 周数据工程课程。按仓库当前说明,2026 cohort 从 2026 年 1 月 12 日开始;不跟班也可以自学,课程材料是公开的。

它对前置要求说得比较克制:最好有基础编程经验,熟悉 SQL,Python 有帮助但不是必需,也不要求已经有数据工程经验。

这点很重要。很多数据工程资料一上来就把云、编排、湖仓、批流一股脑摊开,读者很容易误以为自己要先把所有概念都背熟。Zoomcamp 的路线更像先搭一条能跑的管道,再慢慢替换和加固里面的部件。

课程顺序也能看出这个取向。

先从容器和基础设施开始,用 Docker、Docker Compose、PostgreSQL 和 Terraform 处理运行环境。然后进入工作流编排,仓库当前主线使用 Kestra。接着是数据摄取、BigQuery 数仓、dbt 分析工程,再到 Bruin 这类数据平台实践,后面才展开 Spark 批处理和 Kafka 流处理。

这不是“哪个工具更流行就先讲哪个”的顺序。

先有环境,任务才有地方跑;先有编排,数据才不会靠手动脚本搬来搬去;先有数仓和转换,dashboard 才不是直接连一堆半成品表;批处理和流处理放到后面,是因为它们解决的是规模和时效问题,不是入门第一天就该追的复杂度。

从运行环境到最终项目的数据工程路线

项目比课程目录更关键

这门课真正把人从“看过”推到“做过”的地方,是最后的 course project。

项目要求不是交一份笔记,而是做一个端到端数据管道:选一个数据集,处理后放进数据湖,再移动到数据仓库,在仓库里做转换,最后做一个 dashboard。项目页还明确说,课程里反复使用的 NYC taxi dataset 不能再拿来当最终项目数据集。

这条限制挺好。

如果继续用课程同款数据集,很多人会沿着讲义改几行就交差。换一个数据集,问题马上变具体:字段干不干净,增量怎么处理,日期怎么切,哪些指标值得展示,数据源挂了怎么办,README 能不能让别人复现。

项目评分标准也很现实。云环境、数据摄取、数仓、转换、dashboard、可复现性都会被看见。dashboard 至少要有两个 tile,项目还要经过 peer review。也就是说,最后要交的不是“我学完了”,而是一份别人能打开、能看懂、最好还能跑起来的作品。

最终项目把学习压到可交付作品里

别一开始就追全栈

数据工程学习最容易上头的地方,是工具名字太多。

云厂商有 AWS、GCP、Azure;编排有 Airflow、Prefect、Kestra、Luigi;数仓有 BigQuery、Snowflake、Redshift;批处理有 Spark、Flink;流处理有 Kafka、Pulsar、Kinesis。每个都能单独学一个月。

但一开始就追全栈,通常只会越学越乱。

Zoomcamp 的项目要求反而给了一个更实用的判断:先决定管道是 batch 还是 stream。周期性跑的任务,就先按 batch 做;需要实时消费事件,再考虑 stream。不要为了显得高级,把每天更新一次的数据硬塞进 Kafka。

这个取舍比背工具名更接近真实工作。

很多时候,数据工程不是选最酷的技术,而是选足够稳定、足够可解释、别人能接手的路径。能用定时任务解决的问题,先别急着做实时;能用清楚的 SQL 和 dbt 模型解释的问题,也别一上来堆一层别人看不懂的框架。

批处理和流处理不是高低之分

适合谁,不适合谁

这门课适合两类人。

一类是已经会一点 SQL、Python 或后端开发,但不知道数据工程完整链路长什么样的人。它能帮你把散开的工具接成一条线。

另一类是已经学过一些数据分析或 BI,但总卡在“数据怎么稳定进来、怎么建模、怎么自动更新”的人。只会做 dashboard,不等于懂数据工程。中间那条从源头到数仓的路,才是这类课程最值得补的部分。

它不太适合只想快速看概念的人。9 周课程、作业、最终项目、peer review,这些设计都在逼人动手。只收藏不做,很快又会变成另一个躺在书签里的课程。

前面写过 AI 学习别只囤课,其实这里的问题很像。学习资料的价值不只在“列得全”,而在它能不能把人带到一个可交付的结果。

Data Engineering Zoomcamp 的答案很直接:少背一张工具表,多做一条管道。

真想入门数据工程,可以先按这个标准筛学习资料:学完以后,能不能留下一个别人看得懂、跑得起来、能解释取舍的项目。

如果不能,那很可能只是又多收藏了一个课程链接。


数据工程总是学散?

后面会继续写数据工程、AI 工程和项目型学习路线。关注后,可以少囤一点课程,多看一点能交付的路径。