大数据与分布式系统(Hadoop、Spark、数据湖仓)
📚 分类介绍
数据已成为新时代的核心资产,大数据技术使得处理和分析海量数据成为可能。从Hadoop分布式存储到Spark内存计算,从批量处理到实时流处理,从数据仓库到数据湖仓,大数据技术栈正在不断演进。
本分类将深入探讨:
- Hadoop生态:HDFS、MapReduce、YARN
- Spark技术栈:Spark Core、SQL、Streaming、MLlib
- 数据湖仓:Delta Lake、Iceberg、Hudi
- 实时流处理:Flink、Kafka Streams
🎯 学习目标
完成本分类的学习后,您将能够:
- 理解分布式系统的核心概念和挑战
- 掌握Hadoop和Spark的使用和调优
- 了解数据湖仓的架构和最佳实践
- 能够设计实时和批量数据处理流水线
- 具备大数据平台运维和优化能力
👥 适用人群
本分类适合以下学习者:
- 大数据工程师:从事数据处理平台开发
- 数据分析师:使用Spark进行数据分析
- 数据平台架构师:设计数据仓库和数据湖
- 后端开发工程师:向大数据领域转型
- 算法工程师:需要处理大规模数据
📖 学习路线图
初级(入门阶段)
大数据基础概念:
- 大数据的4V特征
- 分布式系统基本概念
- CAP理论与BASE理论
- 一致性算法概述(Paxos、Raft)
Hadoop生态入门:
- HDFS分布式文件系统
- NameNode与DataNode架构
- HDFS读写流程
- 副本机制与故障恢复
- YARN资源调度
MapReduce编程:
- MapReduce计算模型
- Map、Shuffle、Reduce阶段
- Hadoop API编程
- 常用InputFormat与OutputFormat
中级(进阶阶段)
Spark核心:
- Spark架构与运行模式
- RDD弹性分布式数据集
- Transformation与Action
- Spark SQL与DataFrame
- Dataset与类型安全
Spark生态组件:
- Spark Streaming微批处理
- Structured Streaming
- MLlib机器学习库
- GraphX图计算
- Spark调优与性能优化
数据仓库设计:
- 星型模型与雪花模型
- 事实表与维度表
- 数仓分层(ODS、DWD、DWS、ADS)
- 慢变化维(SCD)处理
- T+1离线数仓架构
高级(专家阶段)
实时流处理:
- 流处理 vs 批处理
- Flink架构与API
- 时间语义与窗口计算
- Watermark与迟到数据处理
- 状态管理与容错
数据湖仓技术:
- 数据湖 vs 数据仓库
- Delta Lake架构与特性
- Apache Iceberg表格式
- Apache Hudi增量处理
- ACID事务与时间旅行
Kafka消息队列:
- Kafka架构与核心概念
- 生产者与消费者
- 分区与副本机制
- 消息语义(at-most-once、at-least-once、exactly-once)
- Kafka Streams流处理
分布式系统深入:
- 分布式一致性深入
- 分布式事务(2PC、3PC、Saga)
- 分布式锁实现
- 服务降级与熔断
- 限流算法(令牌桶、漏桶)
数据平台工程:
- 数据血缘与元数据管理
- 数据质量监控
- 数据安全与权限控制
- 数据湖仓云服务(Databricks、AWS Glue)
- 成本优化与资源调度
🔗 前置知识
必备基础:
- Linux系统操作
- Java或Scala编程(Hadoop/Spark)
- Python编程(PySpark)
- SQL数据库基础
推荐学习路径:
- 先理解分布式系统基本概念
- 学习Hadoop HDFS和MapReduce
- 深入学习Spark Core和SQL
- 学习流处理和实时计算
- 掌握数据湖仓技术
互补关系:
- 本分类与「云计算技术」紧密相关(云上大数据)
- 本分类与「AI+通信」中的网络数据分析相关
- 本分类需要「Python编程」作为基础