课程简介
通过本课程第一天深入讲解批流一体技术,包括概念、核心原理、关键技术,以及 Flink、Hudi 等主流工具的实战应用和业界案例分享。第二天聚焦于特征平台架构与演进,阐述建设方法论、优势与价值,并剖析大型互联网公司的深度实践案例。培训目标是让大数据从业人员、企业 IT 开发人员等全面掌握相关技术与平台建设策略,通过实战案例学习最佳实践,为实际业务应用提供坚实基础,提升数据处理与分析能力,实现效率和质量的优化。
目标收益
1.建立批流一体处理技术知识体系,明确批处理与流处理的融合逻辑及应用场景。
2.掌握特征平台架构设计方法,了解其演进趋势与关键组件功能。
3.学会制定批流一体化特征平台建设方案,熟悉实施步骤与核心技巧。
4.熟悉 Flink、Hudi 等主流工具在批流一体场景中的应用,借鉴业界成功经验。
培训对象
大数据从业人员
企业IT开发人员
企业数据部门人员
课程内容
Day 1:批流一体技术介绍
上午
1.开场致辞与课程导入(15 分钟)
1.介绍培训目标、议程安排及批流一体特征平台的行业价值
2.明确学习重点与预期成果
2.批流一体处理技术深度解析(90 分钟)
1.批流一体技术概念与核心定义
2.批处理 vs 流处理:差异、联系与融合需求
3.批流一体处理的核心原理与关键技术
4.Flink 批流一体技术架构与实现机制
5.实时数据湖技术原理与核心能力
3.批流一体技术发展与趋势(60 分钟)
1.技术演进历程:从分离到融合的发展脉络
2.当前应用现状、挑战与技术瓶颈分析
3.未来发展趋势:智能化、云原生与生态整合
下午
1.主流工具与框架实战应用(120 分钟)
1.Flink 批流一体实战:
1.有界数据与无界数据
2.批流融合开发模式设计
3.Flink Connector如何实现批流融合
4.Flink 的API批流开发设计与实现
5.Flink批流统一调度设计与实现
2.Hudi 批流一体实践:
1.Hudi 基础介绍
2.Hudi 的基本原理和架构
3.Hudi 与传统数据处理方式的比较优势
4.Hudi 在业界的应用情况
5.互联网行业中 Hudi 的典型应用案例分析
6.金融行业中 Hudi 的实际应用场景及效果
7.Hudi 0.14、1.0 版本新特性解读
1.业界最佳实践与成功案例分享(90 分钟)
1.金融行业案例:
1.工商银行流批一体平台落地实践
2.某银行基于 Hudi 的实时数据湖演进
3.金融信创数据平台架构与实践
2.互联网行业案例:
1.天猫双 11 的批流一体技术应用
2.字节跳动批流一体数据仓库建设
3.腾讯广告的批流一体实践
Day 2:主流技术实践与行业案例剖析
上午
1.特征平台架构与演进(90 分钟)
1.特征平台的核心概念与业务价值
2.特征平台架构设计:关键组件与功能模块
3.特征平台发展趋势:从单一到一体化的演进路径
1.批流一体化特征平台建设方法论(90 分钟)
1.建设目标与核心价值定位
2.平台规划与策略制定:技术选型、架构设计与实施路径
3.关键实施步骤与核心技巧:从数据接入到特征服务
1.批流一体特征平台优势与价值(60 分钟)
1.对比传统架构:性能、成本与灵活性优势
2.对数据处理与分析的变革性影响
3.典型业务价值体现:效率提升与质量优化
下午
1.大型互联网公司案例深度剖析(120 分钟)
1.数据湖与特征工程的深度融合实践
2.特征存储标准化 SDK 设计与实现
3.Python DSL 驱动的特征生产与消费一体化
4.序列特征生产优化与推荐系统实践
5.特征存储与索引技术优化方案
1.互动研讨与总结(60 分钟)
1.典型批流一体计算场景分组讨论与方案设计
2.疑难问题解答与技术经验交流
3.课程内容回顾与学习成果总结