工程师
互联网
其他
大数据
Python
SQL
数据分析
Spark
分布式
大数据平台
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

数据分析技能培训

刘老师

某知名咨询公司 云平台系统架构师

毕业于⼤连理⼯⼤学
简介:
精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。
有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数
据中台项⽬架构实施经验,
⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术
栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施
最近主要项⽬介绍:
某移动⼤数据平台架构设计和设施 (Hadoop、Spark)
四⼤⾏之⼀的数据湖咨询和实施
某⼤型商业银⾏数据中台咨询
某银⾏基于开源⼤数据技术栈数据中台的咨询和实施
某航空公司数据平台流批⼀体解决⽅案和实施
特长:
在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据
中台等⽅⾯有丰富经 验。

毕业于⼤连理⼯⼤学 简介: 精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。 有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数 据中台项⽬架构实施经验, ⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术 栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施 最近主要项⽬介绍: 某移动⼤数据平台架构设计和设施 (Hadoop、Spark) 四⼤⾏之⼀的数据湖咨询和实施 某⼤型商业银⾏数据中台咨询 某银⾏基于开源⼤数据技术栈数据中台的咨询和实施 某航空公司数据平台流批⼀体解决⽅案和实施 特长: 在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据 中台等⽅⾯有丰富经 验。

课程费用

6800.00 /人

课程时长

2

课程排期

 
2025.12.27 -2025.12.28
未定

成为教练

课程简介

本课程是一门系统性的数据分析实战培训,旨在帮助学员构建从数据思维到技术实践的全方位能力。课程从数据思维的核心方法论入手,结合大数据平台的实际应用案例,详细讲解数据分析与挖掘的标准流程。学员将深入学习Python数据分析库(如Numpy、Pandas)和强大的分布式计算框架Spark及其SQL组件、编程模型。课程 culminates 在一个完整的PySpark营销案例实战中,带领学员从数据清洗、探索分析到建立与评估逻辑回归模型,并引入MLFlow进行模型管理,最终实现从数据到商业价值的闭环,提升在真实业务场景中解决复杂数据问题的能力。

目标收益

培训对象

课程大纲

数据分析和数据挖掘体系及方法论 数据思维的概念
数据思维的特点
数据思维的方法论
数据思维的应用价值
数据思维的应用流程
数据思维的模式
— 全量数据思维
— 容错性思维
— 相关性思维
数据分析和挖掘流程介绍 数据挖掘的基本任务
定义分析和挖掘目标
数据取样
数据探索
单变量数据探索
数据关联性分析
数据预处理
数据特征工程构建和选择
挖掘建模
模型评价
数据分析和挖掘常用的工具 Jupyter工具介绍和使用
Numpy基本使用
Pandas基本使用
数据加载与处理
Pandas分组与合并
Pandas时间序列
Matplotlib基本使用
Scikit-Learn基本使用
PySpark工具介绍
AI大模型‌‌PyTorch‌工具介绍
项目实战:用户消费行为数据分析实战 1、项目介绍和需求分析
2、数据介绍和数据导入
3、数据预处理
4、用户个体消费数据分析
5、用户消费行为数据分析
6、用户分层RFM模型
7、新用户、活跃用户、回流用户和用户流失分析
8、用户购买周期分析
9、用户生命周期分析
10、用户复购率分析
11、用户回购分析
12、用户营销和推荐分析
13、项目总结和报告撰写
项目实战:PySpark用户流失模型实战 1、技术架构介绍
2、流失模型构建
3、数据清洗和转换
—空值和异常值处理
—数据归一化
—特征提取
—特征的降维和升维
—文本的数据化
4、决策树和随机森林介绍
5、基于Python的用户流失模型开发
6、模型测试
项目实战:mlflow+AI数据分析模型管理工具实战 1、mlflow架构介绍
2、mlflow功能及应用场景介绍
3、使用mlflow管理数据分析模型
4、模型管理(模型跟踪、模型管理、模型注册、发布等)
5、模型rest api使用
6、pyspark+mlflow数据分析模型实战
项目实战二: PySpark数据分析营销案例实战 1、数据概况分析
• 数据概况
• 数据清洗
2、单变量分析
• 观察样本0、1的平衡性
• 观察均值大小
• 可视化
3、相关性分析和可视化
4、逻辑回归模型的建立和评估
• 模型建立
• 模型评估
• 模型优化
5、业务价值
6、模型管理、发布和调用
项目实战:Chat2SQL AI大模型数据分析案例实战 1、数据分析业务场景介绍
2、Chat2SQL实现的关键路径
3、业务知识、黑话和业务常识管理
4、元数据梳理
5、SQL生成智能体架构演变介绍
6、SQL生成和SQL仲裁
7、整体实例介绍
8、结果展示和反馈
数据分析和数据挖掘体系及方法论
数据思维的概念
数据思维的特点
数据思维的方法论
数据思维的应用价值
数据思维的应用流程
数据思维的模式
— 全量数据思维
— 容错性思维
— 相关性思维
数据分析和挖掘流程介绍
数据挖掘的基本任务
定义分析和挖掘目标
数据取样
数据探索
单变量数据探索
数据关联性分析
数据预处理
数据特征工程构建和选择
挖掘建模
模型评价
数据分析和挖掘常用的工具
Jupyter工具介绍和使用
Numpy基本使用
Pandas基本使用
数据加载与处理
Pandas分组与合并
Pandas时间序列
Matplotlib基本使用
Scikit-Learn基本使用
PySpark工具介绍
AI大模型‌‌PyTorch‌工具介绍
项目实战:用户消费行为数据分析实战
1、项目介绍和需求分析
2、数据介绍和数据导入
3、数据预处理
4、用户个体消费数据分析
5、用户消费行为数据分析
6、用户分层RFM模型
7、新用户、活跃用户、回流用户和用户流失分析
8、用户购买周期分析
9、用户生命周期分析
10、用户复购率分析
11、用户回购分析
12、用户营销和推荐分析
13、项目总结和报告撰写
项目实战:PySpark用户流失模型实战
1、技术架构介绍
2、流失模型构建
3、数据清洗和转换
—空值和异常值处理
—数据归一化
—特征提取
—特征的降维和升维
—文本的数据化
4、决策树和随机森林介绍
5、基于Python的用户流失模型开发
6、模型测试
项目实战:mlflow+AI数据分析模型管理工具实战
1、mlflow架构介绍
2、mlflow功能及应用场景介绍
3、使用mlflow管理数据分析模型
4、模型管理(模型跟踪、模型管理、模型注册、发布等)
5、模型rest api使用
6、pyspark+mlflow数据分析模型实战
项目实战二: PySpark数据分析营销案例实战
1、数据概况分析
• 数据概况
• 数据清洗
2、单变量分析
• 观察样本0、1的平衡性
• 观察均值大小
• 可视化
3、相关性分析和可视化
4、逻辑回归模型的建立和评估
• 模型建立
• 模型评估
• 模型优化
5、业务价值
6、模型管理、发布和调用
项目实战:Chat2SQL AI大模型数据分析案例实战
1、数据分析业务场景介绍
2、Chat2SQL实现的关键路径
3、业务知识、黑话和业务常识管理
4、元数据梳理
5、SQL生成智能体架构演变介绍
6、SQL生成和SQL仲裁
7、整体实例介绍
8、结果展示和反馈

课程费用

6800.00 /人

课程时长

2

课程排期 (更新日期:2025.12.15)

scheduling->endTime - $model->scheduling->startTime) / 86400 ) ?>
2025.12.27 -2025.12.28
未定

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求