课程简介
本课程是一门系统性的数据分析实战培训,旨在帮助学员构建从数据思维到技术实践的全方位能力。课程从数据思维的核心方法论入手,结合大数据平台的实际应用案例,详细讲解数据分析与挖掘的标准流程。学员将深入学习Python数据分析库(如Numpy、Pandas)和强大的分布式计算框架Spark及其SQL组件、编程模型。课程 culminates 在一个完整的PySpark营销案例实战中,带领学员从数据清洗、探索分析到建立与评估逻辑回归模型,并引入MLFlow进行模型管理,最终实现从数据到商业价值的闭环,提升在真实业务场景中解决复杂数据问题的能力。
目标收益
培训对象
课程大纲
| 数据分析和数据挖掘体系及方法论 |
数据思维的概念 数据思维的特点 数据思维的方法论 数据思维的应用价值 数据思维的应用流程 数据思维的模式 — 全量数据思维 — 容错性思维 — 相关性思维 |
| 数据分析和挖掘流程介绍 |
数据挖掘的基本任务 定义分析和挖掘目标 数据取样 数据探索 单变量数据探索 数据关联性分析 数据预处理 数据特征工程构建和选择 挖掘建模 模型评价 |
| 数据分析和挖掘常用的工具 |
Jupyter工具介绍和使用 Numpy基本使用 Pandas基本使用 数据加载与处理 Pandas分组与合并 Pandas时间序列 Matplotlib基本使用 Scikit-Learn基本使用 PySpark工具介绍 AI大模型PyTorch工具介绍 |
| 项目实战:用户消费行为数据分析实战 |
1、项目介绍和需求分析 2、数据介绍和数据导入 3、数据预处理 4、用户个体消费数据分析 5、用户消费行为数据分析 6、用户分层RFM模型 7、新用户、活跃用户、回流用户和用户流失分析 8、用户购买周期分析 9、用户生命周期分析 10、用户复购率分析 11、用户回购分析 12、用户营销和推荐分析 13、项目总结和报告撰写 |
| 项目实战:PySpark用户流失模型实战 |
1、技术架构介绍 2、流失模型构建 3、数据清洗和转换 —空值和异常值处理 —数据归一化 —特征提取 —特征的降维和升维 —文本的数据化 4、决策树和随机森林介绍 5、基于Python的用户流失模型开发 6、模型测试 |
| 项目实战:mlflow+AI数据分析模型管理工具实战 |
1、mlflow架构介绍 2、mlflow功能及应用场景介绍 3、使用mlflow管理数据分析模型 4、模型管理(模型跟踪、模型管理、模型注册、发布等) 5、模型rest api使用 6、pyspark+mlflow数据分析模型实战 |
| 项目实战二: PySpark数据分析营销案例实战 |
1、数据概况分析 • 数据概况 • 数据清洗 2、单变量分析 • 观察样本0、1的平衡性 • 观察均值大小 • 可视化 3、相关性分析和可视化 4、逻辑回归模型的建立和评估 • 模型建立 • 模型评估 • 模型优化 5、业务价值 6、模型管理、发布和调用 |
| 项目实战:Chat2SQL AI大模型数据分析案例实战 |
1、数据分析业务场景介绍 2、Chat2SQL实现的关键路径 3、业务知识、黑话和业务常识管理 4、元数据梳理 5、SQL生成智能体架构演变介绍 6、SQL生成和SQL仲裁 7、整体实例介绍 8、结果展示和反馈 |
|
数据分析和数据挖掘体系及方法论 数据思维的概念 数据思维的特点 数据思维的方法论 数据思维的应用价值 数据思维的应用流程 数据思维的模式 — 全量数据思维 — 容错性思维 — 相关性思维 |
|
数据分析和挖掘流程介绍 数据挖掘的基本任务 定义分析和挖掘目标 数据取样 数据探索 单变量数据探索 数据关联性分析 数据预处理 数据特征工程构建和选择 挖掘建模 模型评价 |
|
数据分析和挖掘常用的工具 Jupyter工具介绍和使用 Numpy基本使用 Pandas基本使用 数据加载与处理 Pandas分组与合并 Pandas时间序列 Matplotlib基本使用 Scikit-Learn基本使用 PySpark工具介绍 AI大模型PyTorch工具介绍 |
|
项目实战:用户消费行为数据分析实战 1、项目介绍和需求分析 2、数据介绍和数据导入 3、数据预处理 4、用户个体消费数据分析 5、用户消费行为数据分析 6、用户分层RFM模型 7、新用户、活跃用户、回流用户和用户流失分析 8、用户购买周期分析 9、用户生命周期分析 10、用户复购率分析 11、用户回购分析 12、用户营销和推荐分析 13、项目总结和报告撰写 |
|
项目实战:PySpark用户流失模型实战 1、技术架构介绍 2、流失模型构建 3、数据清洗和转换 —空值和异常值处理 —数据归一化 —特征提取 —特征的降维和升维 —文本的数据化 4、决策树和随机森林介绍 5、基于Python的用户流失模型开发 6、模型测试 |
|
项目实战:mlflow+AI数据分析模型管理工具实战 1、mlflow架构介绍 2、mlflow功能及应用场景介绍 3、使用mlflow管理数据分析模型 4、模型管理(模型跟踪、模型管理、模型注册、发布等) 5、模型rest api使用 6、pyspark+mlflow数据分析模型实战 |
|
项目实战二: PySpark数据分析营销案例实战 1、数据概况分析 • 数据概况 • 数据清洗 2、单变量分析 • 观察样本0、1的平衡性 • 观察均值大小 • 可视化 3、相关性分析和可视化 4、逻辑回归模型的建立和评估 • 模型建立 • 模型评估 • 模型优化 5、业务价值 6、模型管理、发布和调用 |
|
项目实战:Chat2SQL AI大模型数据分析案例实战 1、数据分析业务场景介绍 2、Chat2SQL实现的关键路径 3、业务知识、黑话和业务常识管理 4、元数据梳理 5、SQL生成智能体架构演变介绍 6、SQL生成和SQL仲裁 7、整体实例介绍 8、结果展示和反馈 |
近期公开课推荐