议程

计划时间表

开始时间 持续 培训类型 课题
09:30am 25 mins Presentation 介绍数据分析动手训练营
09:55am 45 mins Presentation 模块1:什么是数据分析&客户的数据分析现状和趋势
10:40am 15 mins Demo/Q&A 演示:AWS上无服务器数据分析场景演示、讨论和问答
10:55am 15 mins N/A 休息
11:10am 45 mins Presentation 模块2: 数据的摄取和存储
11:55am 35 mins Lab 实验1:DMS 将数据从 S3 加载到 DyanamoDB
12:30pm 1 hour N/A 午餐
01:30pm 30 mins Lab 实验2:Kinesis 接入实时数据流
02:00pm 45 mins Presentation 模块3: 数据的ETL处理过程
02:45pm 45 mins Lab 实验3: Glue catalog & Glue ETL
03:30pm 20 mins Presentation 模块4: 数据分析和可视化
03:50pm 15 mins N/A 休息
04:05pm 35 mins Lab 实验4: Athena+superset数据可视化
04:40pm 40 mins Lab 实验5: sagemaker进行数据湖上的机器学习
05:20pm 20 mins Presentation 培训总结
05:40pm 10 mins N/A 清理环境及检查
05:50pm 10 mins N/A 反馈收集

可选进阶内容

预计完成用时 课题 实验组件
120 mins 模块6: 合作伙伴产品及流行的开源组合 实验6: Airflow & Amazon EMR spot
160 mins 模块7: 使用EMR上的近实时增量数据 实验7: EMR Spark Streaming & Apach Hudi & AWS MSK
160 mins 模块8: EMR上的hive和spark作业调优实践 实验8: TPC-DS Hive & spark 调参与最佳实践
120 mins 模块9: 自动化弹性的数据分析平台 实验9: EMR auto scaling
120 mins 模块10: 无服务器查询引擎 实验10: Athena联邦查询和用户自定义函数
160 mins 模块11: 数据湖安全与权限管理 实验11: EMR multi-tenant & Ranger