在当今数据驱动业务的时代,大数据已经成为企业业务驱动的利器之一,Amazon EMR 是一个托管集群平台,可简化在 AWS 上运行大数据框架的过程,使组织能够在几分钟内启动具有多个实例的集群,让您能够轻松经济的通过并行处理来处理各种数据工程和商业智能工作负载。在Amazon EMR中,我们经常会用到Apache Hadoop,Apache Spark等大数据框架运行我们的海量数据处理作业,而基于内存计算的Apache Spark框架,毫无疑问在批处理或是流处理领域都是EMR中最热门的点选组件之一。面向企业数据工程师,我们可能需要一两天学习并编写完我们的第一个Spark作业,而针对Spark的作业进行调整和优化则拥有不断完善的空间。
https://aws.amazon.com/cn/blogs/china/spark-job-ptimization-practice-on-emr/
本章节我们将通过一次Spark作业的调优实践,测试不同参数和配置下的作业运行效果,深入的解读EMR中运行Spark多项重要配置参数意义,这些参数将影响包括性能优化,资源分配,成本降低,编码/配置作业中的常见错误等。
实践中,我们将以150G的TXT格式公开数据集作为测试对象,使用Amazon EC2下载并将数据导入到Amazon S3,使用Amazon EMR集群运行Apache Spark进行数据处理,我们也将在该环节进行多种配置参数的调测并重点展开。