欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

spark平台基本组成(spark安装详细教程)

程序员文章站 2023-11-21 19:53:28
提起大数据技术,我们常常会想到大数据技术所需要的生态平台hadoop和spark,其中的spark的概念及学习路线是如何的呢?一起来跟小编看看吧~一、spark概念1、spark描述apache sp...

提起大数据技术,我们常常会想到大数据技术所需要的生态平台hadoop和spark,其中的spark的概念及学习路线是如何的呢?一起来跟小编看看吧~

spark平台基本组成(spark安装详细教程)

一、spark概念

1、spark描述

apache spark是专为大规模数据处理而设计的快速通用的计算引擎。

spark是一种与hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使spark在某些工作负载方面表现得更加优越,因为spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

spark是在scala语言中实现的,它将scala用作其应用程序框架。

spark和scala能够紧密集成,其中的scalable可以像操作本地集合对象一样轻松地操作分布式数据集。

2、spark特点

① 高级api将焦点从集群本身剥离出来,spark应用程序开发人员可以将焦点放在应用程序需要执行的计算本身。

② spark速度快,支持交互式计算和复杂算法。

③ spark是一个通用的引擎,它可以用来完成各种操作,包括sql查询、文本处理、机器学习等,在spark出现之前,我们一般需要学习各种引擎来处理这些需求。

spark平台基本组成(spark安装详细教程)

二、spark学习路线

spark的学习路线可以分成编程语言、linux、spark三个阶段来学习。

1、编程语言

学习spark主要学习java和scala这两种编程语言。

① java学习:javase基础语法、java面向对象、javase api、线程、网络编程、反射基本原理。

② scala学习:scala基础语言、scala类、scala对象、scala特征、scala模式匹配,其中需要重点掌握scala的trait、apply、函数式编程、泛型、逆变与协变等。

2、linux

spark是基于linux系统开发并运行的,因此需要学习linux系统。

linux:linux基础知识、centos、maven。

3、spark

在spark阶段中主要学习spark编程模型、spark内核、sparksql、sparkstreaming。

① spark编程模型:spark模型组成、spark弹性分布式数据集rdd、spark转换transformation、spark操作actions。

 spark内核:spark专业术语定义、spark运行原理、spark运行基本流程、spark运行架构特点、spark核心原理透视、spark运行模式、standalone运行模式、yarn-client运行模式、yarn-cluster运行模式。

 sparksql:sparksql概念、overview、sparksql程序开发数据源、sparksql程序开发dataframe、sparksql程序开发dataset、sparksql程序开发数据类型。

④ sparkstreaming:spark streming概念、spark streaming执行步骤、sparkstreaming程序开发dstream的输入源、sparkstreaming程序开发dstream的操作、sparkstreaming程序开发程序开发–性能优化、sparkstreaming程序开发容错容灾。

spark平台基本组成(spark安装详细教程)

spark作为大数据技术的重要内容之一,是每一个学习大数据的同学所要必学的生态框架,通过这篇文章大家掌握到spark的概念及学习路线了吗?