『 Spark 』4. spark 之 RDD
原文链接写在前面本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,...
程序员文章站2024-03-24RDD转换算子、行动算子
RDD转换算子 对于转换操作,RDD的所有转换都不会直接计算结果 仅记录作用于RDD上的操作 当遇到动作算子(Action)时才会进行真正计算RDD常用的转换算子 map算子 对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应 输...
程序员文章站2024-03-22spark RDD算子(五)之键值对聚合操作combineByKey
combineByKey 聚合函数一般在集中式数据比较方便,如果涉及到分布式的数据集,该如何去实现呢;这里介绍一下combineByKey,这个是各种聚集操作的鼻祖 简要介绍def combineByKey[C] (createCombiner: (V) => C,mergeValue: (C...
程序员文章站2024-03-22SparkCore>RDD基础练习[快速演示]
文章目录集群模式启动分区原则RDD (API)mapfilterflatmapsortBy交集、并集、差集、笛卡尔积joingroupbykeycogroup[了解]groupByreducereducebykeyrepartitioncollectcountdistincttoptakefirst...
程序员文章站2024-03-22Spark基础篇(三)- 创建RDD的前提(先创建SparkContext、SparkConf)
一、RDD五大特性回顾二、创建Spark应用程序前需要创建SparkContext2.1、官网对于SparkConf的描述2.2、spark-submit的最佳实践三、使用idea构建SparkContext3.1、spark-shell查看命令帮助&&在客户端中使用3.2、此处涉及...
程序员文章站2024-03-2216.RDD 实战 博客分类: spark内核解密 sparkrddtransformationmapreduce
由于RDD的不可修改的特性,导致RDD的操作与正常面向对象的操作不同,RDD的操作基本分为3大类:transformation,action,contoller1. TransformationTransformation是通过转化针对已有的RDD创建出新的RDDmap(func):对调用map...
程序员文章站2024-03-21RDD持久化原理与共享变量
RDD 持久化工作原理Spark非常重要的一个功能特性就是可以将RDD 持久化在内存中,当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition,这样的话,对于针对一个RDD反复执行多个操作的...
程序员文章站2024-03-14Spark之【RDD编程】详细讲解(No6)——《RDD缓存与CheckPoint》
本篇博客是Spark之【RDD编程】系列第六篇,为大家介绍的是RDD缓存与CheckPoint。 该系列内容十分丰富,高能预警,先赞后看!文章目录7.RDD缓存8.RDD CheckPoint7.RDD缓存 RDD通过persist方法或cache方法可以...
程序员文章站2024-03-14spark - RDD转成DataFrame 博客分类: spark sparkRDD转成DataFrame
1.RDD转成DataFrame的两种方式:package dfimport org.apache.spark.sql.{Row, SparkSession}object RDD2DataFrame { case class Person(name: String, score: Int) de...
程序员文章站2024-03-12从RDD角度来剖析Spark内部原理
从RDD角度来剖析Spark内部原理1 Spark的核心 — RDD?1.1 RDD的5个属性1.2 RDD的特性1.3 What's RDD?在物理上,RDD对象实质上是一个 元数据结构,存储着 Block、Node等的映射关系,以及其他的元数据信息。一个RDD就是一组分区,在物理存储上,RDD的...
程序员文章站2024-02-29Spark rdd reduceByKey使用
它比groupby快,本地合并,代码看下面。(注意这是我自己项目里copy的代码,不能直接使用,你得定义一个key->(v1,v2))//reduceBykey相同的key的value 在一起你让它干嘛//x和y代表所有的2个value遇到干嘛,最后返回的还是key->(value1,v...
程序员文章站2024-02-21Spark学习笔记之Spark中的RDD的具体使用
1. spark中的rdd resilient distributed datasets(弹性分布式数据集) spark中的最基本的抽象 有了rdd的
程序员文章站2024-02-15Stata: 断点回归 (RDD) 教程
作者:张子楠 (浙江财经大学)Stata 连享会: 知乎 | 简书 | 码云 | CSDN | StataChina公众号Stata连享会 计量专题 || 精品课程 || 简书推文 || 公众号合集 连享会计量方法专题……文章目录连享会计量方法专题……1. RDD基本原理2. 图形观察2.1 ...
程序员文章站2024-02-11断点回归RDD:样本少时如何做?
编译:李琼琼 (山东大学)Email: [email protected]Source: Cattaneo, Matias, D, et al. Inference in regression discontinuity designs under local randomization[J]. T...
程序员文章站2024-02-11Spark_RDD
RDD弹性分布式数据集,就像Numpy array和Pandas Series,可以看作是一个有序的item集合,只不过这些item被分隔为多个partitions,分布在不同的机器上,1.请简述RDD的含义,并写出针对RDD的两类操作(transformation与action),每类下至少三种的...
程序员文章站2024-01-30spark笔记(二)之RDD常用算子
大家好!下面是我在疫情假期期间学习的saprk算子笔记,刚刚用了一下午的时间把它整理出来分享给大家!码字实属不易如果对你有帮助,记得点赞呦!文章目录一.spark行动算子二.spark单value类型三.spark双value类型四.spark算子KV类型一.spark行动算子1.reduce( f...
程序员文章站2024-01-30pysparkDataFrame转RDD
pysparkDataFrame转RDD # -*- coding: utf-8 -*- from __future__ import print_function from pys
程序员文章站2024-01-30Spark学习笔记3——RDD(下)
Spark 的 RDD 学习第二节,笔记相关: 1.如何向 Spark 传递函数 2.Spark 常用的一些转化和行动操作 3.Spark 的持久化级别 ...
程序员文章站2024-01-19RDD简介
从源码来看,RDD是被定义为了一个抽象基类,里面定义了像compute(计算分区),getPartitions(获取分片),getDependencies(获取依赖)等抽象函数及一系列基本函数(catch,persist,checkpointRDD)。然后具体的像 jdbcRDD, Hado...
程序员文章站2024-01-18RDD简介
从源码来看,RDD是被定义为了一个抽象基类,里面定义了像compute(计算分区),getPartitions(获取分片),getDependencies(获取依赖)等抽象函数及一系列基本函数(catch,persist,checkpointRDD)。然后具体的像 jdbcRDD, Hado...
程序员文章站2024-01-18