SparkSQL执行时参数优化
具体现象 内存CPU比例失调 一个Spark任务消耗 120(executor)*4G = 480G内存仅仅使用120个 core.几个SprakSQL任务就将整个系统资源吃光. 设置超过40个executor,但未指定分区数,导致多数executor空闲. 原因分析 SparkSQL配置时Core ...
程序员文章站2023-03-29浅谈DataFrame和SparkSql取值误区
1、dataframe返回的不是对象。 2、dataframe查出来的数据返回的是一个dataframe数据集。 3、dataframe只有遇见action的算子才能执
程序员文章站2023-01-10SparkSQL使用说明与DataFrame创建
Spark SQL使用说明与DataFrame创建 启动spark-shell 由于spark-shell演示具有显而易见的有点,因此本文主要基于spark-shell对Spa
程序员文章站2022-12-10Linux中SparkSQL分布式SQL引擎部署RDB|安装MySQL+Hive(教程)
● 部署MySQL # 查找并删除本地MySQL rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6_3.i686 -
程序员文章站2022-11-03SparkSQL & Scala
Spark SQL重度依赖Scala的语言特性,让SQL编译程序变得简单直接,特别是Spark SQL其核心代码库Tree结构,作者用直接明了的展示了代码,如何完成语法树的操作和变化,包括基于规则的性能优化等,把Scala语言的特性发挥淋漓极致,是学习Spark SQL内核代码的必备教材。 精力有限 ...
程序员文章站2022-10-30IT编程DataFrame:通过SparkSql将scala类转为DataFrame的方法
如下所示: import java.text.decimalformat import com.alibaba.fastjson.json import co
程序员文章站2022-10-29【大数据】SparkSql 连接查询中的谓词下推处理 (一)
SparkSql 是架构在 Spark 计算框架之上的分布式 Sql 引擎,使用 DataFrame 和 DataSet 承载结构化和半结构化数据来实现数据复杂查询处理,提供的 DSL可以直接使用 scala 语言完成 Sql 查询,同时也使用 thriftserver 提供服务化的 Sql 查询... ...
程序员文章站2022-09-28IT编程【大数据】SparkSql 连接查询中的谓词下推处理 (二)
本篇文章要介绍的是--外连接查询中的谓词下推规则,这相比内连接中的规则要复杂一些,不过使用简单的表格来进行分析也是可以分析清楚的。 ...
程序员文章站2022-08-14IT编程spark连接hive,使用sparksql处理hive中的数据
spark连接到hive首先要先配置3个文件,放到idea的resource目录下,如下:core-site.xml从集群环境中拉下来。hdfs-site.xml从环境中拉下来hive-site.xml:<configuration><property><name>...
程序员文章站2022-07-14使用idea, sparksql读取hive中的数据
将hive下的conf的hive-site.xml配置文件放在resources下;在应用 pom.xml中配置jar; <dependency> <groupId>org.apache.spark</groupId> <artif...
程序员文章站2022-07-14SparkSQL中DataFrame registerTempTable源码浅析
dataFrame.registerTempTable(tableName); 最近在使用SparkSQL时想到1万条数据注册成临时表和1亿条数据注册成临时表时,效率上是否会有很大的差距,也对DataFrame注册成临时表到底做了哪些比较好奇,拿来源码拜读了下相关部分,记录一下。 临时表的生命周期...
程序员文章站2022-07-13IDEA开发SparkSQL报错:org.apache.spark.SparkException: A master URL must be set in your configuration
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties20/08/06 10:33:42 INFO SparkContext: Running Spark version 2.4.420/08/0...
程序员文章站2022-07-12SparkSQL——用之惜之
SparkSql作为Spark的结构化数据处理模块,提供了非常强大的API,让分析人员用一次,就会为之倾倒,为之着迷,为之至死不渝。在内部,SparkSQL使用额外结构信息来执行额外的优化。在外部,可以使用SQL和DataSet 的API与之交互。本文笔者将带你走进SparkSql的世界,领略Spa ...
程序员文章站2022-07-08IT编程Spark学习(12)之流式计算SparkStreaming中的sparkSql
我们可以使用sparkSql来计算实时流中离散的RDD,通过把DStream转化成DF, 然后在创建视图,再使用SparkSession执行标准的sql语句就可以。通过下面代码,我们可以发现这里创建DataFrame和以前的稍微有点差别,通过直接给DF指定字段来创建DataFrame的结构,这个指定...
程序员文章站2022-07-06SparkSQL大数据实战:揭开Join的神秘面纱
本文来自 网易云社区 。 Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-wher ...
程序员文章站2022-07-05IT编程SparkSQL读取hive数据本地idea运行的方法详解
环境准备:hadoop版本:2.6.5spark版本:2.3.0hive版本:1.2.2master主机:192.168.100.201slave1主机:192.168.100.201pom.xml依
程序员文章站2022-07-02IT编程创建SparkSession和sparkSQL的详细过程
目录二、创建sparksession三、 sqlcontext四、 hivecontext一、概述spark 有三大引擎,spark core、sparksql、sparkstreaming,spar
程序员文章站2022-06-24IT编程sparksql 概述
什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
程序员文章站2022-06-17IT编程sparksql与hive整合
hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</valu...
程序员文章站2022-06-14sparksql与hive整合
hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</valu...
程序员文章站2022-06-14