欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
  • SparkSQL执行时参数优化

    具体现象 内存CPU比例失调 一个Spark任务消耗 120(executor)*4G = 480G内存仅仅使用120个 core.几个SprakSQL任务就将整个系统资源吃光. 设置超过40个executor,但未指定分区数,导致多数executor空闲. 原因分析 SparkSQL配置时Core ...

    程序员文章站2023-03-29
  • 浅谈DataFrame和SparkSql取值误区

    1、dataframe返回的不是对象。 2、dataframe查出来的数据返回的是一个dataframe数据集。 3、dataframe只有遇见action的算子才能执

    程序员文章站2023-01-10
  • SparkSQL使用说明与DataFrame创建

    Spark SQL使用说明与DataFrame创建 启动spark-shell 由于spark-shell演示具有显而易见的有点,因此本文主要基于spark-shell对Spa

    程序员文章站2022-12-10
  • Linux中SparkSQL分布式SQL引擎部署RDB|安装MySQL+Hive(教程)

    ● 部署MySQL # 查找并删除本地MySQL rpm -qa | grep mysql rpm -e mysql-libs-5.1.66-2.el6_3.i686 -

    程序员文章站2022-11-03
  • SparkSQL & Scala

    SparkSQL & Scala

    Spark SQL重度依赖Scala的语言特性,让SQL编译程序变得简单直接,特别是Spark SQL其核心代码库Tree结构,作者用直接明了的展示了代码,如何完成语法树的操作和变化,包括基于规则的性能优化等,把Scala语言的特性发挥淋漓极致,是学习Spark SQL内核代码的必备教材。 精力有限 ...

    程序员文章站2022-10-30
    IT编程
  • DataFrame:通过SparkSql将scala类转为DataFrame的方法

    如下所示: import java.text.decimalformat import com.alibaba.fastjson.json import co

    程序员文章站2022-10-29
  • 【大数据】SparkSql 连接查询中的谓词下推处理 (一)

    【大数据】SparkSql 连接查询中的谓词下推处理 (一)

    SparkSql 是架构在 Spark 计算框架之上的分布式 Sql 引擎,使用 DataFrame 和 DataSet 承载结构化和半结构化数据来实现数据复杂查询处理,提供的 DSL可以直接使用 scala 语言完成 Sql 查询,同时也使用 thriftserver 提供服务化的 Sql 查询... ...

    程序员文章站2022-09-28
    IT编程
  • 【大数据】SparkSql 连接查询中的谓词下推处理 (二)

    【大数据】SparkSql 连接查询中的谓词下推处理 (二)

    本篇文章要介绍的是--外连接查询中的谓词下推规则,这相比内连接中的规则要复杂一些,不过使用简单的表格来进行分析也是可以分析清楚的。 ...

    程序员文章站2022-08-14
    IT编程
  • spark连接hive,使用sparksql处理hive中的数据

    spark连接到hive首先要先配置3个文件,放到idea的resource目录下,如下:core-site.xml从集群环境中拉下来。hdfs-site.xml从环境中拉下来hive-site.xml:<configuration><property><name>...

    程序员文章站2022-07-14
  • 使用idea, sparksql读取hive中的数据

    将hive下的conf的hive-site.xml配置文件放在resources下;在应用 pom.xml中配置jar; <dependency> <groupId>org.apache.spark</groupId> <artif...

    程序员文章站2022-07-14
  • SparkSQL中DataFrame registerTempTable源码浅析

    dataFrame.registerTempTable(tableName);  最近在使用SparkSQL时想到1万条数据注册成临时表和1亿条数据注册成临时表时,效率上是否会有很大的差距,也对DataFrame注册成临时表到底做了哪些比较好奇,拿来源码拜读了下相关部分,记录一下。 临时表的生命周期...

    程序员文章站2022-07-13
  • IDEA开发SparkSQL报错:org.apache.spark.SparkException: A master URL must be set in your configuration

    IDEA开发SparkSQL报错:org.apache.spark.SparkException: A master URL must be set in your configuration

    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties20/08/06 10:33:42 INFO SparkContext: Running Spark version 2.4.420/08/0...

    程序员文章站2022-07-12
  • SparkSQL——用之惜之

    SparkSQL——用之惜之

    SparkSql作为Spark的结构化数据处理模块,提供了非常强大的API,让分析人员用一次,就会为之倾倒,为之着迷,为之至死不渝。在内部,SparkSQL使用额外结构信息来执行额外的优化。在外部,可以使用SQL和DataSet 的API与之交互。本文笔者将带你走进SparkSql的世界,领略Spa ...

    程序员文章站2022-07-08
    IT编程
  • Spark学习(12)之流式计算SparkStreaming中的sparkSql

    我们可以使用sparkSql来计算实时流中离散的RDD,通过把DStream转化成DF, 然后在创建视图,再使用SparkSession执行标准的sql语句就可以。通过下面代码,我们可以发现这里创建DataFrame和以前的稍微有点差别,通过直接给DF指定字段来创建DataFrame的结构,这个指定...

    程序员文章站2022-07-06
  • SparkSQL大数据实战:揭开Join的神秘面纱

    SparkSQL大数据实战:揭开Join的神秘面纱

    本文来自 网易云社区 。 Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。 Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-wher ...

    程序员文章站2022-07-05
    IT编程
  • SparkSQL读取hive数据本地idea运行的方法详解

    SparkSQL读取hive数据本地idea运行的方法详解

    环境准备:hadoop版本:2.6.5spark版本:2.3.0hive版本:1.2.2master主机:192.168.100.201slave1主机:192.168.100.201pom.xml依

    程序员文章站2022-07-02
    IT编程
  • 创建SparkSession和sparkSQL的详细过程

    创建SparkSession和sparkSQL的详细过程

    目录二、创建sparksession三、 sqlcontext四、 hivecontext一、概述spark 有三大引擎,spark core、sparksql、sparkstreaming,spar

    程序员文章站2022-06-24
    IT编程
  • sparksql 概述

    sparksql 概述

    什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...

    程序员文章站2022-06-17
    IT编程
  • sparksql与hive整合

    hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</valu...

    程序员文章站2022-06-14
  • sparksql与hive整合

    hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</valu...

    程序员文章站2022-06-14