Spark-SQL学习笔记之Datasets and DataFrames

程序员文章站 2022-06-23 16:31:49

概述 spark sql是spark中的一个模块，负责结构化数据的处理。它跟spark rdd api不一样，spark sql提供的接口会提供更多关于数据和执行计算的信息。在内部，spark sq...

概述

spark sql是spark中的一个模块，负责结构化数据的处理。它跟spark rdd api不一样，spark sql提供的接口会提供更多关于数据和执行计算的信息。在内部，spark sql使用这些额外的信息去执行额外的优化。可以通过sql 和 dataset api与spark sql进行交互。当使用同一个执行引擎得到的计算结果，它是不会依赖于使用的api/语言。这意味着开发人员能更容易的在不同api进行切换。

sql

spark sql可以执行sql的查询，也可以从现有的hive中读取数据。当从另一种编程语言中运行sql时，结果将作为一个dataset/dataframe返回。可以通过命令行或者jdbc/odbc与sql进行交互。

其实spark sql的功能不仅仅只是sql的功能，它比sql拥有更多的功能。

datasets and dataframes

一个dataset是一个分部的数据集。dataset是spark 1.6中新增的一个新接口它有利于rdds和spark sql中的优化引擎。一个dataset可以jvm的对象中构建还可以被transformations函数(map,flatmap,filter,etc)操作。dataset的api可以用于scala和java。不适用于python和r语言。

一个dataframe是一个被加入列名的dataset。从概念上理解可以等同于关系型里的一张表。dataframe的构建数据源有很多，例如：结构化文件，hive中的表，外部数据库，或者已存在的rdds。dataframe api 可以用于scala,java,python 和 r语言。scala api中，dataframe进进是dataset[row]的别名。java api中为dataset

创建一个dataframes

package com.hihi.learn.sparksql

import com.hihi.learn.sparksql.datasetsdemo.person
import org.apache.spark.sql.types.{stringtype, structfield, structtype}
import org.apache.spark.sql.{dataframe, row, sparksession}

import scala.collection.mutable.arraybuffer

object dataframedemo {
  case class person(name: string, age: long)
  def main(args: array[string]): unit = {
    // 创建sparksession，此为spark sql的入口
    val spark = sparksession
      .builder()
      .appname("spark sql basic example")
      .master("local[2]")
      .getorcreate()
    import spark.implicits._
    //creating dataframes
    val df = spark.read.format("json").load("e:\\spark-branch-2.2\\examples\\src\\main\\resources\\people.json")
    //df.show()
    /*
    +----+-------+
    | age|   name|
    +----+-------+
    |null|michael|
    |  30|   andy|
    |  19| justin|
    +----+-------+
    */

    // 使用算子操作dataframe
    //untypeddatasetoperations(df)

    // 使用sql编程方式
    runningsqlqueriesprogrammatically(spark, df)
    // interoperating with rdds
    val peopledf = spark.sparkcontext.textfile("e:\\spark-branch-2.2\\examples\\src\\main\\resources\\people.txt")
      .mappartitions(its => {
        var arrperson = arraybuffer[person]()
        for (it <- its) {
          val arr = it.split(",")
          arrperson += person(arr(0), arr(1).trim.tolong)
        }
        arrperson.toiterator
      })
      .todf().show

    // programmatically specifying the schema
    val personds4 = spark.sparkcontext.textfile("e:\\spark-branch-2.2\\examples\\src\\main\\resources\\people.txt")
    val schemastring = "name age"
    val fields = schemastring.split(" ").map(structfield(_, stringtype, nullable = true))
    val schema = structtype(fields)

    val rowrdd = personds4
      .map(_.split(","))
      .map(attributes => row(attributes(0), attributes(1).trim))

    val peopledf2 = spark.createdataframe(rowrdd, schema)
    peopledf2.show()
    spark.stop()

  }

  def untypeddatasetoperations(df:dataframe): unit = {

    // 打印schema
    df.printschema()
    // root
    // |-- age: long (nullable = true)
    // |-- name: string (nullable = true)

    // 查询 name
    df.select("name").show
    // +-------+
    // |   name|
    // +-------+
    // |michael|
    // |   andy|
    // | justin|
    // +-------+

    // 查询age > 21的数据
    df.filter("age > 21").show
    // +---+----+
    // |age|name|
    // +---+----+
    // | 30|andy|
    // +---+----+

    // 使用分组
    df.groupby("age").count.show()
    // +----+-----+
    // | age|count|
    // +----+-----+
    // |  19|    1|
    // |null|    1|
    // |  30|    1|
    // +----+-----+
  }

  def runningsqlqueriesprogrammatically(spark: sparksession, df: dataframe) : unit = {
    // 注册一张临时表
    df.createorreplacetempview("people")

    spark.sql("select name, age from people").show()
    // +----+-------+
    // | age|   name|
    // +----+-------+
    // |null|michael|
    // |  30|   andy|
    // |  19| justin|
    // +----+-------+

    spark.sql("select name, age from people where name = 'andy'").show
    // +----+---+
    // |name|age|
    // +----+---+
    // |andy| 30|
    // +----+---+
  }

}

创建一个datasets

package com.hihi.learn.sparksql

import org.apache.spark.sql.{row, sparksession}
import org.apache.spark.sql.types.{stringtype, structfield, structtype}

import scala.collection.mutable.arraybuffer


object datasetsdemo {

  case class person(name: string, age: long)

  def main(args: array[string]): unit = {
    val spark = sparksession
      .builder()
      .appname("datasetsdemo")
      .master("local")
      .getorcreate()

    // creating datasets
    import spark.implicits._
    val personds = seq(person("hihi", 22), person("tom", 11)).tods
    personds.show

    val personds2 = spark.read.format("json").load("e:\\spark-branch-2.2\\examples\\src\\main\\resources\\people.json").as[person]
    personds2.show

    spark.stop()
  }
}

上一篇： 1499元！小米平板3发布 4GB内存颜值爆表

下一篇： CSP201503-1：图像旋转

Spark-SQL学习笔记之Datasets and DataFrames

概述

sql

datasets and dataframes

创建一个dataframes

创建一个datasets

HTML5学习笔记之html5与传统html区别

PHP学习笔记之字符串编码的转换和判断

Smarty模板学习笔记之Smarty简介

canvas学习笔记之绘制简单路径

Docker学习笔记之Docker端口映射

Android学习笔记之ActionBar Item用法分析

Python学习笔记之pandas索引列、过滤、分组、求和功能示例

Python学习笔记之抓取某只基金历史净值数据实战案例

java9学习笔记之模块化详解

Python ORM框架SQLAlchemy学习笔记之数据查询实例