欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

大数据第一讲

程序员文章站 2022-07-03 18:41:13
第一讲:大数据基础入门 第一节:为什么要学习大数据 1、目的:很好工作 2、对比:Java开发和大数据开发 第二节:什么是大数据? 举例: 1、商品推荐: 问题:(1)大量的订单如何存储? (2)大量的订单如何计算? 2、天气预报: 问题:(1)大量的天气数据如何存储?(2)大量的天气数据如何计算? ......


第一讲:大数据基础入门


第一节:为什么要学习大数据
1、目的:很好工作
2、对比:java开发和大数据开发

第二节:什么是大数据?
举例:
1、商品推荐: 问题:(1)大量的订单如何存储? (2)大量的订单如何计算?
2、天气预报: 问题:(1)大量的天气数据如何存储?(2)大量的天气数据如何计算?

什么是大数据,本质?
(1)数据的存储:分布式文件系统(分布式存储)
(2)数据的计算:分布式计算

第三节:java和大数据是什么关系?
1、hadoop:基于java语言开发
2、spark: 基于scala语言,scala基于java语言

第四节:学习大数据需要的基础和路线
1、学习大数据需要的基础:java基础(javase)---> 类、继承、i/o、反射、泛型*****
linux基础(linux的操作) ---> 创建文件、目录、vi编辑器***

2、学习路线:
(1)java基础和linux基础
(2)hadoop的学习:体系结构、原理、编程
(*)第一阶段:hdfs、mapreduce、hbase(nosql数据库)
(*)第二阶段:数据分析引擎 ---> hive、pig
数据采集引擎 ---> sqoop、flume
(*)第三阶段:hue:web管理工具
zookeeper:实现hadoop的ha
oozie: 工作流引擎
(3)spark的学习
(*)第一个阶段:scala编程语言
(*)第二个阶段:spark core-----> 基于内存,数据的计算
(*)第三个阶段:spark sql -----> 类似oracle中的sql语句
(*)第四个阶段:spark streaming ---> 进行实时计算(流式计算):比如:自来水厂

4)apache storm:类似spark streaming ---> 进行实时计算(流式计算):比如:自来水厂
(*)nosql:redis基于内存的数据库