初识Spark系列-RDD转换

初识Spark系列-RDD转换

RDD整体上分为Value型和Key-Value型1.Value型map(func)算子作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成eg:创建一个1-10数组RDD,将所有元素*2形成新的RDDval source = sc.makeRDD(1 to 10) // 创建RDD source: org.apache.spark.rdd.RDD[Int] = P...

大数据 2019-09-22 PM 67次 0条
大数据笔记整理-09/18

大数据笔记整理-09/18

Hadoop的组件及作用 HDFS架构 NameNode (1)负责管理HDFS文件目录和元数据信息,元数据信息是以"fsimage"(HDFS元数据镜像文件)和"editlog"(HDFS文件改动日志)两个文件形式存放在本地磁盘。 (2)负责监控各DataNode的健康状态,一旦发现某个DataNode宕机,则将该DataNode移出HDFS并重新...

大数据 2019-09-18 PM 40次 0条
Hive中的order by、sort by、 distribute by、cluster by

Hive中的order by、sort by、 distribute by、cluster by

前言从语义上理解:order、sort的中文含义是排序。而ditribute和cluster的中文含义是分发和簇。order by-全局排序对数据进行全局排序,所有数据会被安排到同一个reduce中进行,但数据量特别大时就会出现数据倾斜。在严格模式下,order by必须与limit配合使用,其目的是减少该reduce的计算时间。这种情况下,无论mapred.reduce.task的值是否...

大数据 2019-08-03 AM 187次 0条
 00x0 Hive基本操作

00x0 Hive基本操作

创建数据库create database zlz; -- 创建数据库 create database if not exists zlz; -- 创建库时检查该库是否已存在 create database if not exists zlz comment 'learning hive'; -- 创建带有注释的数据库 create database if not exists zl...

大数据 2019-07-19 PM 58次 0条
大数据环境搭建-Ubuntu集群搭建

大数据环境搭建-Ubuntu集群搭建

大数据环境搭建-Ubuntu集群搭建一、创建Hadoop用户安装界面美化工具sudo apt-get install gnome-tweaks或者在 软件 搜索gnome-tweaks安装创建hadoop用户sudo useradd -m hadoop -s /bin/bash-m 创建用户主目录 -s 指定账户登录shell删除用户sudo userdel -r bigdata001-r...

大数据 2019-05-28 AM 131次 0条