Spark源码解析-Shuffle
说明: 数据结构 聚合 => 类HashMap 排序 => 类Array Shuffle方式 2.x版本,shuffle方式全部统一到 Sort Shuffle Shuffle Write(map task)shuffle write的通用框架需要执行的三个步骤是:数据聚合(c ...
Read more
RDD的五大特性
目标 整理RDD的概念&RDD的五大特性&源码体现 整理SparkContext&SparkConf RDD的概念&RDD的五大特性及源码体现 a list of partitions.protected def getPartitions: Array[Parti ...
Read more
MySQL的二进制部署
目标 二进制部署MySQL 重新部署 二进制部署MySQL upload tar [root@ruozedata001 ~]# cd /usr/local/[root@ruozedata001 local]# mv ~/mysql-5.6.23-linux-glibc2.5-x86_64.tar. ...
Read more
Yarn的资源调优&&Yarn的三种调度器
目标 梳理yarn资源调优参数 调度器整理三种 区别是什么,CDH默认是什么 Yarn的资源调优背景:假设单节点内存128G 16物理core说明: 装完CentOS,消耗内存1G 系统预览15%-20%内存(包含1),以防全部使用导致系统夯住 和 oom机制事件,或者给未来部署组件预览点空间( ...
Read more
HDFS Block损坏&丢失恢复
目标 记录生产上HDFS block块损坏、丢失的解决方案 背景在伪分布式集群上启动HDFS进程时,发现HDFS开启了safe mode模式,且NN的log显示NameNode is in safe mode,进而查看HDFS的健康状态(hdfs fsck /),发现有block块丢失,日志如下: ...
Read more
HDFS读写流程&Pid文件详解&HDFS常用命令&HDFS的回收站机制&安全模式详解
目标 整理HDFS读写流程 整理pid文件 整理HDFS常用命令 整理HDFS的回收站机制 整理多节点和单节点的数据均衡 整理安全模式(safe mode) 读写流程读流程(FSDataInputStream) Client调用FileSystem.get()方法,获取分布式文件系统实例Dist ...
Read more
Linux 基本操作及生产上如何定位Error日志
Linux 基本操作 查看当前光标所在目录 pwd[root@ruozedata001 ~]# pwd/root 切换目录 cd[root@ruozedata001 ~]# cd /home[root@ruozedata001 home]# pwd/home 回退家目录的三种方法 cd ~ / cd ...
Read more
1.两数之和(Two Sum)
两数之和给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。 你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。 示例: 给定 nums = [2, 7, 11, 15], target = 9因为 ...
Read more