Spark源码解析-Shuffle Sticky | 2019-05-04| Spark | 源码解析 说明:
数据结构
聚合 => 类HashMap
排序 => 类Array
Shuffle方式
2.x版本,shuffle方式全部统一到 Sort Shuffle
Shuffle Write(map task)shuffle write的通用框架需要执行的三个步骤是:数据聚合(c ...
Read more RDD的五大特性 Sticky | 2018-11-03| Spark | RDD 目标
整理RDD的概念&RDD的五大特性&源码体现
整理SparkContext&SparkConf
RDD的概念&RDD的五大特性及源码体现
a list of partitions.protected def getPartitions: Array[Parti ...
Read more MySQL的二进制部署 Sticky | 2018-10-03| MySQL | MySQL 目标
二进制部署MySQL
重新部署
二进制部署MySQL
upload tar
[root@ruozedata001 ~]# cd /usr/local/[root@ruozedata001 local]# mv ~/mysql-5.6.23-linux-glibc2.5-x86_64.tar. ...
Read more Yarn的资源调优&&Yarn的三种调度器 Sticky | 2018-10-03| Linux | Linux 目标
梳理yarn资源调优参数
调度器整理三种 区别是什么,CDH默认是什么
Yarn的资源调优背景:假设单节点内存128G 16物理core说明:
装完CentOS,消耗内存1G
系统预览15%-20%内存(包含1),以防全部使用导致系统夯住 和 oom机制事件,或者给未来部署组件预览点空间( ...
Read more HDFS Block损坏&丢失恢复 Sticky | 2018-09-23| HDFS | HDFS - 生产故障案例 目标
记录生产上HDFS block块损坏、丢失的解决方案
背景在伪分布式集群上启动HDFS进程时,发现HDFS开启了safe mode模式,且NN的log显示NameNode is in safe mode,进而查看HDFS的健康状态(hdfs fsck /),发现有block块丢失,日志如下: ...
Read more HDFS读写流程&Pid文件详解&HDFS常用命令&HDFS的回收站机制&安全模式详解 Sticky | 2018-09-22| HDFS | HDFS - Linux 目标
整理HDFS读写流程
整理pid文件
整理HDFS常用命令
整理HDFS的回收站机制
整理多节点和单节点的数据均衡
整理安全模式(safe mode)
读写流程读流程(FSDataInputStream)
Client调用FileSystem.get()方法,获取分布式文件系统实例Dist ...
Read more Linux 基本操作及生产上如何定位Error日志 Sticky | 2018-09-03| Linux | Linux Linux 基本操作
查看当前光标所在目录 pwd[root@ruozedata001 ~]# pwd/root
切换目录 cd[root@ruozedata001 ~]# cd /home[root@ruozedata001 home]# pwd/home
回退家目录的三种方法 cd ~ / cd ...
Read more 1.两数之和(Two Sum) 2019-01-01| LeetCode | LeetCode 两数之和给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。
你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。
示例:
给定 nums = [2, 7, 11, 15], target = 9因为 ...
Read more