数据序列化技术
- Avro 官网
- 远程过程调用的数据序列化框架
- 使用JSON来定义数据类型和通讯协议, 并使用压缩二进制格式来序列化数据
- 为Hadoop服务的通讯提供一种电报格式
- Trift 官网
- 接口描述性语言的二进制通讯协议
- Protocol Buffers 官网
- 一种序列化数据接口的协议
- SequenceFile 官网
- 一种二进制序列化
- key/value的字节流组成的文本存储文件
基于hadoop2.x大数据框架
官网: https://hadoop.apache.org/
MapReduce: 并行计算框架
HDFS: 数据存储
Yarn: 分布式集群管理和任务调度
Hive: 基于sql的处理框架
Hbase: 分布式数据库
sqoop: 数据迁移工具
基于storm体系的实时流处理框架
实时数据产生和数据处理
场景:
- 监控
- 电商
基于Spark体系的大数据处理框架
SparkCore: 数据处理框架
SparkSql: 数据分析和读取
SparkStreaming: 流式处理框架
SparkGraphX编程
SparkMLib机器学习
Spark R 数据分析
存储支持:
- HDFS
- Hive
- Hbase