大数据入门概述

数据序列化技术

  • Avro 官网
    • 远程过程调用的数据序列化框架
    • 使用JSON来定义数据类型和通讯协议, 并使用压缩二进制格式来序列化数据
    • 为Hadoop服务的通讯提供一种电报格式
  • Trift 官网
    • 接口描述性语言的二进制通讯协议
  • Protocol Buffers 官网
    • 一种序列化数据接口的协议
  • SequenceFile 官网
    • 一种二进制序列化
    • key/value的字节流组成的文本存储文件

基于hadoop2.x大数据框架

官网: https://hadoop.apache.org/

MapReduce: 并行计算框架

HDFS: 数据存储

Yarn: 分布式集群管理和任务调度

Hive: 基于sql的处理框架

Hbase: 分布式数据库

sqoop: 数据迁移工具

基于storm体系的实时流处理框架

官方: http://storm.apache.org/

实时数据产生和数据处理

场景:

  • 监控
  • 电商

基于Spark体系的大数据处理框架

官方: http://spark.apach.org/

SparkCore: 数据处理框架

SparkSql: 数据分析和读取

SparkStreaming: 流式处理框架

SparkGraphX编程

SparkMLib机器学习

Spark R 数据分析

存储支持:

  • HDFS
  • Hive
  • Hbase
Donate comment here