章一 初识Hadoop

1.1 数据!数据!

数据爆炸

1.2 数据的存储与分析

硬盘读取速度并没有太大的提升,所以我们可以同时从多个硬盘上读取数据

自然会出现以下问题:

1.硬件故障问题

为了避免数据丢失,最常见的方法就是复制replication:系统保存数据的副本(replica),一旦系统发生故障,就可以使用副本(如RAID冗余磁盘阵列,Hadoop的文件系统 (Hadoop Distributed FileSystem,HDFS))

2.在从不同来源的数据进行分析时,保证其正确性的问题

MapReduce 提出一个编程模型,该模型抽象出这些硬盘读/写问题,并将其转换为 对一个数据集(key-value)的计算,这样的计算由map和reduce构成,有且仅有这两部分提供对外接口

1.3 查询所有数据

MapReduce每个查询都要处理整个数据集或者至少一个数据集的绝大部分

1.4 不仅仅是数据处理*

可见MapReduce是一个批处理系统,不适合交互时分析,查询时间久且更合适于离线场景

随着时间的推移,Hadoop逐渐变成了一个大的,多项目的生态系统。

第一个提供在线访问的组件时HBase,一种使用HDFS做底层存储的模型

Hadoop2中的YARN(Yet Another Resource Negotiator)使得Hadoop有了新的处理模型,YARN是一个集群资源管理系统,允许任何一个分布式程序基于Hadoop及其的数据而运行

可以于Hadoop协同工作的几个处理模式:

Interactive SQL 交互式SQL

利用MapReduce进行分发 并使用一个分布式查询引擎,使得Hadoop上获得SQL查询低延迟响应的同时还能保持对大数据集规模的课扩展性

**迭代处理***

**流处理***

**搜索***

1.5 相较于其他系统的优势*

1.5.1 关系型数据库管理系统

1.5.2 网格计算

1.5.3 志愿计算

发表评论