`
flyingdutchman
  • 浏览: 353669 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
    每个region都保存着一个HTable表的一个rowkey区间的数据,而每个HRegion Server都维护着HMaster Server分配个它的一些regions(默认情况下10 - 1000个,每个region大小默认为256MB),那么客户端到底是怎么通过一个给定的rowkey就知道要匹配的 ...
    Hadoop是一个高容错、高延时的分布式文件系统和高并发的批处理系统,不适用于提供实时计算;HBase是可以提供实时计算的分布式数据库,数据被保存在Hadoop HDFS分布式文件系统上,由HDFS保证期高容错性,但是再生产环境中 ...
    HBase中的缓存只要是指在HRegion server节点之上的cache缓存。一部分用来作为memstore,起作用主要是保存最近更新的部分数据以加快客户端响应;另一部分作为blockcache,主要用于读操作。     HRegion server会为其维护的每一个region提供一个memstore,用户的所有修改操作,首先将数据append到WAL日志,然后写到内存中的memstore中,然后就会给客户端确认修改成功。在默认情况下memstore的大小是64MB,当写到memstore中的数据大于64MB后,就会将其中的数据刷新到磁盘上持久化数据。     每一个HRegion ...
    HBase复制是一种hbase部署节点即HRegion Servers之间的数据复制,它可以作为一种灾难恢复解决方案和在hbase层面提供分布式的更高的高可用性。     HBase的复制模式是"(HBase) master推”的模式,这种方式可以很容易的通过WAL日志跟踪在HRegion Server服务器之间复制操作,就像mysql的Master/Slave模式。作为master的HRegion Server将它维护的region复制到一些作为slave的HRegion Server服务器节点上。     复制是以异步的方式进行的,这意味着集群中节点之间的为止可以很遥远,复 ...
    新生成hbase的一个表的时候,整个集群中就只有一个新表的region分区,随着存储的数据增多,一个region就会水平分割为大小相等的2个region,这一过程是由HRegion Server自动处理的,期间不需要HMaster Server的参与。     具体分割过程是这样的:     当memstore中的数据大于一定阀值后会被刷新到磁盘上,生成一个storefile文件,刷新操作完成后,触发一个minor compaction合并压缩操作,将属于该region的一些最早生成的storefile文件重写到一个大的storefile,然后删除被合并的文件。     当合并后的sto ...
    HRegoin Server上的storefile文件是被后台线程监控的,以确保这些文件保持在可控状态。磁盘上的storefile的数量会随着越来越多的memstore被刷新而变等于来越多——每次刷新都会生成一个storefile文件。当storefile数量满足一定条件 ...
    hbase的文件存储在生产环境下是基于hadoop HDFS文件系统的,HDFS为hbase提供了高容错和分布式的保证。下面是hbase集群处理hbase文件的示意图:     从上图可以看出,hbase中的文件分三部分:log日志文件即Write-Ahead Log,保存在 ...
   hbase集群架构如下图所示:    一、Zookeeper集群的职责:       1、负责监控整个hbase集群中的节点的状态和通信,包括保证任意时刻均hbase cluster中有一个处于活动状态的HMaster Server;实时监控HRegion Server的状态,包括当机、上线和下线,将该状态通知给HMaster。       2、管理hbase 集群的-ROOT-表,即所有HRegion Server的地址和HTable信息。    二、HMaster Server的职责:       1、为HRegion server分配HRegion。       2、负责HRe ...
    hbase内部是使用Log-Structured Merge-Tree说索引的,即LSM-tree,当然是为hbase做过优化的。     LSM-tree是一个优秀的算法,思想来源于日志文件系统,本身是为提高B-树在更新插入数据时的性能而提出来的,主要优点就是通过将很 ...
一、hbase是什么?     首先hbase是一个在Hadoop的HDFS分布式存储系统上介于映射(key/value)的nosql的分布式数据库;它通常会被描述成一个存储稀疏数据的具有分布式、持久化、多维度的经过排序的map,你也一定过一些人把它当做是一个面向列(column family-oriented)的key/value的具有多版本机制的数据库。主要有以下特性:     1、提供随机、实时读写查询,由hbase的架构和LSM—Tree数据结构保证;     2、高容错,该特性是由HDFS保证;     3、分布式和线性扩展;     4、面向列和存储松散数据;     5、存储的数据 ...
本人飞翔的荷兰人——一个有7、8年的工作经验的老程序员(猿),从去年开始学习hadoop,并且也想向Hadoop大数据处理方面转,无奈在找工作的时候却处处碰壁——主要是没有Hadoop在生产环境中的实际工作经验,故下定决心开始把自己的一些学习心得写下来,在起到“好记性不如烂笔头”之余,也期待和大家分享,如果能够给其他学习者能带来点滴帮助,兄弟会非常高兴;当然由于本人才疏学浅,难免会有不足之处,让大家不吝批评指教和拍砖,我将不胜感激!     本人这次Hbase学习是基于Lars George的《HBase: The Definitive Guide》(Hbase权威指南(影印版))学习的,由于本 ...
Global site tag (gtag.js) - Google Analytics