Tag Archives: hadoop

Getting Started with HBase Fully-Distributed

本文描述如何安装配置 HBase 集群,并使用一个外置的 ZooKeeper 集群。 使用的软件版本: CentOS 5.5, Sun JDK 1.6.0_22, ZooKeeper 3.2.2, Hadoop 0.20.2, HBase 0.20.6. 1. 操作系统准备 本文的实验环境共用到了三台机器,分别为: hmc1.yunsong.net: 10.10.30.221 hmc2.yunsong.net: 10.10.30.222 hmc3.yunsong.net: 10.10.30.223 三台机器上运行的组件分配: hmc1: zookeeper, hadoop namenode/jobtracker, hbase master hmc2: zookeeper, hadoop datanode/tasktracker, hbase regionserver hmc3: … Continue reading

Posted in Cloud Computing | Tagged , , | Leave a comment

Running Hadoop 0.15.1 on Single Node

一年前我曾经写过一篇文章介绍如何安装和配置 Hadoop cluster,但从开发者实践角度来说,在开发阶段通常需要把 Hadoop 配置在单机(单节点)上,这样比较现实,谁能有事没事就随身带着 N 台机器组成的 cluster 呢?再者,当时我用的版本是 0.9.2,现在最新的 Hadoop 是 0.15.1,毕竟 Hadoop 还处于 pre-1.0 阶段,版本的变化很大。 本文的目标是描述在一台机器上配置 Hadoop,以伪分布式模式(pseudo-distributed mode)运行,即,每个 Hadoop daemon 运行在不同的 Java process 中。主要用于开发环境的构建 or just play with Hadoop. 我使用的是 Ubuntu Linux 7.10,若你需要在 Windows 系统上玩,请安装 Cygwin,并确保选择了 openssh 包。 … Continue reading

Posted in Cloud Computing | Tagged | Leave a comment

Getting Started with Hadoop, Part 1

我一直都对分布式文件系统非常感兴趣,特别喜欢研究如何在庞大的廉价的异构系统集群上进行容错性良好的分布式存储。这些话题总是能吸引我的注意力。记得2002年的时候因公司的需要有机会实践了一把 OpenAFS 和 Coda ,印象深刻,呵呵。好了,闲话少叙,今天将要谈论的是后起之秀 Hadoop 。 Hadoop 是大名鼎鼎的 Lucene 旗下的子项目,它原先是 Nutch 项目的组成部分,于2006年初从 Nutch 中分离出来成为一个独立的项目。Hadoop 其实并非一个单纯用于存储的分布式文件系统,而是一个被设计用来在由普通硬件设备组成的大型集群上执行分布式应用的框架(framework)。Hadoop 包含两个部分:一个分布式文件系统 HDFS (Hadoop Distributed File System),和一个 MapReduce 实现。因此,Hadoop 的目标是为开发分布式应用提供一个框架,而不是像 OpenAFS, Coda 那样为存储提供一个分布式文件系统。搜索引擎就是一种典型的分布式程序,Nutch 就是基于 Hadoop 开发的。 本文的目标是描述如何安装和使用 Hadoop 0.9.2,不涉及如何使用 Hadoop 框架来开发分布式程序(此话题我将在 Part 2 中介绍之)。 本文内容: … Continue reading

Posted in Cloud Computing | Tagged | 15 Comments