Home | Syndication | Delicious | Douban | Twitter

Archive for February, 2007

Using Nutch 0.8.1 for Intranet Crawling and Searching

February 6th, 2007

本文尝试使用 Nutch 0.8.1 来为几个指定的网站建立全文索引,且不使用 Hadoop 提供的分布式能力,只是简单地在一台单独的机器上完成索引工作。如果需要使用 Nutch 的分布式能力,需要熟悉一下 Hadoop.

约定 Nutch 部署后的目录结构如下:
/home/hys/nutch-deployed
    /nutch-0.8.1
        (Nutch 0.8.1 installation goes here)
    /nutch-0.8.1-web
        (Nutch web module for searching goes here)

Read the rest of this entry »