Using Nutch 0.8.1 for Intranet Crawling and Searching
February 6th, 2007本文尝试使用 Nutch 0.8.1 来为几个指定的网站建立全文索引,且不使用 Hadoop 提供的分布式能力,只是简单地在一台单独的机器上完成索引工作。如果需要使用 Nutch 的分布式能力,需要熟悉一下 Hadoop.
约定 Nutch 部署后的目录结构如下:
/home/hys/nutch-deployed
/nutch-0.8.1
(Nutch 0.8.1 installation goes here)
/nutch-0.8.1-web
(Nutch web module for searching goes here)