利用 Heritrix 构建特定站点爬虫（1）

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-9-19 19:44 | 只看该作者

利用 Heritrix 构建特定站点爬虫（1）

背景随着网站内容的增加，为其添加搜索功能是一个常见的需求，搜索引擎也已成为互联网最重要的应用之一。你是否觉得普通的数据库检索已经不能满足你的查询需求了呢？是否希望花最小的代价为你的网站建立一个像 Google、百度那样的全文搜索引擎？是否希望创建自己专有的搜索引擎而不是想尽办法 SEO（Search Engine Optimization，搜索引擎优化）来等着 Google、百度收录你的网站？借助于开源工具的力量，你将很容易实现上述目标。
搜索引擎的实现过程，可以看作三步：1. 从互联网上抓取网页； 2. 对网页进行处理，建立索引数据库； 3. 进行查询。因此无论什么样的搜索引擎，都必须要有一个设计良好的爬虫来支持。Heritrix 是 SourceForge 上基于 Java 的开源爬虫，它可以通过 Web 用户界面来启动、设置爬行参数并监控爬行，同时开发者可以随意地扩展它的各个组件，来实现自己的抓取逻辑，因其方便的可扩展性而深受广大搜索引擎爱好者的喜爱。
虽然 Heritrix 功能强大，但其配置复杂，而且官方只在 Linux 系统上测试通过，用户难以上手。本文由浅入深，详细介绍 Heritrix 在 windows 下 Eclipse 中的配置运行，并对其进行简单扩展，使其只针对某一特定网站进行抓取，为构建相应站点的全文搜索引擎打好基础。
Heritrix 下载目前 Heritrix 的最新版本是 1.14.4（2010-5-10 发布），您可以从 SourceForge（http://sourceforge.net/projects/archive-crawler/files/）上下载。每个版本都有四个压缩包，两个 .tar.gz 包用于 Linux 下，.zip 用于 windows 下。其中 heritrix-1.14.4.zip 是源代码经过编译打包后的文件，而 heritrix-1.14.4-src.zip 中包含原始的源代码，方便进行二次开发。本文需要用到 heritrix-1.14.4-src.zip，将其下载并解压至 heritrix-1.14.4-src 文件夹。

收藏分享评分

回复引用

订阅 TOP

返回列表