http://blog.csdn.net/lwl_ls/archive/2008/03/18/2194970.aspx

开源搜索引擎资源

开放源代码搜索引擎为人们学习、研究并掌握搜索技术提供了极好的途径与素材，推动了搜索技术的普及与发展，使越来越多的人开始了解并推广使用搜索技术。使用开源搜索引擎，可以大大缩短构建搜索应用的周期，并可根据应用需求打造个性化搜索应用，甚至构建符合特定需求的搜索引擎系统。搜索引擎的开源，无论是对技术人员还是普通用户，都是一个福音。

搜索引擎的工作流程主要分为三步：从互联网抓取网页→创建抓取网页的索引库→从索引库中进行搜索。

首先需要一个能访问网络的爬虫器程序，依据URL之间的关联性自动爬行整个互联网，并对爬行过的网页进行抓取收集。当网页被收集回来后，采用索引分析程序进行网页信息的分析，依据一定的相关度算法（如超链接算法）进行大量计算，创建倒排序的索引库。索引库建好后用户就可以通过提供的搜索界面提交关键词进行搜索，依据特定的排序算法返回搜索结果。因此，搜索引擎并不是对互联网进行直接搜索，而是对已抓取网页索引库的搜索，这也是能快速返回搜索结果的原因，索引在其中扮演了最为重要的角色，索引算法的效率直接影响搜索引擎的效率，是评测搜索引擎是否高效的关键因素。

网页爬行器、索引器、查询器共同构成了搜索引擎的重要组成单元，针对特定的语言，如中文、韩文等，还需要分词器进行分词，一般情况下，分词器与索引器一起使用创建特定语言的索引库。它们之间的协同关系如图1所示。

而开放源代码的搜索引擎为用户提供了极大的透明性，开放的源代码、公开的排序算法、随意的可定制性，相比于商业搜索引擎而言，更为用户所需要。目前，开放源代码的搜索引擎项目也有一些，主要集在中搜索引擎开发工具包与架构、Web搜索引擎、文件搜索引擎几个方面，本文概要介绍一下当前比较流行且相对比较成熟的几个搜索引擎项目。

开源搜索引擎工具包

1．Lucene

Lucene是目前最为流行的开放源代码全文搜索引擎工具包，隶属于Apache基金会，由资深全文索引/检索专家Doug Cutting所发起，并以其妻子的中间名作为项目的名称。Lucene不是一个具有完整特征的搜索应用程序，而是一个专注于文本索引和搜索的工具包，能够为应用程序添加索引与搜索能力。基于Lucene在索引及搜索方面的优秀表现，虽然由Java编写的Lucene具有天生的跨平台性，但仍被改编为许多其他语言的版本：Perl、Python、C++、.Net等。

同其他开源项目一样，Lucene具有非常好的架构，能够方便地在其基础上进行研究与开发，添加新功能或者开发新系统。Lucene本身只支持文本文件及少量语种的索引，并且不具备爬虫功能，而这正是Lucene的魅力所在，通过Lucene提供的丰富接口，我们可以根据自身的需要在其上添加具体语言的分词器，针对具体文档的文本解析器等，而这些具体的功能实现都可以借助于一些已有的相关开源软件项目、甚至是商业软件来完成，这也保证了Lucene在索引及搜索方面的专注性。目前，通过在Lucene的基础上加入爬行器、文本解析器等也形成了一些新的开源项目，如LIUS、Nutch等。并且Lucene的索引数据结构已经成了一种事实上的标准，为许多搜索引擎所采用。

2．LIUS

LIUS即Lucene Index Update and Search的缩写，它是以Lucene为基础发展起来的一种文本索引框架，和Lucene一样，同样可以看作搜索引擎开发工具包。它在Lucene的基础上作了一些相应的研究及添加了一些新的功能。LIUS借助于许多开源软件，可以直接对各种不同格式/类型的文档进行文本解析与索引，这些文档格式包括MS Word、MS Excel、MS PowerPoing、RTF、PDF、XML、HTML、TXT、Open Office及JavaBeans等，对Java Beans的支持对于进行数据库索引非常有用，在用户进行对象关系映射（如：Hibernate、JDO、TopLink、Torque等）的数据库连接编程时会变得更加精确。LIUS还在Lucene的基础上增加了索引更新功能，使针对索引的维护功能进一步完善。并且支持混和索引，可以把同一目录下与某一条件相关的所有内容整合到一起，这种功能对于需要对多种不同格式的文档同时进行索引时非常有用。

3．Egothor

Egothor是一款开源的高性能全文搜索引擎，适用于基于全文搜索功能的搜索应用，它具有与Luccene类似的核心算法，这个项目已经存在了很多年，并且拥有一些积极的开发人员及用户团体。项目发起者Leo Galambos是捷克布拉格查理大学数学与物理学院的一名高级助理教授，他在博士研究生期间发起了此项目。

更多的时候，我们把Egothor看作一个用于全文搜索引擎的Java库，能够为具体的应用程序添加全文搜索功能。它提供了扩展的Boolean模块，使得它能被作为Boolean模块或者Vector模块使用，并且Egothor具有一些其他搜索引擎所不具有的特有功能：它采用新的动态算法以有效提高索引更新的速度，并且支持平行的查询方式，可有效提高查询效率。在Egothor的发行版中，加入了爬行器、文本解析器等许多增强易用性的应用程序，融入了Golomb、Elias-Gamma等多种高效的压缩方法，支持多种常用文档格式的文本解析，如HTML、PDF、PS、微软Office文档、XLS等，提供了GUI的索引界面及基于Applet或者Web的查询方式。另外，Egothor还能被方便地配置成独立的搜索引擎、元数据搜索器、点对点的HUB等多种且体的应用系统。

4．Xapian

Xapian是基于GPL发布的搜索引擎开发库，它采用C++语言编写，通过其提供绑定程序包可以使Perl、Python、PHP、Java、Tck、C#、Ruby等语言方便地使用它。

Xapian还是一个具有高适应性的工具集，使开发人员能够方便地为他们的应用程序添加高级索引及搜索功能。它支持信息检索的概率模型及丰富的布尔查询操作。Xapian的发布包通常由两部分组成：xapian-core及xapian-bindings，前者是核心主程序，后者是与其他语言进行绑定的程序包。

Xapian为程序开发者提供了丰富的API及文档进行程序的编制，而且还提供了许多编程实例及一个基于Xapian的应用程序Omega，Omega由索引器及基于CGI的前端搜索组成，能够为HTML、PHP、PDF、PostScript、OpenOffice/StarOffice、RTF等多种格式的文档编制索引，通过使用Perl DBI模块甚至能为MySQL、PostgreSQL、SQLite、Sybase、MS SQL、LDAP、ODBC等关系数据库编制索引，并能以CSV或XML格式从前端导出搜索结果，程序开发者可以在此基础上进行扩展。

5．Compass

Compass是在Lucene上实现的开源搜索引擎架构，相对比于Lucene而言，提供更加简洁的搜索引擎API。增加了索引事务处理的支持，使其能够更方便地与数据库等事务处理应用进行整合。它更新时无需删除原文档，更加简单更加高效。资源与搜索引擎之间采用映射机制，此种机制使得那些已经使用了Lucene或者不支持对象及XML的应用程序迁移到Compass上进行开发变得非常容易。

Compass还能与Hibernate、Spring等架构进行集成，因此如果想在Hibernate、Spring项目中加入搜索引擎功能，Compass是个极好的选择。

开源Web搜索引擎系统

1．Nutch

Nutch是Lucene的作者Doug Cutting发起的另一个开源项目，它是构建于Lucene基础上的完整的Web搜索引擎系统，虽然诞生时间不长，但却以其优良血统及简洁方便的使用方式而广收欢迎。我们可以使用Nutch搭建类似Google的完整的搜索引擎系统，进行局域网、互联网的搜索。

2．YaCy

YaCy是一款基于P2P(peer-to-peer)的分布式开源Web搜索引擎系统，采用Java语言进行编写，其核心是分布在数百台计算机上的被称为YaCy-peer的计算机程序，基于P2P网络构成了YaCy网络，整个网络是一个分散的架构，在其中所有的YaCy-peers都处于对等的地位，没有统一的中心服务器，每个YaCy-peer都能独立的进行互联网的爬行抓取、分析及创建索引库，通过P2P网络与其他YaCy-peers进行共享，并且每个YaCy-peer又都是一个独立的代理服务器，能够对本机用户使用过的网页进行索引，并且采取多机制来保护用户的隐私，同时用户也通过本机运行的Web服务器进行查询及返回查询结果。

YaCy搜索引擎主要包括五个部分，除普通搜索引擎所具有的爬行器、索引器、反排序的索引库外，它还包括了一个非常丰富的搜索与管理界面以及用于数据共享的P2P网络。

开源桌面搜索引擎系统

1．Regain

regain是一款与Web搜索引擎类似的桌面搜索引擎系统，其不同之处在于regain不是对Internet内容的搜索，而是针对自己的文档或文件的搜索，使用regain可以轻松地在几秒内完成大量数据（许多个G）的搜索。Regain采用了Lucene的搜索语法，因此支持多种查询方式，支持多索引的搜索及基于文件类型的高级搜索，并且能实现URL重写及文件到HTTP的桥接，并且对中文也提供了较好的支持。

Regain提供了两种版本：桌面搜索及服务器搜索。桌面搜索提供了对普通桌面计算机的文档与局域网环境下的网页的快速搜索。服务器版本主要安装在Web服务器上，为网站及局域网环境下的文件服务器进行搜索。

Regain使用Java编写，因此可以实现跨平台安装，能安装于Windows、Linux、Mac OS及Solaris上。服务器版本需要JSPs环境及标签库（tag library），因此需要安装一个Tomcat容器。而桌面版自带了一个小型的Web服务器，安装非常简单。

2．Zilverline

Zilverline是一款以Lucene为基础的桌面搜索引擎，采用了Spring框架，它主要用于个人本地磁盘及局域网内容的搜索，支持多种语言，并且具有自己的中文名字：银钱查打引擎。Zilverline提供了丰富的文档格式的索引支持，如微软Office文档、RTF、Java、CHM等，甚至能够为归档文件编制索引进行搜索，如zip、rar及其他归档文件，在索引过程中，Zilverline从zip、rar、chm等归档文件中抽取文件来编制索引。Zilverline可以支持增量索引的方式，只对新文件编制索引，同时也支持定期自动索引，其索引库能被存放于Zilverline能够访问到的地方，甚至是DVD中。同时，Zilverline还支持文件路径到URL的映射，这样可以使用户远程搜索本地文件。

Zilverline提供了个人及研究、商业应用两种许可方式，其发布形式为一个简单的war包，可以从其官方网站下载（http://www.zilverline.org/）。Zilverline的运行环境需要Java环境及Servlet容器，一般使用Tomcat即可。在确保正确安装JDK及Tomcat容器后只需将Zilverline的war包（zilverline-1.5.0.war）拷贝到Tomcat的webapps目录后重启Tomcat容器即可开始使用Zilverline搜索引擎了

http://www.open-open.com/32.htm

Java开源搜索引擎

Egothor

Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性，Egothor能应用于任何环境的应用，既可配置为单独的搜索引擎，又能用于你的应用作为全文检索之用。

更多Egothor信息

Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

更多Nutch信息

Lucene

Apache Lucene是一个基于Java全文搜索引擎，利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引，索引让搜寻的效率比传统的逐字比较大大提高，Lucen提供一组解读，过滤，分析文件，编排和使用索引的API，它的强大之处除了高效和简单外，是最重要的是使使用者可以随时应自已需要自订其功能。

更多Lucene信息

Oxyus

是一个纯java写的web搜索引擎。

更多Oxyus信息

BDDBot

BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行，将结果保存在一个数据库中。它也支持一个简单的Web服务器，这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

更多BDDBot信息

Zilverline

Zilverline是一个搜索引擎，它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包括中文。

更多Zilverline信息

XQEngine

XQEngine用于XML文档的全文本搜索引擎.利用XQuery做为它的前端查询语言.它能够让你查询XML文档集合通过使用关键字的逻辑组合.有点类似于Google与其它搜索引擎搜索HTML文档一样.XQEngine只是一个用Java开发的很紧凑的可嵌入的组件.

更多XQEngine信息

MG4J

MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术.

更多MG4J信息

JXTA Search

JXTA Search是一个分布式的搜索系统.设计用在点对点的网络与网站上.

更多JXTA Search信息

YaCy

YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p Web索引网络的一个新方法.它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等.

更多YaCy信息

Red-Piranha

Red-Piranha是一个开源搜索系统,它能够真正"学习"你所要查找的是什么.Red-Piranha可作为你桌面系统(Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等.

更多Red-Piranha信息

LIUS

LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如：
Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans。针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如：Hibernate,JDO,Torque,TopLink进行开发时。

更多LIUS信息

Aperture

Aperture这个Java框架能够从各种各样的资料系统(如：文件系统、Web站点、IMAP和Outlook邮箱)或存在这些系统中的文件(如:文档、图片)爬取和搜索其中的全文本内容与元数据。它当前支持的文件格式如下：

Plain text

HTML, XHTML

XML

PDF (Portable Document Format)

RTF (Rich Text Format)

Microsoft Office: Word, Excel, Powerpoint, Visio, Publisher

Microsoft Works

OpenOffice 1.x: Writer, Calc, Impress, Draw

StarOffice 6.x - 7.x+: Writer, Calc, Impress, Draw

OpenDocument (OpenOffice 2.x, StarOffice 8.x)

Corel WordPerfect, Quattro, Presentations

Emails (.eml files)

更多Aperture信息

Apache Solr

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现。它的主要特性包括：高效、灵活的缓存功能，垂直搜索功能，高亮显示搜索结果，通过索引复制来提高可用性，提供一套强大Data Schema来定义字段，类型和设置文本分析，提供基于Web的管理界面等。

更多Apache Solr信息

Paoding

Paoding中文分词是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

更多Paoding信息

Carrot2

Carrot2是一个开源搜索结果分类引擎。它能够自动把搜索结果组织成一些专题分类。Carrot2提供的一个架构能够从各种搜索引擎（YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR）获取搜索结果。

更多Carrot2信息

Regain

Regain是一个基于Jakarta Lucene封装的搜索引擎。它能够索引和查询多种格式的文件（当前支持的格式包括：HTML、XML、Excel、Powerpoint、Word、PDF和RTF）。此外它还提供一个标签库以便易于将搜索结果展示在JSP页面中。

更多Regain信息

Hounder

Hounder是一个完善的搜索系统，Hounder只会检索那些出现在互联网上的文档，并通过一个简单的网页来展示搜索结果。能够完美与其它项目相结合。它在各方面的设计都是规模级的包括：索引网页的数量，检索速度，查询并发数。它已经成功应用在多个大型搜索系统中。

20款开源搜索引擎系统

一些开源搜索引擎系统介绍，包含开源Web搜索引擎和开源桌面搜索引擎。

Sphider

Sphider是一个轻量级，采用PHP开发的web spider和搜索引擎，使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。Sphider非常小,易于安装和修改，已经有数千网站在使用它。

RiSearch PHP

RiSearch PHP是一个高效，功能强大的搜索引擎，特别适用于中小型网站。RiSearch PHP非常快，它能够在不到1秒钟内搜索5000-10000个页面。RiSearch是一个索引搜索引擎,这就意味着它先将你的网站做索引并建立一个数据库来存储你网站所有页面的关键词以便快速搜索。Risearch是全文搜索引擎脚本,它把所有的关键词都编成一个文档索引除了配置文件里面的定义排除的关键词。 RiSearch使用经典的反向索引算法(与大型的搜索引擎相同),这就是为什么它会比其它搜索引擎快的原因。

PhpDig

PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时，它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎，利用它打造针对某一领域的垂直搜索引擎是最好的选择。

OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider（robot：机器人，crawler：爬虫)和包含许多有趣功能的搜索引擎。

Egothor

Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Lucene

Oxyus

是一个纯java写的web搜索引擎。

BDDBot

BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件（urls.txt）列出的URL中爬行，将结果保存在一个数据库中。它也支持一个简单的Web服务器，这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

Zilverline

Zilverline是一个搜索引擎，它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF， Word， Excel， Powerpoint， RTF， txt， java， CHM，zip， rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包括中文。

XQEngine

XQEngine用于XML文档的全文本搜索引擎。利用XQuery做为它的前端查询语言。它能够让你查询XML文档集合通过使用关键字的逻辑组合。有点类似于Google与其它搜索引擎搜索HTML文档一样。XQEngine只是一个用Java开发的很紧凑的可嵌入的组件。

MG4J

MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引，通过使内插编码（interpolative coding）技术。

JXTA Search

JXTA Search是一个分布式的搜索系统。设计用在点对点的网络与网站上。

YaCy

YaCy基于p2p的分布式Web搜索引擎。同时也是一个Http缓存代理服务器。这个项目是构建基于p2p Web索引网络的一个新方法。它可以搜索你自己的或全局的索引，也可以Crawl自己的网页或启动分布式Crawling等。

Red-Piranha

Red-Piranha是一个开源搜索系统，它能够真正”学习”你所要查找的是什么。Red-Piranha可作为你桌面系统（Windows，Linux与Mac）的个人搜索引擎，或企业内部网搜索引擎，或为你的网站提供搜索功能，或作为一个P2P搜索引擎，或与wiki结合作为一个知识/文档管理解决方案，或搜索你要的RSS聚合信息，或搜索你公司的系统（包括SAP，Oracle或其它任何Database/Data source），或用于管理PDF，Word和其它文档，或作为一个提供搜索信息的WebService或为你的应用程序（Web，Swing，SWT，Flash，Mozilla-XUL，PHP， Perl或c#/.Net）提供搜索后台等等。

LIUS

LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如：Ms Word，Ms Excel，Ms PowerPoint，RTF，PDF，XML，HTML，TXT，Open Office序列和JavaBeans.针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如：Hibernate，JDO，Torque，TopLink进行开发时。

Apache Solr

Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括：高效、灵活的缓存功能，垂直搜索功能，高亮显示搜索结果，通过索引复制来提高可用性，提供一套强大Data Schema来定义字段，类型和设置文本分析，提供基于Web的管理界面等。

Paoding

Carrot2

Regain

参考来源: Open-open

http://www.yuanma.org/data/2008/0913/article_3159.htm

搜索引擎Larbin结构分析

互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景，尤其是类似RSS的以XML为基础的结构化的数据越来越多，内容的组织方式越来越灵活，检索组织并呈现会有着越来越广泛的应用范围，同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫，信息的来源入口。一个高效，灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。

要设计一个爬虫，首先需要考虑的效率。对于网络而言，基于TCP/IP的通信编程有几种方法。

第一种是单线程阻塞，这是最简单也最容易实现的一种，一个例子：在Shell中通过curl，pcregrep等一系统命令可以直接实现一个简单的爬虫，但同时它的效率问题也显而易见：由于是阻塞方式读取，dns解析，建立连接，写入请求，读取结果这些步骤上都会产生时间的延迟，从而无法有效的利用服务器的全部资源。

第二种是多线程阻塞。建立多个阻塞的线程，分别请求不同的url。相对于第一种方法，它可以更有效的利用机器的资源，特别是网络资源，因为无数线程在同时工作，所以网络会比较充分的利用，但同时对机器CPU资源的消耗也是比较大，在用户级多线程间的频繁切换对于性能的影响已经值得我们考虑。

第三种是单线程非阻塞。这是目前使用的比较多的一种做法，无论在client还是server都有着广泛的应用。在一个线程内打开多个非阻塞的连接，通过poll/epoll/select对连接状态进行判断，在第一时间响应请求，不但充分利用了网络资源，同时也将本机CPU资源的消耗降至最低。这种方法需要对dns请求，连接，读写操作都采用异步非阻塞操作，其中第一种比较复杂，可以采用adns作为解决方案，后面三个操作相对简单可以直接在程序内实现。

效率问题解决后就需要考虑具体的设计问题了。

url肯定需要一个单独的类进行处理，包括显示，分析url，得到主机，端口，文件数据。

然后需要对url进行排重，需要一个比较大的url Hash表。

如果还要对网页内容进行排重，则还需要一个Document Hash表。

爬过的url需要记录下来，由于量比较大，我们将它写到磁盘上，所以还需要一个FIFO的类(记作urlsDisk)。

现在需要爬的url同样需要一个FIFO类来处理，重新开始时，url会从定时从爬过的url FIFO里取出来，写到这个FIFO里。正在运行的爬虫需要从这个FIFO里读数据出来，加入到主机类的url列表里。当然，也会从前一个FIFO里直接读url出来，不过优先级应该比这个里面出来的url低，毕竟是已经爬过的。

爬虫一般是对多个网站进行爬取，但在同时站点内dns的请求可以只做一次，这就需要将主机名独立于url，单独有一个类进行处理。

主机名解析完成后需要有一个解析完成的IP类与之应用，用于connect的时候使用。

HTML文档的解析类也要有一个，用来分析网页，取出里面的url，加入到urlsDisk。

再加上一些字符串，调度类，一个简单的爬虫基本上就完成了。

以上基本上是Larbin的设计思路，Larbin在具体实现上还有一些特殊的处理，例如带了一个webserver，以及对特殊文件的处理。 Larbin有一点设计不不太好，就是慢的访问会越来越多，占用大量的连接，需要改进，另外如果对于大规模的爬虫，这仅仅实现了抓取的部分，要分布式的扩展还需要增加url的集中管理与调度以及前台spider的分布式算法。

Larbin网站爬虫简明使用说明

larbin是一种爬虫工具，我也是前段时间网上看到 Larbin 一种高效的搜索引擎爬虫工具一文时才知道有这么个东西，初步认定，我比较喜欢这个工具(比起nutch的crawl来说),因为它是C++写的，类似C嘛，我熟，可以自己改改，顺便学习一下C++(几年来的经验告诉我说：改别人的东西来学一种技术比从头写helloworld快很多)。于是开始了我艰辛的larbin试用之旅。

　　回头看看自己遇到的问题都是由于没认真看文档引起的，唉，老毛病了。下次即使是E文的也得好好看，不能盲目的试，浪费时间。

　　larbin官方地址：http://larbin.sourceforge.net/index-eng.html

　　一，编译

　　这也好说，whahahaha，那是！因为从官方网站下下来的代码不能编译通过(linux gcc下)

　　./configure

　　make

　　gcc -O3 -Wall -D_REENTRANT -c -o parse.o parse.c

　　parse.c:115: error: conflicting types for ’adns__parse_domain’

　　internal.h:571: error: previous declaration of ’adns__parse_domain’ was here

　　parse.c:115: error: conflicting types for ’adns__parse_domain’

　　internal.h:571: error: previous declaration of ’adns__parse_domain’ was here

　　gmake[1]: *** [parse.o] 错误 1

　　gmake[1]: Leaving directory `/home/leo/leo/larbin-2.6.3/adns’

　　make: *** [all] 错误 2

　　函数原型和定义不一致这个好改：

　　打开./adns/internal.h文件，把568－571行直接注释掉就行了。

二，运行

　　这个就不说了，./larbin就运行了，larbin.conf中先进行配置就可以了，这个配置就不说了。。

　　运行后可以http://host:8081 看运行状态，不错的想法。 larbin.conf中有个：inputPort 1976配置，就是可以运行时增加要抓取的URL，这个想法非常好，可是？怎么加呢？象起初那样：http://host:1976那样是不行的，报错？？？试了好久没结果，最后GDB跟踪了一下，唉，原来直接telnet host 1976进行增加就可以了。后来看到文档里写的亲亲楚楚，晕倒。。。。。

　　三，结果

　　哈哈，下班后找了台机子跑了起来，那晚睡觉的时候都梦见自己的搜索引擎赶GOOGLE超BAIDU了，那个兴奋啊。

　　第二天上班的时候取看结果，发现目录下除了些fifo*文件外什么都没有，那个郁闷。没办法啊，再看文档 How to customize Larbin 发现这么段说明：

　　The first thing you can define is the module you want to use for ouput. This defines what you want to do with the pages larbin gets. Here are the different options :

　　DEFAULT_OUTPUT : This module mainly does nothing, except statistics.

　　SIMPLE_SAVE : This module saves pages on disk. It stores 2000 files per directory (with an index).

　　MIRROR_SAVE : This module saves pages on disk with the hierarchy of the site they come from. It uses one directory per site.

　　STATS_OUTPUT : This modules makes some stats on the pages. In order to see the results, see http://localhost:8081/output.html.

　　靠，默认什么都没输出，于是认真的看了官方网站上仅有的两个文档，修改了options.h再编译，终于有结果了。

　　我的option中改了：

　　SIMPLE_SAVE 简单输出一个目录两千个文件，包含索引。

　　CGILEVEL＝0 处理服务器端程序，也就是但url中包含? & = 之类的querString时也处理。

　　NO_DUP

　　其余可根据各自需要修改，详见： How to customize Larbin 一文。

　　四，问题

　　在使用过程中发现，在抓网页的时候，如果URL中包含未编码(encodurl)中文时，无法抓取，简单的看了一下在： src/utils/url.cc中的fileNormalize 有涉及。于是写了个encodurl函数加在url类的构造函数里，问题就解决了。

　　由于需要比较好的可定制性，这个工具似乎还不大满足我的需求，最终我没使用她，而是自己用perl在WWW:SimpleRobot的基础上搞了个适合我的。。再说了perl在字符窜处理上应该不比C＋＋慢，总的来说那个小工具性能还不错。。呵呵。

　　不过还是把这些写出来，给没看文档的朋友（希望很少），也警示自己一定要认真看文档

http://www.yuanma.org/data/2007/0210/article_2276.htm

用Nutch架设自己的搜索引擎

Nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎.

尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.

Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果。

Nutch 是一个应用程序，是一个网络蜘蛛，它会在网站上自动爬行，抓取网页。Nutch 的爬虫有两种方式：

爬行企业内部网(Intranet crawling)。针对少数网站进行。用 crawl 命令。

爬行整个互联网。使用低层的 inject, generate, fetch 和 updatedb 命令。具有更强的可控制性。

在我的试用安装时，对安吉高级中学网站（http://www.angao.com）进行了抓取，进行了调试。花了我半天时间，总算行了，大家可以查看演示网址：

http:// http://9ding.xicp.net/zh/ 在里面进行搜索下，感受Nutch的强大功能。

在安装时，前提条件是在你的计算机中已安装好JDK，Tomcat，并已设置好环境变量等。由于Nutch是一个在Linux下运行的应用软件，如果想在windows平台下运行，需安装cygwin软件，这是一个模块Lunux系统环境的软件，以便能正常运行Nutch脚本。

具体要求：

已安装好java1.4版本以上，Tomcat4版本以上，有一个调试好的JSP运行环境。

设置系统变量NUTCH_JAVA_HOME，由于我的java程序安装在d:\jsp\j2se5,所以在我的机器上把变量设置为NUTCH_JAVA_HOME＝d:\jsp\j2se5,在winXP系统中，在我的电脑－＞属性－＞高级　标签下－＞环境变量－＞双击设置。

安装cygwin软件，这是一个Linux环境模拟软件。

有一个比较大的硬盘空间，推荐4G以上。

下载Nutch，进行安装。

附软件下载地址：

j2SE5.0 http://java.sun.com/javase/downloads/index.html

Tomcat5.5 http://tomcat.apache.org/download-55.cgi

Cygwin http://www.cygwin.com/

Nutch http://lucene.apache.org/nutch/

安装步骤：

1、由于大多数使用的都是windows系统，所以必需先安装Cygwin软件。

我也是这样。从cygwin网站中下载来的是cygwin_setup.exe安装文件，直接双击就可以安装了，安装时有三种方式，我选择的是在线安装，把所有的部件全都安装了。这个安装方式比较慢，我花了3个多小时。安装完毕后，在桌面上出现了cygwin的快捷方式，直接双击该图标，在命令行中输入：

cd /cygdrive/d/jsp 回车

再输入命令ls(这是个Linux命令，作用相当于DOS下的dir命令)，窗口显示d:\jsp下所有的目录及文件。

提示：由于我所有的jsp相关文件都是安装在d:\jsp目录下，所以这里为了演示，输入命令为

cd /cygdrive/d/jsp ,这里d/jsp可以替换为你自己的文件目录。如果你能显示出目录文件，就说明cygwin 已安装成功了。

设置系统变量NUTCH_JAVA_HOME，设置好后，需重启电脑。

2、抓取网站内容前的准备工作

1）把下载后的nutch-0.7.2.tar.gz解压缩到你的指定目录下，我是放在D:\jsp\sousuo\nutch目录。建立一个文本文件，内容是你要抓取的网站地址，我的内容是http://www.angao.com,然后保存到nutch的安装目录下。文件名取为urls.txt。

2）打开Nutch安装目录下，修改conf子目录下的crawl-urlfilter.txt文件，在最下面部分改为

# accept hosts in MY.DOMAIN.NAME

#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

+^http://www.angao.com/ ##这里改为你要抓取的网站地址，其实这里是配置一个##

##取过滤器，用来配置网站的哪部分内容是你想要抓取的##

# skip everything else

修改好后，保存。

3),在你的nutch安装目录下建立一个crawled子目录，用来存放网站抓取后的内容及索引，目录名是可以任意的。

3、运行Crawl命令抓取网站内容

双击桌面cygwin图标，打开命令窗口。输入

cd /cygdriver/d/jsp/sousuo/nutch 回车，

此时目录转到d:\jsp\sousuo\nutch下，这也是我的nutch安装目录，如果你的nutch安装在其它目录，则命令cd /cygdriver/d/jsp/sousuo/nutch中的d/jsp/sousuo/nutch部分改为你的nutch安装路径即可。

然后再输入

bin/nutch crawl urls.txt –dir crawled –depth 3 –threads 4 >& crawl.log

稍等几分钟，程序抓取过程结束，在你的crawled子目录下，将会看到抓取的内容。

下面解释下该命令：

crawl 命令有几个参数,它们是：

－dir 指定抓取后内容及索引的存放目录

－depth 指定网站抓取的层数

-delay 指定连接目标网站延迟时间

－threads 指定程序运行的线程数，以提高抓取速度。

在命令bin/nutch crawl urls.txt –dir crawled –depth 3 –threads 4 >& crawl.log中

urls.txt是开头建立好的，内容是目录网址，>&crawl.log是指定记录文件，在抓取过程中的错误及其它内容都会记在此文件中。bin/nutch crawl部分是运行nutch安装目录下的bin子目录下的nutch脚本　crawl是命令名。

4、使用Tomcat进行搜索测试

把nutch安装目录下的nutch-0.7.2.war文件拷到Tomcat的webapps目录下。当war展开后，改名为nutch。修改webapps\nutch\WEB-INF\classes目录下的nutch-site.xml文件，改成如下内容

searcher.dir

D:\jsp\sousuo\nutch\crawled

在这里value标签就是指定你搜索的目录，这个目录，也就是开头你抓取后存放抓取内容及索引的目录。D:\jsp\sousuo\nutch\crawled部分，你可以自由修改。

接下来修改tomcat\conf下的server.xml文件，将其中的Connector部分改成如下形式即可：
　　               enableLookups="false" redirectPort="8443" acceptCount="100"
               connectionTimeout="20000" disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />

这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句，目的是为了解决汉字编码问题，以免在进行中文搜索时，出现乱码。

最后可以启动tomcat,在IE地址栏中输入http://localhost/nutch,　即可，出现nutch的搜索界面，你现在马上就可以开始搜索了。

Tao Jin

2009年4月15日星期三

开源搜索引擎资源

Egothor

Nutch

Lucene

Oxyus

BDDBot

Zilverline

XQEngine

MG4J

JXTA Search

YaCy

Red-Piranha

LIUS

Aperture

Apache Solr

Paoding

Carrot2

Regain

Hounder

Larbin网站爬虫简明使用说明

没有评论:

发表评论

博客归档

我的简介