搜 索 引 擎 说 明


如果知道了网上的不同的搜索工具是如何设计的,特别是
知道了每个工具的特殊的规则(对不同的工具这常常是不
同的),就能更好地使用这些工具。本文将介绍这方面的
知识,文中提到的工具是按其实用的程度组织的,并简要
地介绍了它们的规则。文中还举出了一些简单的例子,如
果想得到更详细的例子,请查看站点上的帮助文档。

一、AltaVista(http://www.altavista.com)

AltaVista是网上搜索引擎的领先者, 它有最大的、详尽
的索引。但这并不是说它是无所不包、无所不能的。在使
用不同的搜索引擎时,不同的人和不同的索引策略导致的
是不同的结果。 不过AltaVista总能返回有用的信息,但
由于没有对内容进行选择,它的“信噪比”也是最大的。

AltaVista可以对网页和很多Usenet Newgroups进行查找。
它可以对返回的结果的格式进行控制,分为标准、压缩和
详细三种格式。它还能提供简单的和高级的搜索。高级的
搜索包括了简单的搜索的所有特性,还允许使用布尔运算
符和接近操作符、括号等,查找的结果按关键词排序。

1.简单的搜索

要进行有效的搜索,最好输入描述所感兴趣的主题的尽可
能多而精确的词或词组。提供的词组越精确,检索结果就
越好。

大小写敏感性:若输入的都是小写字母的词,则对大小写
不敏感; 而含大写字母的词则是对大小写敏感的。 如
HotDog只搜索含有这个词的内容,而hotdog则不论大小写
都搜索。

词组:要把词合成词组,应把它们用上双引号。"Abraham
Lincoln"查那些含有Abraham Lincoln这个名字的内容,
区分大小写。另一种链接单词的方法是在它们的中间插入
分号,如:

Abraham;Lincoln;Gettysburg;Address.

要求的单词:如果要求特定单词包含在索引的文档中,可
以在它前面加一个+号, 如:+HotDog。并且在+号和单词
之间不能有空格。

排除的单词:如果要排除含有特定单词的文档,可以在它
前面加一个-号: -mustard。 如果想查找F. Scott
Fitzgerald 而不含有Gatsby, 应这样: +"F. Scott
Fitzgerald"-Gatsby。

通配符:进行简单查找的时候,可以在单词的末尾加一个
通配符来代替任意的字母组合。AltaVista的通配符是*号。
如,butt*可以代表butt、butts、butter和button等。星
号不能用在单词的开始或中间, 它最多可以代替5个小写
的字母。

等级: AltaVista会为查得的结果按下列的标准赋予一个
可靠等级:

①在结果的前几个单词中含有要查找的单词(特别是网页
的标题);
②在结果中要查找的单词很靠近;
③该结果比其它的结果含有更多的要查找的词。

权衡了这些因素后,最高可靠等级的结果的得分是1.000。
所有的其它结果按可靠度给与低于1.000的一个分。 这并
不是说得分是1.000的结果是最好的资源, 它只是最好地
满足了分级的算法。除非你知道要查找的文档的标题,否
则得分第一的结果未必是“最好”的结果。例如,要查找
标题为“Mr.Willam Shakespeare and the Internet”的
文档,可以通过把该词组引起来来得到确切的网页。但如
果分别地输入这几个词, 或只是查找“shakespeare”就
会查得太多的无用的结果。

对使用AltaVista的最有用的建议是, 由于它的索引是基
于整个单词的正文的,在描述查找的单词时越精确越好,
还要去掉那些不感兴趣的单词。

2.高级的搜索

高级搜索包含了简单的搜索的所有特性,还可以有布尔和
接近操作符、 括起来的逻辑组合等。 布尔和接近搜索:
Alta Vista支持二元操作符AND、 OR、NEAR和一元操作符
NOT。可以使用下列符号来代替单词:&(AND) 、|(OR)、~
(NEAR)、!(NOT)。但作者建议使用单词而不是符号,因为
单词容易记忆而且对其它的搜索要求也通用。最好用括号
把单词组括起来,不过这并不是必须的。

例子:

horses AND carriages

"Abraham Lincoln" AND "civil war"

("Abraham Lincoln") AND NOT ("civil war")

(注意:不要使用x NOT y, 必须是x AND NOT y。)

"Thomas Middleton" OR "Beaumont and Fletcher"

(dogs OR cats) AND ("pet care")

"William Shakespeare" NEAR internet

结果等级:使用高级的搜索还能指定AltaVista 用于排序
结果的关键词。这样,虽然对查找的结果没有影响,但可
能最感兴趣的结果会放在最前面。

二、Excite(http://www.excite.com)

Excite使用的是基于关键词或基于概念的正文和主题搜索。
按Excite的作者的话来说,概念搜索不是只简单地查找含
有要查找的单词的文档,同时还搜索同要查找的概念相关
的文档。缺省的查找是概念查找。用户可以查找网上的文
档、评论、UseNet NewsGroup或分类区。在同一个搜索框
内可以输入简单的或更高级的搜索,包括布尔搜索和逻辑
组。用户不能像其它一些搜索引擎一样控制搜索结果的格
式。

对于所有的搜索引擎来说,在搜索框内输入的描述单词越
多,查得的相关结果越少。按照它的分级算法,在搜索框
内出现的一个单词的次数越多,含有它的结果的等级越高:
dog dog dog cat将使含dog的结果的等级比含cat的结果
的等级高。

Excite中要求的单词和排除的单词的使用方法同
AltaVista一样,使用+号和-号。

布尔搜索: Excite支持二元操作符AND、OR、AND NOT 和
一元操作符NOT。 它也支持用括号来构成逻辑组。缺省的
关键词使用的是隐式的OR , 即它搜索含有指定的任意的
单词。

例子:

(illegal AND immigrant) AND NOT (Mexico)

alien OR ufo

alien AND NOT ufo

football AND (rugby OR soccer)

三、Webcrawler(http://www.webcrawler.com)

现在由America On-Line公司赞助的Webcrawler 是一个杰
出的搜索引擎, 它样子很象 AltaVista 。实际上,它在
高级搜索方面的功能要比AlataVista强。产量接近操作符
NEAR和ADJ,它还有由GNN的编辑们事先分好类的主题。它
实现了基于主题的搜索,这方面很象Excite。最后,它还
有自己的优点,因为有这样一个大公司支持,它的商业化
的色彩不象Excite和Lycos那样浓。

Webcrawler号称支持“自然语言搜索”,所以可以输入象
“highest mountain in the world(世界上最高的山)”
这样的查询条件。它抛弃了无意义的词,对其余的词做模
糊的AND搜索。 含有所有的词的页面等级最高,但也能查
到只含一个词的页面。 这是那些最佳引擎的通用策略。
Webcrawler的不同之处在于它定义的无意义的词相当广。

显示控制:可以选择显示结果的网页标题或标题和小结都
显示。 也可以选择每页显示的结果数:10、25或100。小
结模式将显示该页的摘要, 它的URL,它的可靠等级的数
字显示。

可靠等级:在每个结果的旁边有一个看起来有些象六月的
幼虫的图标, 幼虫越满,结果的可靠等级越高。当选择小
结模式时,显示的是数字,但好象只是结果中含有的搜索
词出现的次数。

词组、 布尔和接近操作符的使用类似于AltaVista。但它
的接近操作符很有特色。 可以使用NEAR/n,n是两个被搜
索词之间的单词的数目, 如: Shakespeare NEAR/5
Internet。 如果不输入n,表示两个词挨在一起。为了控
制挨在一起的两个词之间的顺序,可以使用 ADJ 操作符,
如: reverse ADJ osmosis,表示reverse必须在osmosis
之前。

Webcrawler不支持要求/排除的单词的查找, 也不支
持通配符。

主题目录: 这也是 Webcrawler 的一个特点。 目录是由
Global Network Navigator的编辑们创建的,相当的好。

总的来说,Webcrawler在使用的简便和实现的接近操作符
搜索上是很突出的, 但它的索引好象不如AltaVista和
Lycos那么广泛。 它还提供了一些特殊的服务,如“反向
搜索网络”,可以看谁连到了你的网页上,还有网络统计
功能等。

四、Lycos(http://www.lycos.com)

Lycos是最早出现的搜索引擎之一。 随着网络的爆炸,出
现了更好的搜索引擎,虽然Lycos不象其它一些那么杰出,
但它仍然又好又快。它提供关键词和主题查询(主题查询
叫做目录服务)。它的优点在于它的速度快、使用简便、
索引很大, 它的弱点则是它不支持布尔搜索和其它如
ALtaVista、Webcrawler或Excite能提供的一些高级搜索。

显示控制:可以控制搜索的词之间的关系--OR(缺省)、
AND等, 每页显示结果的数目(10、20、30或40),和结
果的内容(标准、小结或详细)等。

包含/排除和等级: Lycos不提供要求/排除单词的功能,
但可以在一个单词前加一个"-"号, 表示在给结果定等级
时, 不考虑这个单词,如:dogs-doberman,也能查到含
doberman的页面,但那些页面不会是很靠前的结果。

通配符: 它的通配符是$符号。 如gen$ 表示 genetic、
genesis、general等。它还提供了英文句号(.)的使用,
可以禁止扩展一个单词。如gene. ,只能得到gene,而得
不到genetics和general。

五、Opentext(http://www.opentxt.com)

Opentext早期流行过一阵,现在它的帮助页面上的信息已
经不再精确了。不过,它还是一个很好的搜索工具。

Opentext不支持通配符,但它能很好地处理复数。用户不
用输入单词的复数,它能自动地查找这些单词的复数形式。

接近操作符:它实现了NEAR操作符,但范围是80个单词,
不能调整。 还实现了FOLLOWED BY操作符 (就象
Webcrawler的ADJ操作符) ,但范围也是不能调整的80个
单词。这么大的范围降低了操作符的用处。

Opentext不局限于整个单词, 所以搜索head也能查到
headstrong 和headline。但如果输入了复数而不是单数,
就查不到这个词。所以,对于Opentext来说,正确的拼写
是很重要的。

六、Infoseek(http://www.infoseek.com)

Infoseek以前曾经是Netscape的缺省搜索引擎。它并不是
最好的。它的优点在于它的速度快和使用方便。它的缺点
在于它缺乏高级功能(不支持布尔搜索)。它既是搜索引
擎, 又是可搜索的主题目录, 可以搜索UseNet
NewsGroups、E-Mail地址和Web的FAQ。

搜索是对大小写敏感的。大写的单词被当成正确的名词来
查找。相邻的大写单词被认为是一个词组。大写的词组必
须被逗号分开,如:The Great Bambino, Baseball Hall
Of Fame。 词组也可以有双引号引起来,另一种方法是使
用连字符,如wonderful-life。

要求/排除操作符:同AltaVista一样,使用+号和-号。
用法也相同。

接近操作符: 把单词放在方括号里, 要求它们的距离在
100 个单词之内,如[immune disease]。

七、Yahoo!(http://www.yahoo.com)

Yahoo!不是搜索引擎,而是严格的层次组织的主题索引。
它已经开发了很长时间,有很多编辑人员来维护,所以质
量非常高。当不知该去哪里的时候,在Yahoo!上浏览是找
到好站点的最好方法。它也是找到好的“初学者”站点的
最好方法,从那里可以连到更专门的站点上。

Yahoo!的使用很简单。只要输入查找单词,单击按钮
即可。它将返回三种信息:

1)满足查询条件的Yahoo的目录(用户可以利用它们进行
交叉引用);
2)满足条件的实际站点;
3)更广泛的含有页面索引的Yahoo! 目录--这是一种更
广泛的交叉引用。

虽然不能进行很高级的搜索,但用户可以控制:

1. 搜索的范围: Yahoo(缺省) , Usenet或Email
Address;

2.搜索词之间的关系:OR还是AND(缺省);

3.是进行子串搜索(如输入head,可以查headlines )
还是进行完整的单词搜索 (如输入headlines 才搜索
headlines) ,缺省是子串搜索;控制每页显示的结果数
目:10,25(缺省),50或100。

八、NlightN(http://www.nlightn.com)

NlightN是一种经典的信息/文档交付服务。可以免费地使
用它的通用索引,在订购文档的时候才支付费用。它的索
引除了网页外,还包含参考著作、新闻电信、书籍、论文
和很多公共和专用的数据库。这是一个盈利的组织。虽然
可以得到一个免费的帐号,但查找的能力很有限。如果要
想付费使用的话,可以从它的帮助文档里得到FAQ。

它的搜索查看很简单,只要输入词,单击FIND按钮,就会
进入一个中间窗口,显示查到的结果有以下几种类型:

1.信息数据库;

2.当前的新闻简介;

3.新闻档案;

4.WWW互联网索引;

5.桌面参考;

6.折价的书店。

选择了WWW之后, 会发现它的索引不如其它的完整,
但也能找到一些有用的信息。

布尔查找:缺省的操作符是AND。建立布尔表达式的时候,
可以用符号&代表AND, |代表OR,^代表NOT,如 (Army &
Navy)^(Air Force)。可以用括号把单词组成词组。

如果得到了一个正式的帐号,搜索窗口就不一样了。可以
在域内进行选择(就象图书馆目录中的作者/书名/主题域)
,还可以控制搜索的数据库的范围。通过LIMIT/FILTER和
SEARCH LOG选项还能聚焦搜索的范围和访问以前的搜索结
果。

九、The Internet Sleuth(http://www.isleuth.com

这是一个很有用的工具,不过并不是那么完整。它同前面
的工具有些不同。它对大量的数据库做了索引,提供了一
个前端的工具。因此,在搜索框内输入尽可能广义的一个
单词,然后在结果搜索窗口中选择最合适的。例如,想要
查找Sonny Bono的经典歌曲“I Got Your Babe” ,首先
搜索“music",结果将是29个可搜索的数据库,如CD-Rom
数据库、音乐学院、芝加哥音乐会、Smithsonian民谣等。
其中有一个叫歌词服务器,从中可以得到想要的歌词。

它允许布尔搜索和通配符搜索,还有关于搜索的提示。它
甚至能查到Yahoo的索引。

十、Magellan(http://www.magellan.com)

Magellan实际上不是一个搜索引擎, 而是一个在线的
Internet指南,包含了被分级和评价过的站点的目录,也
有很多没评价过的站点的索引。它有点象Yahoo!,虽然不
太完整,但它的分级系统却很全(从一星到四星)。它的
优点在于它的评价系统。 它的重点是流行站点(UFO是它
的前页的主要目录之一)。唯一的缺点是那些不可避免的
广告。