1、什么是搜索引擎

    搜索引擎是一个为用户提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。

  •     搜索引擎分为全文搜索引擎(百度、 Google、AltaVista、Inktomi、Teoma、WiseNut)

  • 全文是目前广泛应用的主流搜索引擎。它的工作原理是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

  •     目录索引类搜索引擎(雅虎、搜狐、网易)

  • 目录是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接

  • 472309f790529822d3c996d6d4ca7bcb0a46d429

  •     元搜索引擎(元搜网、go.com、InfoSpace.com、Dogpile、Vivisimo) 三大类型。

  • 搜索引擎分为、元搜索引擎,元搜索引擎就是通过一个统一的帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)来实现检索操作,是对分布于网络的多种的全局控制机制。

2.搜索引擎技术原理

 

  • 组成:搜索器(Searcher)、索引器(Indexer)、用户检索界面(Interface)

  • 搜索引擎的运行:

    a、发现并搜集网页信息;

    b、对收集到的信息根据一定的规则进行提取并建立索引库;

    c、用户检索利用。

3、常用搜索引擎

 

   (百度)

   (谷歌),可以借助其他谷粉之类的,过于厉害的都是要被禁的。

 雅虎

    (sohu)

   (sina,检索词与运算符号之间可以不加空格)

(网易,布尔逻辑算符与检索词需空格)

   (中搜,北极星)

360搜索。

不推荐bing,搜索效果经常不理想。其他的大家可在评论补充。

另外还有各式各样的搜索,比如钟馗之眼(就是神器)

 

4、搜索技巧。

    使用双引号(“”)进行精确查找 

    搜索引擎大多数会默认对检索词进行拆词搜索,并会返回大量无关信息。解决方法是将检索词用双引号括起来,(使用英文输入状态下的双引号。有些搜索引擎对双引号不进行区分),这样得到的结果最少,最精确。

使用多词检索(空格检索)

    要获得更精确的检索结果的简单方法就是添加尽可能多的检索词,检索词之间用一个空格隔开。例如:想了解有些被上的站点的相关信息,在搜索框中输入“admin hack by login”会获得理想的检索结果。这里的空格的作用相当于布尔逻辑“与”的作用。

使用“-”去掉无关资料

    如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”, 英文字符)。在减号之前必须留一空格,但“-”和检索词之间不能留空格。

使用OR包含多个关键字中的任意一个

    大写的“OR”表示逻辑“或”。搜索“AORB”,搜索结果中要么有A,要么有B,或者A、B同时都有。

    示例:搜索如下网页,要求必须含有“admin”和“login”,没有“hack by”,可以含有以下关键字中人任何一个或者多个:“admin”、“蜘蛛”、“webshell”、“login”。    

    搜索:“adminOR蜘蛛ORbackdoorORlogin”

 

在指定网站内搜索(使用site语法)

格式为:检索词+空格+site:网址。

    例如:admin site:aaa.com。

              admin login site:aaa.com | aaa.com.cn

    注意:site:和站点名之间不要带空格

 

指定文档类型搜索

    表达式为:查询词+空格+Filetype:格式。

    文档格式可以是DOC、PDF、PPT、XLS 、 ALL (全部文档)等类型。大小写一样。

    例如:filetype:doc Python编程  (正着反着都一样)

    语法中的冒号中英文皆可,但检索词和filetype之间一定要加一个空格。

    在部分搜索引擎中,如百度,filetype语法可以与site语法混用。例如在百度和谷歌搜索关于Python编程的文档,就可以用:site:www.baidu.com | www.google.com filetype:all Python编程

限定在标题中搜索( TITLE: or INTITLE: )

    “TITLE:和“INTITLE:”都用于针对标题进行搜索。

    格式: TITLE: (INTITLE:)检索词

    例如:TITLE:51cto

把搜索范围限定在url链接中

    格式:inurl:检索词

    例如:51cto inurl:麦林泡泡,它表示“51cto” 是可以出现在网页的任何位置,而“麦林泡泡”则必须出现在网页url中。百度、Google等都支持该语法。(URL  是Uniform Resource Locator的缩写)

    注意,inurl:语法和后面所跟的检索词间不要有空格。

使用“《》”进行精确查找:碉堡了,我也没看懂这个到底咋回事

     例如,使用检索式“《51cto》”,可以精确查找到《51cto》这本书的相关信息,而不是51cto信息;而使用《Python编程》进行检索得到的结果则多为《Python编程》这本书的信息。

 

使用加号(+)

    在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出在搜索结果的网页上。例如:在搜索引擎中输入“admin+login+php”,表示要查找的内容必须同时包含“admin、login、php”三个关键司。

使用通配符(*和?)

    “*”表示匹配的字符数量不受限制,“?”只能匹配一个字符。

例如:输入“computer*”,则可以找到“computer、computers、computerized”等,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。

 

提高搜索精准度

    ["51cto"] 就比 [51cto] 更确切。   虽然只要搜51cto基本都是我们51cto的站。

我们也可以尝试在中文站点搜索英文关键词。因为有的翻译或者英文内容更新鲜。链接打不开直接上快照。

    Site语法的使用

       语法格式:

       site : 网址 关键词

       或者 关键词 site : 网址

  • site:后边跟的冒号必须是英文的“:”,中文的全角冒号“:”无用

  • url前不能带http://

  • url后边不能带斜杠“/”,其实是哪里都不能带/

  • url中不要用www,除非你有特别目的,用www会导致错过网站内的内容,因为很多网站的频道是没有www的。

  • 关键词既可以在“site:”前,也可以在“site:”后,搜索结果是一样的,但是不管谁前谁后,关键词和“site:”之间必须空一格。

  • 对于“site:”搜索,关键词一样可以是多个,多个关键词之间以空格隔开。

  • 支持与其他复杂搜索语法混用,各语法和关键词之间空一格

  • 除了网站,还可以搜索网站的频道,但仅限于不用“/”的。

  • 一个网站可能有多种语言,所以选择“搜索所有网站”和“搜索中文(简体)网页”是有差别的 当然,如果指定的网站只有一种语言,怎么选择就都一样了

用途:

  • 可用于限制网站类型,学术资料在eduorg中会更精练,政府相关的在gov中也许更容易找。

  • 用了eduorgnetgov之类的域名后缀,并不会搜索所有含这个后缀的网站。只会搜索以这个后缀结尾的网站,带cnussi等各国家和地区域名后缀的edu.jpgov.usorg.it等是不搜的,所以你要另外搜。

  • 搜索某种语言或某个关键词在指定国家的网站。

  • 有的网站没有提供站内搜索,或者它的信息结构混乱,内容又多,不好找东西,那么可以用“site:”对这个网站进行检索。

Google的“site:”功能比多数网站自己的站内检索还要好用,如果你查的不是动态数据库,而且对时效性要求不高的话。

  • 搜索不欢迎你搜索和免费使用的网站、数据库的部分内容。

  • 用“site:”搜索死链接网站、已关闭网站内的信息。

 

5、其他功能

  •     计算器:直接搜索 例如:  200*90/12

  •     我推荐用百度。谷歌能用那更好。   可以直接进行复杂计算。懒得再去用微软的计算器了。

  •                                    例如:     log((sin(3))^2)-6+pi

  •     单位换算:  例如  500兆=?G

  •     查找关于黑哥的白帽子的doc文档    白帽子 黑哥  filetype:doc

  •            文档搜索     h

  •            百度词典    

  •    

  • 元搜索引擎:支持本地搜索,一次输入,返回多个搜索引擎结果,并对结果进行优化排序。          如:  (英文)

  •           

  • 垂直搜索引擎

  • 是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理,再以某种形式返回给用户。

  • 例如: (搜煤网)

    •    (职业搜索引擎)

    •      (视频搜索引擎)

6、需要特别注意的

    

  • 1. 搜索引擎利用搜索逻辑命令可以更准确地搜索到所需信息,搜索逻辑命令指布尔命令ANDORNOT,与之对应的逻辑符号命令为“+”、“|”和“-”。逻辑命令AND或“+”表示搜索结果包括其作用的关键词;逻辑命令OR或“|”表示搜索结果至少包括其作用的关键词中的一个;逻辑命令NOT或“-”表示搜索结果不包括其作用的关键词。逻辑符号命令“+”、“|”和“-”必须为英文状态下的符号,而且和所作用的关键词之间不能有空格;布尔命令ANDORNOT必须为大写。

  • 2. 输入关键词进行Google网络搜索时,如果关键词不加引号,搜索结果虽然包括关键词但顺序不一定和输入的关键词一致;如果要求搜索结果中包含的关键词和输入的关键词顺序一致,输入的关键词必须加引号。

  • 3. 进行网页标题搜索时,intitle后面的“:”必须为英文状态下的冒号,并且冒号与其后面的关键词之间不能有空格。

  • 4. 进行特定类型文件搜索时,filetype与文件类型之间的“:”必须为英文状态下的冒号,并且冒号与其后面的关键词之间不能有空格。

  • 5. 因不同的搜索引擎其工作原理存在差别,每种搜索引擎都有优缺点,实际操作中要根据搜索的内容选择搜索性能相对高的搜索引擎。

  • 6. 虽然每种搜索引擎的使用方法大体相同,但也存在一些差别。实际操作中要注意这些差别。

转自http://molilinzi.blog.51cto.com/8282931/1703734,开头有增加