搜索引擎机器人程序如何访问你得网站

网站服务器日志记录了网络服务器接收处理请求以及运行时错误等各种原始信息。通过对日志进行统计、分析、综合,就能有效地掌握服务器的运行状况,发现和排除错误原因、了解客户访问分布等,更好的加强系统的维护和管理。当然你需要学会日志文件的语法,这样你才能看懂,对自己有服务器的或是有条件可以看到服务器日志文件的朋友来说,无疑是了解搜索引擎工作原理和搜索引擎对网页抓取频率的最佳途径。
  通过这个文件,您可以了解什么搜索引擎、什么时间、抓取了哪些页面,以及可以知 道是主搜索蜘蛛还是从搜索蜘蛛抓取了您的网站等的信息。    
访问原理
  1、客户端(浏览器)和Web服务器建立TCP连接,连接建立以后,向Web服务器发出 访问请求(如:Get),根据HTTP协议该请求中包含了客户端的IP地址、浏览器类型、 请求的URL等一系列信息。
  2、Web服务器收到请求后,将客户端要求的页面内容返回到客户端。如果出现错误,那么返回错误代码。
  3、服务器端将访问信息和错误信息纪录到日志文件里。
服务器语法主要有三个重要的请求:
1.GET请求最为常见,它后面跟随一个网页的位置,服务器接受请求并返回其请求的页面。除了页面位置作参数之外,请求还可以跟随协议的版本如HTTP/1.0等作为参数,以发送给服务器更多的信息。

2.POST请求要求服务器接收大量的信息,除了POST后面跟随的参数之外,浏览器还会在后面持续发送数据,让服务器进行处理。通常,POST方法是和CGI程序分不开的,服务器应该启动一个CGI程序来处理POST发送来的数据。

3.HEAD请求在客户程序和服务器之间进行交流,而不会返回具体的文档。当使用GET和POST方法时,服务器最后都将结果文档返回给客户程序,浏览器将刷新显示。而HEAD请求则不同,它仅仅交流一些内部数据,这些数据不会影响浏览的过程。因此HEAD方法通常不单独使用,而是和其他的请求方法一起起到辅助作用。一些搜寻引擎使用的自动搜索机器人使用这个方法来获得网页的标志信息,或者进行安全认证时,使用这个方法来传递认证信息。

下面我们通过举例的方式来对日志文件的语法进行分析。 
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2008-02-12 03:56:30
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2008-02-12 03:56:30 ************** 218.25.92.169 GET / - 80 - 220.181.18.98 Baiduspider+(+http://www.baidu.com/search/spider.htm) 403 14 5

/* 说明 */
上面定义了在2008年2月12日的3点56分30秒的时候,IP为220.181.18.98的百度蜘蛛通过80端口(HTTP)访问了IP为218.25.92.169的服务器的根目录,但被拒绝。

#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2008-02-12 10:18:39
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2008-02-12 10:33:36 ************** 218.25.92.169 GET /***/index.htm - 80 - 10.2.57.6 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) 200 0 0
2008-02-12 10:33:36 ************** 218.25.92.169 GET /***/***/***.gif - 80 - 10.2.57.6 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) 200 0 0

/* 说明 */
上面定义了在2008年2月12日的10点33分36秒的时候,IP为10.2.57.6的用户正常访问了网站**************中***目录下的index.htm页和***/***下的***。gif图片。

#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2008-02-12 13:17:46
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2008-02-12 13:17:46 ************** 218.25.92.169 GET /robots.txt - 80 - 66.249.66.72 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 404 0 2
2008-02-12 13:17:46 ************** 218.25.92.169 GET / - 80 - 66.249.66.72 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 403 14 5

/* 说明 */
上面定义了在2008年2月12日的13点17分46秒的时候,IP为66.249.66.72的Google蜘蛛访问了robots.txt文件,但没有找到此文件,有访问了此网站的根目 录,但被拒绝。 
从上面来看,GET后面有网页地址的说明蜘蛛来抓取过,但有朋友问为什么搜索引擎抓取了,可是却搜索不到,那是因BAIDU屏蔽了你的网站,上面有不合BAIDU算法的东西,比如说我的网站在2月13号就已经被抓取了(快照抓取的时间搜索列表下有),但是到2月25号搜索引擎还搜索不到我,一看原来没有外部链接,我在首页做了个连接到BAIDU,第二天就能看到了,那说明你的网站没有外部链接,引擎即使收录,但也搜不到.

具体参数解释==================================================
可以通过HTTP状态代码查看搜索引擎蜘蛛如何爬行你的网站,具体说明如下:

  代码 指示
  2xx 成功 
  200 正常;请求已完成。
  201 正常;紧接 POST 命令。
  202 正常;已接受用于处理,但处理尚未完成。
  203 正常;部分信息 — 返回的信息只是一部分。
  204 正常;无响应 — 已接收请求,但不存在要回送的信息。
  3xx 重定向 
  301 已移动 — 请求的数据具有新的位置且更改是永久的。
  302 已找到 — 请求的数据临时具有不同 URI。
  303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
  304 未修改 — 未按预期修改文档。
  305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
  306 未使用 — 不再使用;保留此代码以便将来使用。
  4xx 客户机中出现的错误
  400 错误请求 — 请求中有语法问题,或不能满足请求。
  401 未授权 — 未授权客户机访问数据。
  402 需要付款 — 表示计费系统已有效。
  403 禁止 — 即使有授权也不需要访问。
  404 找不到 — 服务器找不到给定的资源;文档不存在。
  407 代理认证请求 — 客户机首先必须使用代理认证自身。
  410   请求的网页不存在(永久);
  415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
  5xx 服务器中出现的错误
  500 内部错误 — 因为意外情况,服务器不能完成请求。
  501 未执行 — 服务器不支持请求的工具。
  502 错误网关 — 服务器接收到来自上游服务器的无效响应。
  503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。

  比如说:
  2004-12-03 07:33:25 61.135.145.208 - *.*.*.* 80 GET /index/119.htm - 304 Baiduspider+(+http://www.baidu.com/search/spider.htm
  这就意味着百度蜘蛛在2004-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是没有更新过的。

  再比如说:2004-12-03 07:33:25 61.135.145.208 - *.*.*.* 80 GET /index/120.htm - Googlebot/2.1
(http://www.google.com/bot.html
  这就意味着Google蜘蛛在2004-12-03 07:33:25爬过/index/119.htm这一页,它发现这页是新的,并全部爬完。



[本日志由 admin 于 2008-03-24 05:29 PM 编辑]
文章来自: 本站原创
引用通告地址: http://www.cn-sohu.com/bolg/trackback.asp?tbID=85
Tags:
评论: 0 | 引用: 145 | 查看次数: 600
发表评论
你没有权限发表留言!
分享到: