现在的位置: 首页 > seo学习 > 正文

网站服务器日志怎么看

2011年10月06日 seo学习 ⁄ 共 4781字 ⁄ 字号 暂无评论 ⁄ 阅读 1 次

今天查询了seo方法的网站的收录情况,还是百度一个,首页,还是在改版之前的首页,想看看百度蜘蛛有没有来,下面是黑雨seo搜索的一些关于网站服务器日志怎么看的资料,供大家分享。
一,访问原理
1、客户端(浏览器)和Web服务器建立TCP连接,连接建立以后,向Web服务器发出 访问请求(如:Get),根据HTTP协议该请求中包含了客户端的IP地址、浏览器类型、 请求的URL等一系列信息。
2、Web服务器收到请求后,将客户端要求的页面内容返回到客户端。如果出现错误,那么返回错误代码。
3、服务器端将访问信息和错误信息纪录到日志文件里。
二查看服务器日志文件的作用
网站服务器日志记录了web服务器接收处理请求以及运行时错误等各种原始信息。通 过对日志进行统计、分析、综合,就能有效地掌握服务器的运行状况,发现和排除错误原 因、了解客户访问分布等,更好的加强系统的维护和管理。
对于自己有服务器的朋友或是有条件可以看到服务器日志文件的朋友来说,无疑是了 解搜索引擎工作原理和搜索引擎对网页抓取频率的最佳途径。
通过这个文件,您可以了解什么搜索引擎、什么时间、抓取了哪些页面,以及可以知 道是主搜索蜘蛛还是从搜索蜘蛛抓取了您的网站等的信息。
三、怎么下载网站日记以及网站服务器日志怎么看
1. 如果自建主机且是iis服务器,iis默认是开启日志功能的,默认路径您可以在iis后台管理那里对应网站文件夹那里看属性配置,找到文件夹位置即可。您也可以把日志文件放到一个比较容易找到的位置!
2. 如果你的是虚拟主机,那么可以在ftp的根目录下找到带有log的文件夹,或者直接咨询您的空间商是哪个文件夹,不同的空间商会有所不同。如果没有就叫您的空间上帮忙开通下~~! 在ftp上的日志文件要下载了才能看到。
3.支持cPanel的空间可以使用日志界面直接点击下图中的“原始访问日志”下载网站日志文件,或者是点击“最近的访客”直接直接查看网站日志。(推荐后一种,应为下载下来的文件中数据很杂乱,没有条理)
四、实例解析
网站服务器日志怎么看
我们用文本打开服务器日志,然后我们就会看到很多条记录,在这里,我为大家讲解一下如何看懂这些“天文”!
举例说明:66.249.68.143 – – [29/Jun/2011:00:30:29 +0800] “GET/seoshichang/ HTTP/1.1″ 200 7926 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
第一项信息是远程主机的地址。
日志记录的第二项是请求的时间。上例日志记录表示请求的时间是2011年6月29日00:30:29。时间信息最后的”+0800″表示服务器所处时区位于UTC之后的8小时。
日志记录的第三项信息是整个日志中最有用的信息,它告诉我们服务器收到一个什么样的请求,上例中为浏览者请求访问“/seoshichang/”页面。
在上例中,METHOD是GET,其他经常可能出现的METHOD还有POST和HEAD,此外还有不少可能出现的合法METHOD,但主要就是这三种。
PROTOCOL(协议)通常是HTTP,后面再加上版本号。
日志记录的第四项信息是状态代码,如果显示200则表示请求成功,如果显示的是300开头则是表示重定向,现实400则表示有错误。
日志记录的第五项表示发送给客户端的总字节数。
日志记录的第六项记录的是你的页面访问者,上例中为Google蜘蛛,当然,还有百度蜘蛛和雅虎蜘蛛等。
这行的意思是2011年6月29号零点30分29的时候,IP为66.249.68.143的谷歌搜索引擎蜘蛛(Googlebot)访问了/seoshichang/页面,访问结果为浏览成功。
五,实例解析(二)
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2006-05-12 03:56:30
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2006-05-12 03:56:30 ************** 218.25.92.169 GET / – 80 – 220.181.18.98 Baiduspider+(+[url]http://www.baidu.com/search/spider.htm[/url]) 403 14 5
/* 说明 */
上面定义了在2006年5月12日的3点56分30秒的时候,IP为220.181.18.98的百度蜘蛛通过80端口(HTTP)访问了IP为218.25.92.169的服务器的根目录,但被拒绝。
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2006-05-12 10:18:39
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2006-05-12 10:33:36 ************** 218.25.92.169 GET /***/index.htm – 80 – 10.2.57.6 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) 200 0 0
2006-05-12 10:33:36 ************** 218.25.92.169 GET /***/***/***.gif – 80 – 10.2.57.6 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) 200 0 0
/* 说明 */
上面定义了在2006年5月12日的10点33分36秒的时候,IP为10.2.57.6的用户正常访问了网站**************中***目录下的index.htm页和***/***下的***。gif图片。
#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2006-05-12 13:17:46
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2006-05-12 13:17:46 ************** 218.25.92.169 GET /robots.txt – 80 – 66.249.66.72 Mozilla/5.0+(compatible;+Googlebot/2.1;++[url]http://www.google.com/bot.html[/url]) 404 0 2
2006-05-12 13:17:46 ************** 218.25.92.169 GET / – 80 – 66.249.66.72 Mozilla/5.0+(compatible;+Googlebot/2.1;++[url]http://www.google.com/bot.html[/url]) 403 14 5
/* 说明 */
上面定义了在2006年5月12日的13点17分46秒的时候,IP为66.249.66.72的Google蜘蛛访问了robots.txt文件,但没有找到此文件,有访问了此网站的根目 录,但被拒绝。
现在也有很多日志分析工具,如果您的服务器流量很大的话,作者推荐使用分析工具来分析服务器日志。
六、网站日记还能看到什么
分析网站日志当然需要网站日志分析器,当然现在很多人使用免费的网站日志分析器,但是这些网站日志分析器分析出来的东西很有限,所以说很多网站信息也就被影藏了,下面我就以那种付费的网站日志分析器来阐述。
大家通过普通日志分析器一般都是看有没蜘蛛来过,什么蜘蛛,访问时间,访问哪些了页面、访问次数及返回的状态码,如下图1,而更专业的日志分析器能够知道蜘蛛来的次数,还知道蜘蛛总停留时间、总抓取量,如图2,
通过公式得出蜘蛛每次来抓取页数=总抓去量/ 蜘蛛来的次数,从而知道蜘蛛抓取的深度,是不是网站结构太深,抓取深度不高的话,会造成很多层级很深的页面不会被抓取到;以及造成少数页面被反反复复在抓取,浪费了爬虫的时间。这样,很多网站想要在百度上获得收录就成了问题。
通过公式得出蜘蛛每页停留时间=蜘蛛总停留时间/总抓取量 ,从而知道网页加载速度及是服务器响应速度大概什么情况,是不是要优化网页代码和优化硬件设施。大家都知道网页加载速度也是对网站排名有关。
还告诉大家一个秘密,有些蜘蛛来访问网站时是不带User-agent,就像是康熙微服私访一样,这样做的目的是什么,大家自己想吧,然而怎么判断这个IP是那个蜘蛛的呢,大家可以tracertIP地址就知道是什么蜘蛛了。
七代码解释。
如果百度蜘蛛来过。他一定会在IIS里面留下记录。打开IIS日志内容,查找baidu 一下是代码解释
2xx 成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
例如:
2009-07-12 00:25:03 W3SVC818374 222.214.218.36 GET /catalog.asp?cate=2- 80 – 221.10.254.26 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 21089
如果你的网址是27ying.com这就意味着百度蜘蛛在2009-07-12 00:25:03 爬过catalog.asp?cate=2 这一页,200 0 0 21089中的200协议代码代表了请求已完成也就是它发现这页并以入库了。根据这个我们可以多查看iis日志,研究蜘蛛爬行的路径,找出自己网站存在的问题,进而改正。
以上就是黑雨seo找到的关于网站服务器日志怎么看的相关资料。

猜你喜欢

给我留言

留言无头像?