相信科技改变生活,一个老程序员的闲言碎语。

如何蜘蛛引导系统地抓取网站

内容简介:这是一篇关于抓取站点地图,蜘蛛引导程序,蜘蛛抓取系统的文章。谷歌对于rss文件与sitemap也是较为偏爱的,特别是在你有提交谷歌管理员工具的时候,googlebot一般会先读取rss或者sitemap,而后根据列出的地址逐一进行抓取。因此,引

对于新上线的网站,能否快速被搜索引擎抓取,成为许多站长为之烦恼的事情。那么有没有什么技巧能引导搜索引擎快速的抓取页面呢?以下是从网上搜集整理的资料。

假如你可以看到谷歌对新站抓取的日志,你会发现,对于大多数站点,谷歌的抓取都是极有规律的,只要你的模板不会太糟糕,它都会先抓取栏目页面,值得一提的是,像“关于我们”,“联系我们”这样的页面也是经常是第一批被抓取的对象,也就是说,谷歌能够读懂你的html代码,能够大概地明白哪个div是导航,哪个div是文章列表,哪些链接可能是栏目页面,因此,一个符合语义化的xhtml代码能很好地引导谷歌的爬虫对你的网站进行抓取。

谷歌对于rss文件与sitemap也是较为偏爱的,特别是在你有提交谷歌管理员工具的时候,googlebot一般会先读取rss或者sitemap,而后根据列出的地址逐一进行抓取。因此,引导googlebot的抓取其实是很简单的事情,语义化的xhtml代码+xml网站地图。

反观百度……令人愕然。。看上去是极为凌乱的抓取次序,它抓取的次序,即不是谷歌栏目页—内容页的顺序,也不是按照代码出现的次序进行抓取的,实在令人疑惑。这么一只调皮的spider,似乎无视你的页面代码,只根据自己的喜好进行抓取。

对于新站的rss甚至于百度自己开发的2种协议,新闻协议以及论坛收录协议,百度似乎都是不怎么理睬的德行,因此如果用谷歌的方法来引导蜘蛛抓取实在是比较困难。笔者目前尝试另一个办法,如果有做新站的可以试试,将你的站点结构写入robots,设置栏目页面为allow,例如,网站优化站的栏目结构分为 程序优化,搜索引擎优化,网站安全三个栏目,目录分别为 /chengxuyouhua/ ,/wangzhananquan/ ,/sousuoyinqingyouhua/,则写成的robots.txt 如下

user-agent: *
       allow: /chengxuyouhua/
      allow: /wangzhananquan/
      allow: /sousuoyinqingyouhua/

上一篇:用户行为影响搜索结果,引导网站关注内容

这是一篇关于site:www.001pp.com的文章。经常有这样一种现象,特别是百度,在上一个更新周期中,也许你某个关键词,假设是“甲乙丙丁”排在的前列,但是在下一个更新周期,这个排名又不见踪影。除了搜索引擎本身算法的调整外,还有很大一部

下一篇:asp版十进制转成十六进制函数

这是一篇关于十进制转十六进制,十進制轉十六進制,asp鍗佽繘鍒惰浆鍗佸叚杩涘埗的文章。由于需要监测传入的参数是utf8编码还是gb2312编码,需要用到十进制转十六进制的函数,而vb居然没有内置。。百度了下vb十进制转十六进制,十进制转成十六进制,都没有比较好