网页太大,快照不完整,对网站有什么坏影响?且看百度官方的回答。
这个问题又是在VIP大讲堂微信群中问的。
原问题是:有一个网页3000多行中文+英文,快照显示不完整,通过百度站长平台抓取诊断工具发现,抓取的内容也不完整,对网站影响会不会很大?
刘禾院长把这个问题拆成了若干小问题,并向工程师进行了确认。
一、百度对网页大小有限制吗?
百度答:对内容文字多少没有限制,但源码大小上有一定的防制,过长的话,会取前面一部分,所以,源码还是越简洁越好。
潇湘驭文答:百度解析网页时,包括网页html源码解析和网页主体内容解析。对主体内容大小无限制,但对源码大小有限制。特别是早期用表格布局的网页,源码往往特别冗余,对百度的抓取速度影响颇大。
即便是用div和css布局的网页,假如不用<link>调用css,而直接用<style>将css直接写入源码,也可能导致快照显示不完整的问题。此外js也一样。
所以,一定要重视源码的优化。
二、快照不完整,是否说明百度蜘蛛没有完整收录网页?
百度答:不是。快照的成生(生成)涉及很多环节,显示不完整的原因很多,不能简单地认为没有收录完整。
潇湘驭文答:不一定。
快照显示不完整的原因很多,比如网页访问速度慢、网页有flash、源码过大……
源码过大是快照不能完全显示的原因之一,所以百度的回答“不是”,就太过绝对,而显得不严谨。
三、抓取(诊)断工具不能完整显示,可否认为没有收录完整?
百度答:不是。工具只展示前100K。我们设计工具的时候对网页做过调研,一般来说展示前100K就够用了。
潇湘驭文答:不是。但平台明明显示可展示200K。
四、百度是否要求网页上不能有特殊字符?
百度答:没有这个限制。
潇湘驭文答:百度答的对。
总结
区区一篇短文,有以下错误:
1、乱用词语——防制(限制就限制嘛)
2、颠倒词语——成生(生成)
3、词语缺胳膊少腿——平台抓取(诊)断
4、数据自相矛盾——工具只展示前100K(其实是200K)
看,区区一篇短文,漏洞百出。这大概就是所谓的忙中出错吧。
本文由球事一哥潇湘驭文原创,转载需授权并保留本文链接:https://www.wangyuwen.com/peixun/2023.html