网页太大,快照不完整,对网站有什么坏影响?

网页太大,快照不完整,对网站有什么坏影响?且看百度官方和潇湘驭文的详细分析。

网页太大,快照不完整,对网站有什么坏影响?且看百度官方的回答。

这个问题又是在VIP大讲堂微信群中问的。

原问题是:有一个网页3000多行中文+英文,快照显示不完整,通过百度站长平台抓取诊断工具发现,抓取的内容也不完整,对网站影响会不会很大?

刘禾院长把这个问题拆成了若干小问题,并向工程师进行了确认。

网页太大,快照不完整,有啥影响?
网页太大,快照不完整,有啥影响?

一、百度对网页大小有限制吗?

百度答:对内容文字多少没有限制,但源码大小上有一定的防制,过长的话,会取前面一部分,所以,源码还是越简洁越好。

潇湘驭文答:百度解析网页时,包括网页html源码解析和网页主体内容解析。对主体内容大小无限制,但对源码大小有限制。特别是早期用表格布局的网页,源码往往特别冗余,对百度的抓取速度影响颇大。

即便是用div和css布局的网页,假如不用<link>调用css,而直接用<style>将css直接写入源码,也可能导致快照显示不完整的问题。此外js也一样。

所以,一定要重视源码的优化。

二、快照不完整,是否说明百度蜘蛛没有完整收录网页?

百度答:不是。快照的成生(生成)涉及很多环节,显示不完整的原因很多,不能简单地认为没有收录完整。

潇湘驭文答:不一定。

快照显示不完整的原因很多,比如网页访问速度慢、网页有flash、源码过大……

源码过大是快照不能完全显示的原因之一,所以百度的回答“不是”,就太过绝对,而显得不严谨。

三、抓取(诊)断工具不能完整显示,可否认为没有收录完整?

百度答:不是。工具只展示前100K。我们设计工具的时候对网页做过调研,一般来说展示前100K就够用了。

潇湘驭文答:不是。但平台明明显示可展示200K。

四、百度是否要求网页上不能有特殊字符?

百度答:没有这个限制。

潇湘驭文答:百度答的对。

总结

区区一篇短文,有以下错误:

1、乱用词语——防制(限制就限制嘛)

2、颠倒词语——成生(生成)

3、词语缺胳膊少腿——平台抓取(诊)断

4、数据自相矛盾——工具只展示前100K(其实是200K)

看,区区一篇短文,漏洞百出。这大概就是所谓的忙中出错吧。

本文由球事一哥潇湘驭文原创,转载需授权并保留本文链接:https://www.wangyuwen.com/archives/2023.html

(0)
上一篇 2016 年 10 月 20 日 16:13
下一篇 2016 年 10 月 25 日 17:35

相关推荐

发表回复

登录后才能评论