发布时间:2021-2-23 分类: 电商动态
问:我们有一个包含3,000多行中文+英文的网页。快照显示不完整。它由代购源码网站管理员平台模拟。 (注意:此学生是指爬行诊断工具),文本也不完整,代购源码网站也会受到影响。不是太大了?迪恩将这个一般问题打破成一个小问题并向工程师证实。
第一个问题:百度是否限制了网络内容的大小?
答:内容文本没有限制,但源代码有一定的防御能力。如果它太长,它将采用前一部分,因此源代码尽可能简洁
第二个问题:如果快照显示网页不完整,是否意味着百度蜘蛛没有完全包含该网页?
答:不,快照的成功涉及很多链接。显示不完整的原因有很多。你不能简单地认为它不包括在内。
第三个问题:使用平台抓取工具无法完全显示,你能不能认为它不包括在内?
答:不,该工具仅显示前200K。在设计工具时,我们对网页进行了研究。一般来说,第一个100K就足够了。
第四个问题:百度是否要求页面上没有特殊字符?
答:没有这样的限制。