【建站小技巧】如何正确设置爬虫协议很多人建站,robots.txt爬虫协议容易设

量子位看科技 2025-07-18 16:35:15

【建站小技巧】如何正确设置爬虫协议

很多人建站,robots.txt爬虫协议容易设错,结果直接让网站在互联网上“隐身”。

博主Evgenii Pendragon就踩了坑——

他在robots.txt里写了个简单的规则:

User-agent: *

Disallow: /

所有爬虫,一律不准来。干脆利落。

结果是,发到LinkedIn的博客链接再也没有预览图,没人点击,曝光和互动都一落千丈。

一查才发现,被他自己设置的爬虫挡了。

原理是,LinkedIn这种网站的图文预览,必须要访问网页的Open Graph信息。但robots.txt直接让它们吃了闭门羹。

解决办法也很简单:别一刀切,单独给这些平台放行就行。比如他现在这样改了——

User-agent: LinkedInBot  

Allow: /  

User-agent: *  

Disallow: /

单独加一条Allow规则,需要图文预览的网站就会被放行。

就是这么简单,你学会了吗?原文:evgeniipendragon.com/posts/i-was-wrong-about-robots-txt/

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注