在 OPENAI 公布 GPTBot 爬蟲的相關信息後,今天穀歌宣布在 GoogleBot 基礎上推出 Google-Extended 爬蟲擴展代理,允許網站管理員使用 robots.txt 文件屏蔽穀歌抓取網站內容用來訓練 AI 模型。
穀歌沒有推出單獨的 AI 爬蟲,AI 爬蟲仍然使用 GoogleBot,但網站可以聲明是否拒絕其抓取內容後訓練 AI,如果要聲明那就需要使用 Google-Extende代理令牌。

穀歌稱,Google-Extended 是一種新控件,網絡發布商可以使用它管理其網站是否有助於改進 Bard 和 Vertex AI 等生成式 AI 模型,在博客中穀歌多次提到網站可以幫助穀歌改進 AI,比如網站管理員可以選擇是否幫助這些 AI 模型隨著時間推移變得更準確和強大。
不過最終還是網站管理員自己決定是否允許穀歌拿內容去訓練 AI,如果不願意的話,可以在 robots.txt 中添加以下內容:
User-Agent: Google-ExtendedDisallow:/
需要提醒的是穀歌對於 robots.txt 的處理遵循了多種原則,而且 Google Bot 本身有一大堆用於不同用途的 bot,例如常規的 GoogleBot、GoogleBot-News、GoogleBot-Image 等,這些 bot 是可以在 robots.txt 裏混用的。
例如要允許穀歌搜索抓取網站內容、不允許穀歌抓取內容用於訓練 AI,那麽 robots.txt 可以這麽寫:
User-Agent: GooglebotAllow: /User-Agent: Google-ExtendedDisallow: /