生活

穀歌推出爬蟲擴展代理 網站管理員可以屏蔽穀歌抓取內容用於訓練AI – 藍點網

时间:2010-12-5 17:23:32  作者:體育   来源:財經  查看:  评论:0
内容摘要:在OPENAI公布GPTBot爬蟲的相關信息後,今天穀歌宣布在GoogleBot基礎上推出Google-Extended爬蟲擴展代理,允許網站管理員使用robots.txt文件屏蔽穀歌抓取網站內容用來

在 OPENAI 公布 GPTBot 爬蟲的相關信息後,今天穀歌宣布在 GoogleBot 基礎上推出 Google-Extended 爬蟲擴展代理,允許網站管理員使用 robots.txt 文件屏蔽穀歌抓取網站內容用來訓練 AI 模型。

穀歌沒有推出單獨的 AI 爬蟲,AI 爬蟲仍然使用 GoogleBot,但網站可以聲明是否拒絕其抓取內容後訓練 AI,如果要聲明那就需要使用 Google-Extende代理令牌。

穀歌推出爬蟲擴展代理 網站管理員可以屏蔽穀歌抓取內容用於訓練AI

穀歌稱,Google-Extended 是一種新控件,網絡發布商可以使用它管理其網站是否有助於改進 Bard 和 Vertex AI 等生成式 AI 模型,在博客中穀歌多次提到網站可以幫助穀歌改進 AI,比如網站管理員可以選擇是否幫助這些 AI 模型隨著時間推移變得更準確和強大。

不過最終還是網站管理員自己決定是否允許穀歌拿內容去訓練 AI,如果不願意的話,可以在 robots.txt 中添加以下內容:

User-Agent: Google-ExtendedDisallow:/

需要提醒的是穀歌對於 robots.txt 的處理遵循了多種原則,而且 Google Bot 本身有一大堆用於不同用途的 bot,例如常規的 GoogleBot、GoogleBot-News、GoogleBot-Image 等,這些 bot 是可以在 robots.txt 裏混用的。

例如要允許穀歌搜索抓取網站內容、不允許穀歌抓取內容用於訓練 AI,那麽 robots.txt 可以這麽寫:

User-Agent: GooglebotAllow: /User-Agent: Google-ExtendedDisallow: /
copyright © 2016 powered by 大鵬新聞網   sitemap