穀歌推出爬蟲擴展代理網站管理員可以屏蔽穀歌抓取內容用於訓練AI

生活

穀歌推出爬蟲擴展代理網站管理員可以屏蔽穀歌抓取內容用於訓練AI – 藍點網

时间：2010-12-5 17:23:32 作者：體育来源：財經查看：评论：0

内容摘要：在OPENAI公布GPTBot爬蟲的相關信息後，今天穀歌宣布在GoogleBot基礎上推出Google-Extended爬蟲擴展代理，允許網站管理員使用robots.txt文件屏蔽穀歌抓取網站內容用來

在 OPENAI 公布 GPTBot 爬蟲的相關信息後，今天穀歌宣布在 GoogleBot 基礎上推出 Google-Extended 爬蟲擴展代理，允許網站管理員使用 robots.txt 文件屏蔽穀歌抓取網站內容用來訓練 AI 模型。

穀歌沒有推出單獨的 AI 爬蟲，AI 爬蟲仍然使用 GoogleBot，但網站可以聲明是否拒絕其抓取內容後訓練 AI，如果要聲明那就需要使用 Google-Extende代理令牌。

穀歌推出爬蟲擴展代理網站管理員可以屏蔽穀歌抓取內容用於訓練AI

穀歌稱，Google-Extended 是一種新控件，網絡發布商可以使用它管理其網站是否有助於改進 Bard 和 Vertex AI 等生成式 AI 模型，在博客中穀歌多次提到網站可以幫助穀歌改進 AI，比如網站管理員可以選擇是否幫助這些 AI 模型隨著時間推移變得更準確和強大。

不過最終還是網站管理員自己決定是否允許穀歌拿內容去訓練 AI，如果不願意的話，可以在 robots.txt 中添加以下內容：

User-Agent: Google-ExtendedDisallow：/

需要提醒的是穀歌對於 robots.txt 的處理遵循了多種原則，而且 Google Bot 本身有一大堆用於不同用途的 bot，例如常規的 GoogleBot、GoogleBot-News、GoogleBot-Image 等，這些 bot 是可以在 robots.txt 裏混用的。

例如要允許穀歌搜索抓取網站內容、不允許穀歌抓取內容用於訓練 AI，那麽 robots.txt 可以這麽寫：

User-Agent: GooglebotAllow: /User-Agent: Google-ExtendedDisallow: /

最近更新

热门排行