<legend id="axlin"><track id="axlin"></track></legend>

        <cite id="axlin"><rp id="axlin"><pre id="axlin"></pre></rp></cite>
          精品无码久久久久久久久久,精品国产美女福到在线不卡,亚洲成人www,亚洲AV无码破坏版在线观看,国产精品综合一区二区三区,久久亚洲精品11p,风韵丰满妇啪啪区老老熟女杏吧,国产精品免费久久久免费
          熱搜: 佳士科技  irobot  工業機器人  機器人  機器人產業聯盟  ABB  發那科  機械手  碼垛機器人  機器人展覽 

          業內人士稱 ChatGPT 毀了網絡共享根基,內容所有者不愿再分享

             日期:2023-09-01     來源:網易科技     評論:0    
          標簽: 人工智能 科技 AI
             8月31日消息,隨著人工智能技術的迅猛發展,曾經用于搜索引擎索引的網絡爬蟲現在被用于收集訓練數據來開發人工智能模型。
           
            內容創作者意識到,他們的勞動成果被大科技公司免費使用來開發新的人工智能工具,爬蟲協議已經無法解決這個問題。這可能會影響內容所有者在線分享內容的動力,從而從根本上改變互聯網。

          微信圖片_20230901084556
          圖源Pixabay
           
            20世紀90年代末,出現了一種名為爬蟲協議(robots.txt)的簡單代碼,允許網站所有者告知搜索引擎的機器人爬蟲哪些頁面可以抓取,哪些頁面不能抓取。如今,爬蟲協議已成為業界普遍接受的非官方網絡規則之一。
           
            機器人爬蟲的主要目的是索引信息,改善搜索引擎的搜索結果。谷歌、必應和其他搜索引擎都有爬蟲程序,它們生成網絡內容的索引信息,并提供給潛在的數十億用戶。這也是互聯網蓬勃發展的基礎,創作者們在網絡上分享豐富信息,因為他們知道用戶會訪問他們的網站并瀏覽廣告、訂閱服務或購買商品。
           
            然而,生成式人工智能和大語言模型正在從根本上迅速改變網絡爬蟲的任務。這些工具并沒有為內容創作者提供支持,反而成為他們的敵人。
           
            機器人喂飽了大科技公司
           
            現在,網絡爬蟲收集在線信息,并生成大規模的數據集,這些數據集被富有的科技公司免費用于開發人工智能模型。比如,CCBot為最大的人工智能數據集之一CommonCrawl提供數據;GPTbot則是向人工智能明星創企OpenAI提供數據。谷歌將自家的大語言模型的訓練數據稱為“無限集合”,但沒有提及大部分數據來自CommonCrawl的精簡版C4。
           
            這些公司開發的人工智能模型使用這些免費信息來學習如何回答用戶的問題,這與為網站建立索引信息、讓用戶訪問原始內容的既定模式相去甚遠。
           
            如果沒有潛在的消費者,內容創作者就沒有動力讓網絡爬蟲繼續收集免費數據。GPTbot已被亞馬遜、愛彼迎、Quora和其他上千家網站屏蔽。對CommonCrawl數據集的CCBot的屏蔽也越來越多。
           
            “粗糙的工具”
           
            阻止這些網絡爬蟲的方式并沒有太大變化。網站所有者只能部署爬蟲協議并屏蔽特定爬蟲,但效果并不理想。
           
            “這是件有點粗糙的工具,”Wordpress前高管、科技投資者、數字營銷公司Yoast創始人約斯特?德?瓦爾克(Joost de Valk)說。“它沒有法律依據,基本上是由谷歌維護的,盡管他們聲稱是與其他搜索引擎共同維護的。”
           
            考慮到各大企業對高質量人工智能數據的巨大需求,爬蟲協議也容易被操縱。例如,像OpenAI這樣的公司只需更改其網絡爬蟲的名稱,就可以繞過人們使用爬蟲協議設置的禁止規則。
           
            此外,由于爬蟲協議是自愿遵守的,網絡爬蟲也可以簡單地忽略指令并繼續收集信息。像Brave等較新的搜索引擎的網絡爬蟲就不會受到規則的影響。
           
            “網上的一切信息都被模型吸進了真空,”研究人類生成數據與人工智能之間關系的計算機科學教授尼克?文森特(Nick Vincent)說。“這背后發生了很多事情。在接下來的時間里,我們希望能以不同的方式評估這些模型。
           
            創作者的回應
           
            德?瓦爾克警告稱,內容所有者和創作者可能已經太遲鈍,無法理解允許這些網絡爬蟲免費獲取他們的數據、不加區分地使用這些數據來開發人工智能模型的風險。
           
            “現在,什么都不做意味著,‘我認可我的內容出現在世界上所有的人工智能和大語言模型中,’”德?瓦爾克說。“這是完全錯誤的。需要創建更好的爬蟲協議,但搜索引擎和大型人工智能團隊自己很難會去做這件事。”
           
            一些大公司和網站最近做出了回應,其中一些是第一次部署爬蟲協議。
           
            檢測人工智能生成內容的公司Originality.ai表示,截至8月22日,在1000個最受用戶歡迎的網站中有70個使用爬蟲協議屏蔽GPTBot。
           
            Originality.ai還發現,在1000個最受歡迎的網站中,有62個屏蔽了CommonCrawl的網絡爬蟲CCBot。隨著人們對人工智能數據收集的意識日益增強,今年有越來越多的網站開始屏蔽CommonCrawl。
           
            然而,網站不能強制執行爬蟲協議。任何爬蟲都可以忽略該文件,繼續收集網頁上的數據,而網頁所有者可能根本不知情。即使部署爬蟲協議具有法律依據,其初衷與利用網絡信息開發人工智能模型關系不大。
           
            紐約大學技術法律與政策診所主任杰森?舒爾茨(JasonSchultz)表示,"Robots.txt不太可能被視為禁止使用網站數據的法律。"這主要是為了表明人們不希望自己的網站被搜索引擎編入索引,而不是表示人們不希望自己的內容被用于訓練機器學習和人工智能。
           
            “這是一個雷區”
           
            事實上,這種情況已經持續了多年。早在2018年,OpenAI就公布了首個GPT模型,并通過BookCorpus數據集進行訓練。CommonCrawl始于2008年,并于2011年通過亞馬遜云服務公開了數據集。
           
            盡管如今屏蔽GPTBot的網站越來越多,但對于那些擔心自己的數據被用于訓練人工智能模型的企業來說,CommonCrawl的威脅更大??梢哉f,CommonCrawl之于人工智能,就像谷歌之于互聯網搜索。
           
            非營利組織知識共享(Creative Commons)首席執行官凱瑟琳?斯蒂勒(Catherine Stihler)表示,“這是一個雷區。我們幾年前才更新了戰略,現在我們處于一個不同的世界。”
           
            知識共享始于2001年,是創作者和內容所有者用知識共享許可協議來替代嚴格版權,在網上使用并分享作品許可的一種方式。在共享許可協議的基礎上,創作者和所有者保留他們的權利,并允許其他人訪問內容并創作衍生作品。維基百科、Flickr、StackOverflow等許多知名網站都是通過知識共享許可協議運作的。
           
            知識共享組織在最新的五年戰略中表示,在訓練人工智能技術方面,開放內容的使用存在問題。知識共享組織希望使在線作品共享更加公平。
           
            1600億網頁
           
            通過CCBot爬取公開信息的CommonCrawl擁有最大的數據存儲庫。自2011年以來,它已從1600億個網頁中抓取和保存信息,并持續增加。一般來說,CommonCrawl每月抓取并保存大約30億個網頁的信息。
           
            Common Crawl稱,這項事業是一個“開放數據”項目,旨在讓任何人“打開自己的好奇心,分析世界,追求卓越的想法”。
           
            然而,現在的情況完全不同。大量Common Crawl收集的數據被大科技公司用于開發專有模型。即使一家大型科技公司目前沒有從人工智能產品中獲利,未來也有可能這樣做。
           
            一些大型科技公司已停止披露訓練數據來源。然而,許多強大的人工智能模型都是使用CommonCrawl開發的。它幫助谷歌開發了Bard,幫助meta訓練Llama,幫助OpenAI創建ChatGPT。
           
            Common Crawl還向ThePile提供數據,后者還擁有更多從其他爬蟲抓取的數據集。ThePile已廣泛用于人工智能項目,包括Llama和微軟與英偉達共同開發的MT-NLG。
           
            從今年6月份開始,ThePile下載量最大的數據之一是受版權保護的漫畫書,包括阿奇漫畫、蝙蝠俠、X戰警、星球大戰和超人系列的作品。這些作品都是DC漫畫和漫威創作的,現在仍受版權保護。最近有報道稱,ThePile中還存儲了大量受版權保護的書籍。
           
            紐約大學的舒爾茨表示,爬蟲的目的和使用方式完全不同。很難監管或要求它們以特定方式使用數據。
           
            對于The Pile來說,雖然它承認數據中包含受版權保護的材料,但在創立數據集的技術文章中聲稱,“處理和分發他人擁有的數據也可能違反版權法”的說法幾乎沒有人會認同。
           
            此外,The Pile還辯稱,盡管數據集中存儲了相對未經改變的作品,但根據合理使用原則,對這些材料的使用應該是變革性的。ThePile還承認,在訓練大語言模型時,需要使用完整的版權內容以產生最佳效果。
           
            網絡爬蟲和人工智能項目中所謂的合理使用觀點已經受到了質疑。作家、視覺藝術家甚至源代碼開發人員起訴OpenAI、微軟和meta等公司,因為他們的原創作品在未經許可的情況下被用于訓練模型,而他們并沒有從中受益。
           
            微軟前高管、風投公司安德森?霍洛維茨(Andreessen Horowitz)合伙人史蒂文?辛諾夫斯基(Steven Sinofsky)最近在社交媒體上寫道,即便將東西放到互聯網上,也不能不經同意就免費、無限制地將某人的勞動成果用于商業用途。
           
            沒有解決辦法
           
            “我們現在正在努力解決所有這些問題,”知識共享組織首席執行官斯蒂勒表示,有很多問題需要解決:補償、授權、信任。在人工智能時代,我們還沒有答案。
           
            德?瓦爾克表示,由于知識共享許可協議可以促進版權的流通性、允許自己擁有的作品在互聯網上使用,可以作為開發人工智能模型的一種潛在許可模式。
           
            斯蒂勒對此并不確定。她說,涉及到人工智能時,也許并沒有單一的解決方案。即使是更靈活的通用協議,也可能行不通。你如何向整個互聯網授權?
           
            斯蒂勒說:“與我交談過的每一位律師都說,許可并不能解決問題。”
           
            她經常與作者、人工智能行業高管等利益相關者討論這個問題。斯蒂勒今年早些時候會見了OpenAI的代表,并表示公司正在討論如何獎勵創作者。
           
            但她補充說,目前還不清楚人工智能時代的公共空間將會是什么樣子。
           
            鑒于網絡爬蟲已經為大型科技公司收集了大量數據,加上內容創作者根本無法掌控,互聯網可能會發生巨大變化。
           
            如果發布信息意味著將數據免費提供給與自己競爭的人工智能模型,那么這種活動可能會停止。
           
            已經有跡象表明,訪問問答網站Stack Overflow來回答問題的程序員越來越少,因為他們之前的付出被用來訓練人工智能模型,現在這些模型可以自動回答許多問題。
           
            斯蒂勒表示,所有在線創作內容的未來可能很快就會像現在的流媒體一樣,內容被鎖在訂閱服務中,成本越來越高。
           
            “如果我們不小心,最終就會導致公共空間關閉,”斯蒂勒說。“將會有更多有圍墻的花園、更多人們無法訪問的東西。這不是未來知識和創造力的成功模式。”
           
           
          聲明:凡資訊來源注明為其他媒體來源的信息,均為轉載自其他媒體,并不代表本網站贊同其觀點,也不代表本網站對其真實性負責。您若對該文章內容有任何疑問或質疑,請立即與中國機器人網(www.joyeartt.com.cn)聯系,本網站將迅速給您回應并做處理。
          電話:021-39553798-8007
          更多>相關資訊
          0相關評論

          推薦圖文
          推薦資訊
          點擊排行
          ?
          主站蜘蛛池模板: 国产一区二三区日韩精品| 国产精品无码a∨麻豆| 青青青视频免费一区二区| 99在线 | 亚洲| 亚洲成a人片在线视频| 国产精品午夜精品福利| 欧美人成精品网站播放| 亚洲VA中文字幕无码久久不卡| 进贤县| 亚洲岛国av一区二区| 国产午夜精品理论大片| 国产精品国产精品国产专区不卡 | 亚洲色成人一区二区三区人人澡人人妻人人爽人人蜜桃麻豆 | 欧美激情一区二区久久久| 欧美精品V欧洲精品| 免费无码成人AV片在线| 亚洲女同在线播放一区二区 | 国产AV无码专区亚洲AV紧身裤 | 激情综合网激情综合网五月| 成人午夜在线观看日韩| 无码中文字幕热热久久| 国产一区二区在线观看粉嫩 | 国产精品自拍中文字幕| 国内熟妇与亚洲洲熟妇妇| 亚洲一区二区三区av链接| 18av千部影片| 亚洲一区二区三区水蜜桃| 天堂一区人妻无码| 成年午夜免费韩国做受视频 | 亚洲熟女乱色综合一区| 九九在线精品国产| 国产精品高清国产三级囯产AV| 国产日产精品系列| 久久一区二区中文字幕| 中文国产日韩欧美二视频| 在线观看亚洲精品国产| 最近中文字幕国产精选| 九九热久久只有精品2| 亚洲精品天堂在线观看| 中文字幕成人精品久久不卡| 欧美成人精品在线|