亚洲精品无码乱码成人|最近中文字幕免费大全|日韩欧美卡一卡二卡新区|熟妇性饥渴一区二区三区|久久久久无码精品国产AV|欧美日韩国产va在线观看|久久精品一本到99热动态图|99国产精品欧美一区二区三区

您現(xiàn)在的位置是: 業(yè)界 > > 正文

學而思被指“偷數(shù)據(jù)”訓練AI,牽出大模型“隱秘的角落”_今日熱文

時間:2023-06-16 21:00:36 來源:21世紀經(jīng)濟報道 發(fā)布者:DN032

南方財經(jīng)全媒體見習記者馬嘉璐  21世紀經(jīng)濟報道記者尤一煒  廣州報道


(資料圖)

近日,筆神作文指控昔日合作伙伴學而思“偷數(shù)據(jù)”訓練自家AI產(chǎn)品,隨后學而思對此公開予以否認。筆神作文稱之為國內(nèi)“AI大模型數(shù)據(jù)被盜第一案”。不過,有律師分析,從現(xiàn)有內(nèi)容來看,該案應屬于普通的數(shù)據(jù)侵權糾紛或協(xié)議糾紛,目前還不能判斷學而思是否違法。

筆神作文與學而思的糾紛,牽引出大模型的一個“隱秘的角落”:用于訓練AI大模型的數(shù)據(jù),來源是否合法合規(guī)?事實上,關于大模型數(shù)據(jù)集的紛爭已在海內(nèi)外頻頻上演。

監(jiān)管方面正在注意AI大模型訓練數(shù)據(jù)集的合法合規(guī)。國家網(wǎng)信辦于今年4月公布的《生成式人工智能服務管理辦法(征求意見稿)》明確,預訓練、優(yōu)化訓練數(shù)據(jù)應保證真實性、準確性、客觀性、多樣性,不含有侵犯知識產(chǎn)權的內(nèi)容,包含個人信息的應符合“告知-同意”等原則。對外經(jīng)濟貿(mào)易大學數(shù)字經(jīng)濟與法律創(chuàng)新研究中心執(zhí)行主任張欣認為,平衡安全和發(fā)展成為大模型數(shù)據(jù)集監(jiān)管的重要挑戰(zhàn),數(shù)據(jù)安全審計制度等可以為此提供借鑒。

或為國內(nèi)“AI大模型數(shù)據(jù)被盜第一案”

筆神作文與學而思關于是否“偷數(shù)據(jù)”在互聯(lián)網(wǎng)公開“喊話”,已進行了一個半回合。

筆神作文將之稱為“AI大模型數(shù)據(jù)被盜第一案”。6月13日下午,筆神作文通過自己的微信公眾號、微博和第三方媒體發(fā)布消息,指控其合作伙伴學而思未經(jīng)授權爬取了筆神作文的數(shù)據(jù),用于訓練大模型產(chǎn)品。同日17時,學而思官方公眾號對此事作出回應,表示自己對筆神作文數(shù)據(jù)的使用屬于雙方合同約定的正常合作范圍,筆神作文“主觀揣測”“與事實嚴重不符”。

14日19時,筆神作文再次通過微信公眾號列舉更多“證據(jù)”,力圖證明學而思在4月13日至17日,通過“爬蟲”技術非法訪問、緩存筆神作文App服務器數(shù)據(jù)258萬次。

“筆神作文APP”微信公眾號公布的雙方合作API接口“每日數(shù)據(jù)調用量折線圖”

面對筆神作文的再次“喊話”,學而思是否有新的回應?截至發(fā)稿前,學而思與筆神作文方面均未針對此事向南方財經(jīng)全媒體記者給出相關回應。

在13日的聲明中,學而思透露雙方合作的內(nèi)容:筆神作文為學而思提供“筆神作文范文素材服務接口”,用于學而思相關服務中,每月保底費用包含的調用次數(shù)為百萬次量級。筆神作文則在14日發(fā)布的消息中稱,雙方合同明確“甲方(注:三體云聯(lián)公司,為學而思關聯(lián)公司)不得在未經(jīng)乙方(注:一筆兩劃公司,“筆神作文”系該司旗下品牌)允許的情況下用于任何其他用途,包括緩存,存儲,作為語料進行計算,訓練等。”

筆神作文表示,將通過司法程序解決糾紛,要求“學而思”支付1元賠償金,公開道歉,并刪除已爬取的數(shù)據(jù)。

律師:現(xiàn)有內(nèi)容難以判斷學而思違法

“‘AI大模型數(shù)據(jù)被盜第一案’有些噱頭的成分?!北本┦懈偺旃\律師事務所合伙人周楊認為,本案爭議的焦點是用于訓練AI大模型的數(shù)據(jù),而并非AI大模型的算法,應屬于普通的數(shù)據(jù)侵權糾紛或協(xié)議糾紛。

海問律師事務所合伙人楊建媛分析,該事件可以從知識產(chǎn)權保護和反不正當競爭兩個角度來看。從知識產(chǎn)權保護角度,如果筆神作文對學而思獲取的內(nèi)容享有著作權,且學而思的行為不符合著作權法規(guī)定的“可以不經(jīng)著作權人許可”的“例外”情況,則學而思的行為需經(jīng)過筆神作文的許可。她還強調,如筆神作文所稱為事實,學而思對筆神作文數(shù)據(jù)的使用可能超出了“合理使用”的范疇。

從反不正當競爭角度,學而思是否存在未經(jīng)授權爬取筆神作文數(shù)據(jù)的情況、是否利用所獲數(shù)據(jù)開發(fā)實質性替代筆神作文的產(chǎn)品或服務,是判斷是否構成侵權的關鍵。楊建媛分析,從筆神作文的敘述來看,其可能并未對學而思設置反爬措施,但是在協(xié)議中約定了相關禁止行為。單純的違約行為較難直接認定為違反了反不正當競爭法下的商業(yè)道德要求。另外,學而思將數(shù)據(jù)用于大模型訓練,訓練出來的產(chǎn)品與筆神作文的產(chǎn)品是否存在競爭關系,是否會對筆神作文造成不良后果,還存在爭議。

周楊也表示,學而思是否違法,關鍵要看合同中對數(shù)據(jù)的獲取、處理和使用是如何約定的,以及筆神作文是否對作品、數(shù)據(jù)庫享有版權。根據(jù)現(xiàn)有雙方披露的內(nèi)容,“還不能判斷”。

數(shù)據(jù)來源是否合規(guī)牽出“隱秘的角落”

筆神作文與學而思的糾紛,牽引出大模型的一個“隱秘的角落”:訓練AI大模型通常需要海量的數(shù)據(jù),而這些數(shù)據(jù)的來源是否合法合規(guī)?

事實上,隨著ChatGPT帶動生成式AI的爆火,關于AI大模型訓練數(shù)據(jù)的紛爭在海內(nèi)外頻頻上演。

爭議所涉及的數(shù)據(jù)可以大致分為兩類:一類有著明確的知識產(chǎn)權,如原創(chuàng)的圖片、音樂、視頻、文章等;一類由用戶在平臺上的零散發(fā)言匯集而成,如百科、社區(qū)、貼吧等。

今年年初,Stability AI受到美國大型商業(yè)圖庫提供商Getty Images以及漫畫家的分別起訴,原因是他們認為Stability AI用于訓練AI圖像生成模型Stable Diffusion的數(shù)據(jù)“非法復制和處理了受版權保護的圖像”。

此外,推特、“美版貼吧”Reddit也在今年上半年相繼宣布對API接口收費,且價格不菲。此前,這些平臺的內(nèi)容可以被谷歌、openAI等公司免費爬取,用作大語言模型的訓練庫。推特CEO馬斯克稱“他們(微軟)非法利用推特的數(shù)據(jù)來訓練,是時候起訴他們了?!盧eddit則在其官網(wǎng)更新條款:“未經(jīng)Reddit明確同意,您不得將Reddit上的內(nèi)容用作任何模型訓練的輸入。未經(jīng)明確批準,禁止將任何使用Reddit數(shù)據(jù)訓練的模型用于商業(yè)用途。”

谷歌C4數(shù)據(jù)集支撐了多個AI模型的預訓練。今年4月,《華盛頓郵報》與艾倫人工智能研究院合作調查發(fā)現(xiàn),該數(shù)據(jù)集中存在只接受付費訂閱的網(wǎng)站,以及近30個被美國政府認定為盜版和假冒產(chǎn)品市場的網(wǎng)站。

平衡安全與發(fā)展成監(jiān)管挑戰(zhàn)

監(jiān)管方面正在注意AI大模型訓練數(shù)據(jù)集的情況。

當?shù)貢r間2023年6月14日,歐洲議會投票通過關于《人工智能法案》的談判授權草案,意味著該法案將進入歐盟啟動監(jiān)管前的最后階段。該法案要求OpenAI、谷歌和微軟等基礎模型的供應商需要公開,他們在訓練模型過程中,是否使用了受版權保護的數(shù)據(jù)。

此前,國家網(wǎng)信辦于今年4月公布的《生成式人工智能服務管理辦法(征求意見稿)》也明確,用于生成式人工智能產(chǎn)品的預訓練、優(yōu)化訓練數(shù)據(jù),應符合網(wǎng)安法等法律法規(guī)的要求,不含有侵犯知識產(chǎn)權的內(nèi)容,包含個人信息的應符合“告知-同意”原則等要求,還應保證數(shù)據(jù)的真實性、準確性、客觀性、多樣性。

“對大模型數(shù)據(jù)集的監(jiān)管,如何能做到安全和發(fā)展的平衡,是一個重要挑戰(zhàn)?!睂ν饨?jīng)濟貿(mào)易大學數(shù)字經(jīng)濟與法律創(chuàng)新研究中心執(zhí)行主任張欣表示,《生成式人工智能服務管理辦法(征求意見稿)》已對AI訓練數(shù)據(jù)集的合規(guī)要求搭建了清晰的框架,在運用著作權和知識產(chǎn)權方式之外,還可以探索使用多種法律手段去實現(xiàn)。

張欣分析,監(jiān)管的落地,還存在事后難追溯等問題,尤其在算法復雜度日益攀升、出現(xiàn)“算法黑箱”等情況下,如果從事后去還原和追溯數(shù)據(jù)集是否合規(guī),十分依賴大模型開發(fā)商提供數(shù)據(jù)處理記錄和日志,很難從外部進行確認。此外,從技術上來說大模型很難精確刪除某個用戶的個人信息,這就限制了個人信息保護中“刪除權”的行使。

歐盟《人工智能法案》草案設置了吹哨人制度,鼓勵專業(yè)人士從內(nèi)部進行監(jiān)督,為監(jiān)管提供了一種創(chuàng)新思路。張欣認為,大模型開發(fā)者應做好信息記錄和披露的工作,提高數(shù)據(jù)集的透明度,在算法解釋性遇到困難的時候,至少可以通過數(shù)據(jù)的透明和可解釋來尋找答案。數(shù)據(jù)安全審計制度在國際上也有較為通行的經(jīng)驗,大模型數(shù)據(jù)監(jiān)管也可以探索使用審計的方式,找到透明度與保護商業(yè)秘密之間的平衡。

標簽:

搶先讀

相關文章

熱文推薦

精彩放送

關于我們| 聯(lián)系我們| 投稿合作| 法律聲明| 廣告投放

版權所有© 2011-2023  產(chǎn)業(yè)研究網(wǎng)  www.www-332159.com

所載文章、數(shù)據(jù)僅供參考.本站不作任何非法律允許范圍內(nèi)服務!

聯(lián)系我們:39 60 29 14 2 @qq.com

皖ICP備2022009963號-13