在生成式AI崛起的當下,開源再次成為話題焦點:meta的開源大模型Llama 2公開商用,幾乎一夜之間重塑了大模型的發展路線;開源社區Github上的生成式AI項目,一年同比增加248%;Hugging Face預言,2024年開源大模型的能力會與閉源持平。
但就和開源軟件誕生時一樣,開源AI的安全性備受爭議。不同的是,它還面臨著定義模糊、巨頭游戲等新生問題。要不要對開源AI“開綠燈”?不同開放程度的AI都算開源嗎?如何理解它們的價值和風險?
帶著這些問題,近日多位學界和業界專家參加了“清華伍舜德樓行政法學工作坊·人工智能立法之開源發展與法律規制”會議,一同討論開源AI的規制問題。本次會議由清華大學科技發展與治理研究中心及清華大學公共管理學院政府法制研究中心共同舉辦,清華大學公共管理學院院長朱旭峰教授、清華大學公共管理學院于安教授致歡迎辭。
現狀:開源豁免
盡管生成式AI的風險一直處于風口浪尖,但不管是從業者還是監管者,目前都對開源AI更為包容。
以歐盟為例,即將發布的兩部法律為開源AI明確亮了“綠燈”。同濟大學法學院助理教授、上海市人工智能社會治理協同創新中心研究員朱悅介紹,一部是接近全文定稿的歐盟《人工智能法案》,目前的版本將不會監管免費、開源的AI系統;另一部則是《產品責任指令》。這一指令將AI產品納入了適用范圍,也就是當AI系統里的軟件、硬件作為產品投向市場時,需要遵守相應條款,但“在商業活動之外研發、提供自由且開源的軟件”除外。
中美也有類似的探索。比如中國社科院與南財合規科技研究院共同起草的《人工智能示范法(專家建議稿)》擬定,“免費且開源提供人工智能的個人、組織能證明已經采取足夠安全措施的,可以減輕或不承擔責任。”最近兩位美國議員的《人工智能基礎模型透明度法案》提案備受關注,當中開源模型也享有豁免權。
這種普遍寬松的態度,朱悅認為主要目的是鼓勵創新、促進技術交流。從整條人工智能產業鏈來看,無論是框架性的代碼,還是數據、預訓練模型、評估基準,開源都發揮了難以替代的作用。以評估基準為例,“如果做出了AI大模型,要看它達到了怎樣的性能水平,就需要跟其他大模型的基準比較。但這種評估基準存在于哪里?很多時候離不開開源平臺,比如Hugging Face。可以說,大部分AI組件都是在開源的生態里發生的。”朱悅說。
中國信息通信研究院的人工智能研究中心高級業務主管呼娜英同樣表示,相比于工業時代的封閉產業模式,開源的分工效率更高。開源AI在建設一個開放的產業生態上有重要作用,在產業經濟的貢獻上,它的作用也是顯而易見的。
而更直接的原因是,開源本身就意味著更透明。朱悅指出,在GitHub、hugging face這些開源社區上傳AI組件時,開發者需要披露權重、參數、架構等詳細信息,來幫助其他人更好地使用,實際上已經履行了監管者期待的大部分義務。所以,“已經有很好的自我監督、社群監督,還有沒有必要再施加硬性監管?需要考慮。”
難題:開源“留一手”
更透明、更創新是開源的固有優勢,但碰上生成式AI,開源有新的問題要面對。
多位專家都提到,要警惕AI“假開源”的現象:目前的開源AI往往是“有限的開放”,只公開模型架構,很少公開訓練數據和過程。除此之外,它可以限制使用者身份,限制核心功能的使用,還可以選擇舊版本開源、新版本閉源。比如開源界的明星Llama2大模型,其實就限制了月活躍用戶超過7億的公司使用。
究其原因,21世紀經濟報道合規科技部副主任王俊指出,開源站在法律、技術、商業的交叉口,開源AI更多時候是一種商業選擇。
星紀魅族集團數據合規執行總監朱玲鳳進一步解釋,目前有些開源AI由頭部公司主導,“越多人使用,就越能強化網格效應,而且不是真正的開放,后續需要使用它們的配套工具、配套服務。頭部公司還可能利用監管豁免的方式,獲得尋租空間。”換言之,以開源為噱頭的巨頭游戲,可能會進一步強化大公司的壟斷地位,反而不利于產業競爭。
呼娜英還提到,國際科技巨頭在用開源AI擴大影響力的同時,潛移默化地推行了一套自己的規則。產業自主性、國際依賴性的問題必須要謹慎考慮,國內應當嘗試發展自己的開源生態。
不過限制競爭的隱憂,已經得到了一定緩解。朱悅表示,上文提到的歐盟兩部法律,都強調公益性的、社群性的、自律性的開源。具體來說,它們明確限定了“開源”的附加條件,如果是通過開源換取貨幣對價,綁定額外的服務,或者出于安全、兼容之外的目的獲得個人信息,進行商業變現,那就不能享受豁免。此外,法規還鼓勵通過數據卡、模型卡、系統卡等信息披露的方式,進一步促進行業互助。
因此,朱悅認為更重要的問題可能是:如何運用立法技術厘清開源AI的邊界?需不需要設定,如何設定最基本的義務?
治理:定義與安全風險評估難
是否要對開源豁免,與會專家們有了基本共識:有必要給予支持。但具體如何支持,難點主要來自兩個方面:怎么定義開源AI,以及如何看待開源AI的安全風險。
朱玲鳳發現,對于開源軟件,通過讀取源代碼和技術文檔,基本能夠復現軟件。但對于開源AI,只是開放源代碼沒辦法復現能力,因為AI是由代碼、模型、數據、算力等多個組件構成的復雜系統,傳統的開源定義沒法沿用。
作為參照,可以看看開源鼻祖是如何理解這一問題的。寫下《大教堂與集市》、掀起開源運動的程序員,后來創立了著名的開放源代碼促進會(OSI)。該組織正在召集全球專家討論開源AI的定義,其最新報告認為開源AI需要提供四種自由:一,為任何目的使用該系統,無需征得許可;二,研究系統如何工作,并檢查其組件;三,出于任何目的修改系統,包括改變其輸出;四,為任何目的共享系統供他人使用,無論修改與否。
朱玲鳳分析,OSI的定義明確了開源AI不僅僅指公開模型的源代碼。但仍然不清楚的是,具體開源的對象是什么,是否會設計不同的開源許可證。
“在完全封閉和完全開放之間,AI有很多可選路徑,可以有使用限制、完全沒有使用限制,也可以完全封閉、完全不封閉。”安遠 AI 資深研究經理方亮補充。在他看來,開源AI需要有更精確的定義,這樣才能理解不同層次的風險。
值得思考的是,開源是否會放大AI的固有安全風險。朱玲鳳注意到,OSI認為“如何開發符合道德規范、值得信賴或負責任的人工智能系統”不屬于定義的討論范圍。她擔憂的是,盡管開源社群的創新價值一再被強調,但社群、協會并不保證能安全使用開源AI,因此需要同時考慮開放與可信。
開源的安全性確實一直飽受爭議。《大教堂與集市》一書曾提出名言:“如果有足夠多的眼睛,錯誤將無處遁形。” 簡單來說,就是開源可以利用集體的力量審查技術、發現漏洞、修復缺陷。許多AI科學家也因此認為,長遠來看,開源是保障AI安全的唯一辦法。
但呼娜英也指出,不能忽視“目前AI開源的安全風險依然非常高,而且與日俱增。我們看到大型的網絡安全事件基本都與開源有關,對于高風險行業,尤其要注意安全和發展問題。”
針對開源AI的定義,中國人民公安大學教授、數據法學研究院院長蘇宇認為,可以先豁免完全免費、允許所有人自由訪問和利用的開源AI組件。蘇宇指出,這樣的開源AI組件對人工智能的研發有著基礎性作用,而且被大量使用者反復打磨和完善,相對于信息不對稱、不透明的閉源組件和應用更安全。“這種情況下,堅持完善透明度義務就好。其他帶商業性質的開源、不完全開源組件及軟件等的豁免條件,可以待制度實踐更成熟之后逐步確定。”
保持透明度的基礎義務,分層治理開源AI,也是專家們的共識。比如屬于通用目的、高風險,或者基礎模型的開源AI,專家認為仍然需要規制安全風險。
“對于開源AI,要認清哪些是固有風險,哪些是因為開源而增減、縮放的風險。盡可能用精準敏捷的治理措施,代替一刀切。”蘇宇總結。







