趙精武
DeepSeek的出現(xiàn)徹底改變了固有的“高端算力優(yōu)先”的人工智能創(chuàng)新技術路線,其以低廉的成本實現(xiàn)了與國外前沿人工智能產(chǎn)品相媲美的性能,“算法模型性能優(yōu)先”也隨之成為新的產(chǎn)業(yè)技術發(fā)展路線。
這種轉變意味著要更加重視訓練數(shù)據(jù)的高質量供給,因為“算法模型性能優(yōu)先”技術路線更依賴高質量的訓練數(shù)據(jù)對模型進行優(yōu)化,而且已公開、可抓取的訓練數(shù)據(jù)資源即將用盡,亟需能夠反映行業(yè)特征的高質量訓練數(shù)據(jù)資源。因此,訓練數(shù)據(jù)供給機制的構建理應作為數(shù)據(jù)基礎制度的立法重心之一,從而用法律規(guī)范訓練數(shù)據(jù)的供給方式,提升訓練數(shù)據(jù)的供給質量。
規(guī)范訓練數(shù)據(jù)供給方式所要實現(xiàn)的目標,是市場以安全可靠且高效的方式提供訓練數(shù)據(jù)資源。首先,訓練數(shù)據(jù)的供給方式應當是安全可控的。算法模型訓練屬于數(shù)據(jù)處理行為,因而數(shù)據(jù)的供給方和需求方均應嚴格履行個人信息保護法、網(wǎng)絡安全法等法律規(guī)定的數(shù)據(jù)安全保護義務。其次,訓練數(shù)據(jù)的供給方式應當是合法且沒有爭議的。高質量供給的內涵之一便是確保訓練數(shù)據(jù)沒有顯著爭議,否則會增加法律風險,從而降低科技創(chuàng)新資源的供給效率。最后,訓練數(shù)據(jù)的供給方式應當是多元化的。單一的數(shù)據(jù)供給方式不僅無法提供充分的訓練數(shù)據(jù),還可能間接提升人工智能市場的準入門檻。
提升訓練數(shù)據(jù)供給質量所要實現(xiàn)的目標,則是數(shù)據(jù)資源供給活動應當滿足“供給數(shù)量充分”和“供給質量符合要求”兩個要件。一方面,當下的人工智能產(chǎn)業(yè)發(fā)展主要以大模型為基礎,需要海量的訓練數(shù)據(jù)作為支撐。另一方面,伴隨著人工智能應用方式的場景化、專業(yè)化,其對訓練數(shù)據(jù)質量的要求也有所提高。構建這種保障機制的重心,是兼顧科技創(chuàng)新主體的差異化需求以及訓練數(shù)據(jù)獲取方式的實質公平性,同時確保與現(xiàn)行立法體系有效整合。
第一,以科技創(chuàng)新主體為導向,構建人工智能訓練數(shù)據(jù)公共服務平臺。作為人工智能創(chuàng)新的數(shù)字基礎設施,平臺的職能之一便是發(fā)現(xiàn)和確認各類科技創(chuàng)新主體的需求,明確公共訓練數(shù)據(jù)資源的分類標準。不過,由于政府部門難以持續(xù)性地對公共數(shù)據(jù)進行清洗、歸集等,因此需要在協(xié)同治理模式下,按照市場需求,對公共數(shù)據(jù)進行去重、糾錯、填補空值等管理,以提升數(shù)據(jù)使用質量。此外,由于平臺與算力基礎設施同屬向市場提供的必要基礎設施,二者共同作用并影響人工智能創(chuàng)新效率,為避免冗余建設造成浪費,更宜將二者一體化建設。
第二,以市場公平競爭為導向,構建訓練數(shù)據(jù)供給生態(tài)保障體系。我國現(xiàn)階段人工智能訓練數(shù)據(jù)方面面臨的困境,不僅僅是數(shù)據(jù)量不足、質量較低,還包括有效的產(chǎn)業(yè)生態(tài)尚未形成。為避免數(shù)據(jù)壟斷等現(xiàn)象,確保中小企業(yè)實質性公平地獲取訓練數(shù)據(jù),有必要對相關數(shù)據(jù)提供商設置義務規(guī)范。如對于訓練數(shù)據(jù)提供商而言,應當嚴格禁止其采取強制或變相強制的方式出售捆綁性的訓練數(shù)據(jù)產(chǎn)品,并不得采取“二選一”等業(yè)務模式,對需求方施加不合理的條件。對于數(shù)據(jù)標注服務提供商而言,不僅要依據(jù)《生成式人工智能服務管理暫行辦法》規(guī)定,預防算法歧視等風險,還應當確保所提供的數(shù)據(jù)滿足完整性、時效性、準確性等要求,且與事前約定的數(shù)據(jù)質量保持一致。
第三,以數(shù)據(jù)安全保障為導向,構建透明可信的訓練數(shù)據(jù)供給機制。已公開的個人信息、包含他人著作權的作品數(shù)據(jù)能否作為訓練數(shù)據(jù)等問題,是目前構建相關制度面臨的障礙之一。此外,不安全、不可靠的數(shù)據(jù)交易活動同樣會影響訓練數(shù)據(jù)來源合法性的認定。因此,在制度層面確立訓練數(shù)據(jù)來源合法性的判斷標準顯得尤為迫切。這既需要以典型案例、合規(guī)清單等方式指引產(chǎn)業(yè)實踐,也需要在制度層面設置涵蓋訓練數(shù)據(jù)獲取、使用等各個業(yè)務流程的數(shù)據(jù)安全保護制度。
(作者系北京航空航天大學法學院副教授)
編輯:林楠特