□ 李春暉
有關(guān)人工智能(AI)訓練用數(shù)據(jù)的著作權(quán)爭議尚未塵埃落定。當下學術(shù)研究似以一面倒的思路占優(yōu):將著作權(quán)保護無條件適用于AI訓練用數(shù)據(jù),在此基礎(chǔ)上尋求包括合理使用和法定許可在內(nèi)的權(quán)利限制。這可稱為“先進后出”路徑。亦有少數(shù)觀點“釜底抽薪”,從根本上質(zhì)疑著作權(quán)法的可適用性。筆者擬強化“釜底抽薪”進路的論述,以平衡視聽。筆者并不排除規(guī)制AI訓練用數(shù)據(jù)的可能性,但須在現(xiàn)行著作權(quán)法之外重新進行利益衡量和價值選擇。
復制權(quán)是人工智能訓練用數(shù)據(jù)著作權(quán)問題的核心
著作權(quán)一般包括精神權(quán)利、復制權(quán)、傳播權(quán)和演繹權(quán)。AI訓練的結(jié)果是AI模型,不傳播原作品,不可能侵犯傳播權(quán)。諸項精神權(quán)利的被侵害也以作品的傳播為前提。因此,AI訓練著作權(quán)問題主要涉及準備訓練數(shù)據(jù)時不可避免的物理復制以及訓練時讀取數(shù)據(jù)過程中的臨時復制。有激進觀點將機器學習過程本身,也就是對數(shù)據(jù)的分析、挖掘、學習納入復制范疇。
另有觀點認為,對訓練數(shù)據(jù)的預處理還可能涉及演繹權(quán)中的翻譯權(quán)、改編權(quán)、匯編權(quán)等,如轉(zhuǎn)換數(shù)據(jù)的自然語言或?qū)⑵滢D(zhuǎn)換為機器語言、對訓練素材的改寫、標注、解釋、分類、整理、匯總等。不過,這些操作并非著作權(quán)法意義上面向讀者的演繹,而是為了機器學習,本質(zhì)上仍是復制的一種,或以復制為前提。筆者將其視為廣義復制。
因此,在著作權(quán)法意義上,AI訓練使用數(shù)據(jù)的合法性之核心是復制權(quán)。當然,著作權(quán)法還規(guī)定了應(yīng)由著作權(quán)人享有的其他權(quán)利,因此將“用于AI訓練”或文本數(shù)據(jù)挖掘(TDM)作為著作權(quán)的新權(quán)能的道路是暢通的。不過,若在既有權(quán)能之外求助于新權(quán)能,這仍屬于“釜底抽薪”進路。
人工智能訓練之技術(shù)、倫理本質(zhì)與復制
AI模型之基本原理脫胎于早期的模式識別技術(shù)。神經(jīng)網(wǎng)絡(luò)技術(shù)的變化,是從發(fā)現(xiàn)和構(gòu)建特征維度的“小農(nóng)經(jīng)濟”方式,轉(zhuǎn)變?yōu)榇笠?guī)模計算反映數(shù)據(jù)之全方位聯(lián)系的參數(shù)。模型的構(gòu)建和訓練不是對數(shù)據(jù)的復制,而是對數(shù)據(jù)作出統(tǒng)計學上的特征表達。生成式AI是決策式AI的特定形式的應(yīng)用,底層技術(shù)沒有本質(zhì)變化。
AI訓練從另一角度來看就是機器學習。AI志在替代人的智力。但AI要進行創(chuàng)造活動,必須預先學習掌握創(chuàng)造的素材和規(guī)則,這可與自然人學習過程相類比。人類學習時的記憶過程不構(gòu)成對作品的著作權(quán)法意義上的復制,AI在學習過程中將學習素材存儲在可用位置類似于人類的記憶過程,同樣不構(gòu)成著作權(quán)法意義上的復制。但這一結(jié)論若轉(zhuǎn)化為權(quán)利語言——“自然人有學習的權(quán)利,因而AI也有學習的權(quán)利”,卻面臨顯而易見的主體資格問題。
不過,民法上未出生的胎兒(甚至某些法域下的胚胎、受精卵)具有其倫理權(quán)利,但它們尚非具有主體意識的真正自然人主體。與之類比,若AI的目標是成長為“人”,其可否享受類似胎兒在其正式“出生”之前的包括學習權(quán)利在內(nèi)的倫理權(quán)利?一方面,若AI的目的是具有似人的能力,則必須提供讓其獲取如此能力的環(huán)境;另一方面,AI與自然人構(gòu)成人機聯(lián)合體,AI可視為自然人人格的延伸或其一部分,AI的學習就是人自身的學習。
訓練數(shù)據(jù)準備中的復制
AI線下訓練需預先準備訓練數(shù)據(jù)的拷貝于存儲集群中,這是否構(gòu)成著作權(quán)法意義上的復制?復制權(quán)之表面文義覆蓋任何形式的物理復制。然而隨著技術(shù)的發(fā)展,越來越多傳播行為無需以復制為前提,同時越來越多的復制與傳播無關(guān)。在此過程中,著作權(quán)實踐的歷史發(fā)展已逐漸顯明,傳統(tǒng)著作權(quán)法中的復制權(quán)實非純粹針對復制的權(quán)利,而是針對構(gòu)成傳播之前提的復制的權(quán)利。因此,AI訓練用數(shù)據(jù)的預處理即使涉及物理復制,由于并無傳播目的和效果而不被具有傳播含義的“復制權(quán)”所覆蓋。
另一視角是把訓練數(shù)據(jù)準備中的復制視為臨時復制。但AI訓練數(shù)據(jù)的大規(guī)模性導致訓練不可能短時間內(nèi)完成,同時數(shù)據(jù)還需要預處理,數(shù)據(jù)復制狀態(tài)的存留不一定“短暫”,因此有人認為訓練數(shù)據(jù)準備中的復制為永久復制。但臨時復制的更準確表達當為“中間復制”,核心不是時間,而是復制的非最終性、非目的性。訓練數(shù)據(jù)準備中的復制正是如此。
數(shù)據(jù)中間商的存在令問題更復雜,有觀點認為其營利性證明了訓練數(shù)據(jù)準備中的復制有其獨立的經(jīng)濟意義。但獨立的經(jīng)濟意義并非指中間復制過程是否涉及對價,而是指公眾能否接觸、欣賞原作品的表達。同時,對AI開發(fā)者是否有復制和侵權(quán)行為而言,數(shù)據(jù)中間商的存在并非關(guān)鍵。反之,AI開發(fā)者行為的合法性反而會影響數(shù)據(jù)中間商行為的合法性,后者實為AI開發(fā)者的數(shù)據(jù)處理代工者,其所獲對價不過是代工的勞動報酬。若數(shù)據(jù)中間商取得數(shù)據(jù)還有其他用途,在一些情形下可能構(gòu)成不正當競爭,但就提供給多家AI開發(fā)者使用的情形而言,與一對一供應(yīng)數(shù)據(jù)沒有本質(zhì)區(qū)別,只是AI訓練過程更廣泛、更精細的分工。
更寬廣的視野:知識產(chǎn)權(quán)權(quán)能碎片化之合理性審視
版權(quán)法上相對于傳播權(quán)獨立存在的復制權(quán)并非孤例,在商標法、專利法領(lǐng)域存在類似情形。如專利產(chǎn)品銷售、使用之前的制造行為。這是因為知識產(chǎn)權(quán)及其客體的特點,導致從復制/制造涉嫌侵權(quán)產(chǎn)品到權(quán)利人真正受損存在漫長的鏈條,知識產(chǎn)權(quán)立法將階段性行為視為獨立侵權(quán)行為,實為民事侵權(quán)理論中對侵權(quán)危險的提前排除,有其歷史合理性。
但在新的技術(shù)和市場環(huán)境下,知識產(chǎn)權(quán)實施/使用鏈條各環(huán)節(jié)獨立權(quán)能化已愈加表現(xiàn)出現(xiàn)實的不合理性。一是利益延伸原則不符合知識產(chǎn)權(quán)法定原則并導致利益失衡。知識產(chǎn)權(quán)保護范圍隨利益無限延伸會過度控制信息和技術(shù)的傳播,產(chǎn)生固化“技術(shù)階層”的效果。二是多環(huán)節(jié)獨立權(quán)能化與民事侵權(quán)理論相齟齬。例如,在復制不再等價于傳播時,繼續(xù)單獨規(guī)制復制行為不再符合民事侵權(quán)理論。三是多環(huán)節(jié)獨立權(quán)能化導致各種弊端,包括多重許可、選擇性訴訟等。因此,應(yīng)回歸民事侵權(quán)理論,行為規(guī)制、責任承擔均須滿足侵權(quán)責任構(gòu)成要件。受損害的市場利益必須直接來自法定知識產(chǎn)權(quán)本身,而非具有復合性的知識產(chǎn)權(quán)客體中的非法定知識產(chǎn)權(quán)層面。
結(jié)論與展望:置之死地而后生
AI訓練引發(fā)的熱烈討論和司法爭議,凸顯了革命性的技術(shù)需要革命性的制度。直截了當?shù)霓k法,是直接承認舊制度(著作權(quán)法)已不適應(yīng)新生產(chǎn)力(AI)。但這并不意味著對AI訓練用數(shù)據(jù)問題撒手不管——若立法者和利益攸關(guān)方認為AI訓練用數(shù)據(jù)問題需要規(guī)制,則可進行充分的利益衡量,基于價值取舍而重新立法/修法。塵埃落定之前,不妨讓子彈多飛一會兒,給新技術(shù)、新業(yè)態(tài)足夠的空間和時間,才更有利于科技、經(jīng)濟、社會、國家和人類的進步?;蛘呓忖忂€須系鈴人,將技術(shù)引發(fā)的問題留待持續(xù)發(fā)展的技術(shù)本身去解決,可能是更有效的治理方法。
(原文刊載于《華東政法大學學報》2025年第4期)
編輯:武卓立