a级毛片无码免费真人,亚洲精品国产专区91在线,精品视自拍视频在线观看,免费国产成人高清在线观看直播,亚洲成人免费电影,www久久com,久久亚洲精品成人

法治號 手機版| 站內(nèi)搜索

網(wǎng)上有害信息舉報

基礎(chǔ)模型訓練的著作權(quán)問題:理論澄清與規(guī)則適用

2024-11-19 14:11:12 來源:法治日報-法治網(wǎng) -標準+

□ 陶乾

2023年以來,國內(nèi)外許多著作權(quán)人先后發(fā)起了對基礎(chǔ)模型開發(fā)者的侵權(quán)訴訟。原告方認為模型訓練過程中的作品使用行為構(gòu)成侵權(quán),但被告方辯稱其行為屬于一種合理使用,目前在世界范圍,尚無法院對此問題給出定論。

我國著作權(quán)法第二十四條合理使用條款窮盡式地列舉了13種情形,從文義來看,無法將模型訓練使用作品解釋為任何一種情形。很多學者從立法論出發(fā),建議我國引入“文本與數(shù)據(jù)挖掘”侵權(quán)例外制度,但在法律修改之前,司法機關(guān)仍需在現(xiàn)行著作權(quán)法下進行規(guī)則適用。有鑒于此,筆者從解釋論的角度,將人工智能基礎(chǔ)模型訓練過程中,數(shù)據(jù)準備、數(shù)據(jù)投喂和機器學習三個階段的作品使用置于著作權(quán)法基本法理與現(xiàn)有規(guī)則中進行剖析,為司法實踐處理此類糾紛提供創(chuàng)新性思路。

數(shù)據(jù)準備階段:數(shù)據(jù)集創(chuàng)建者的著作權(quán)合規(guī)

數(shù)據(jù)準備階段是模型開發(fā)的重要前置階段?;A(chǔ)模型所使用的數(shù)據(jù)集包括開源數(shù)據(jù)集、付費數(shù)據(jù)集和自建數(shù)據(jù)集。在前兩種情況下,模型開發(fā)者與數(shù)據(jù)集創(chuàng)建者是兩個不同的主體。

數(shù)據(jù)集創(chuàng)建涉及的著作權(quán)問題有二:第一,數(shù)據(jù)集創(chuàng)建者在選取數(shù)據(jù)源時,是否需要過濾掉那些本身具有侵權(quán)屬性的內(nèi)容;第二,在內(nèi)容本身不侵權(quán)的情況下,數(shù)據(jù)集創(chuàng)建者將作品復制于其數(shù)據(jù)集之中,是否需要獲得著作權(quán)人的另行授權(quán)。

第一個問題涉及的是數(shù)據(jù)集創(chuàng)建者對著作權(quán)侵權(quán)內(nèi)容的注意義務(wù)。數(shù)據(jù)集里的數(shù)據(jù)樣本來源分為三種:在經(jīng)營過程中積累的自有數(shù)據(jù)、抓取的網(wǎng)絡(luò)公開數(shù)據(jù)以及購買的第三方數(shù)據(jù)。在這三種來源之下,數(shù)據(jù)集創(chuàng)建者的注意義務(wù)有所不同。

在數(shù)據(jù)集創(chuàng)建者使用自有數(shù)據(jù)的情形下,將數(shù)據(jù)中的侵權(quán)內(nèi)容復制在數(shù)據(jù)集里,其應承擔直接侵權(quán)責任。在采集網(wǎng)絡(luò)公開數(shù)據(jù)的情形下,數(shù)據(jù)集創(chuàng)建者扮演著數(shù)據(jù)使用者的角色。侵犯內(nèi)容是由直接侵權(quán)人進行網(wǎng)絡(luò)公開傳播的,數(shù)據(jù)集創(chuàng)建者不對該侵權(quán)內(nèi)容承擔賠償責任,除非其明知該內(nèi)容的侵權(quán)性質(zhì)仍將其收錄于數(shù)據(jù)集。在數(shù)據(jù)集創(chuàng)建者購買第三方數(shù)據(jù)的情形下,有必要要求其對數(shù)據(jù)中的作品來源合法性問題有事前的合理預見,合法來源抗辯的成立以履行適當?shù)淖⒁饬x務(wù)為前提。

第二個問題涉及的是數(shù)據(jù)集對作品的復制行為是否落入到著作權(quán)人的專有權(quán)利范圍內(nèi)。數(shù)據(jù)集是創(chuàng)建者依照特定的標準收集和整合各種信息而成,根據(jù)數(shù)據(jù)集的創(chuàng)建目的和數(shù)據(jù)內(nèi)容,可區(qū)分為通用數(shù)據(jù)集和專門數(shù)據(jù)集。這兩種數(shù)據(jù)集在復制作品的行為效果上存在差異性。

通用數(shù)據(jù)集的價值基于其數(shù)據(jù)體量和數(shù)據(jù)維度。數(shù)據(jù)樣本內(nèi)容具有多樣性和綜合性的特點,其中既有各種類型的作品,也有不構(gòu)成作品的信息。數(shù)據(jù)中所包含的單一作品,在價值上,對于整個數(shù)據(jù)集來說微乎其微;在體量上,占據(jù)整個數(shù)據(jù)集的極微小部分。對已發(fā)表的單一作品的復制,盡管落入到著作權(quán)人的權(quán)利范圍,但從比例原則下社會公共福祉與著作權(quán)人利益的取舍來看,考慮到侵權(quán)情節(jié)極其輕微,可將其作為一種停止侵權(quán)的例外情形,基于這種“低密度性”使用作品的方式對權(quán)利人造成的損害微乎其微,且給使用人帶來的所得亦極其微弱,所以,通常而言,使用者亦無需承擔損害賠償責任。

專門數(shù)據(jù)集的價值基于其數(shù)據(jù)內(nèi)容和數(shù)據(jù)質(zhì)量。數(shù)據(jù)樣本內(nèi)容具有特定性和專門性的特點,比如,特定作者的作品、特定歷史時期的作品、特定風格的作品或者特定行業(yè)領(lǐng)域的數(shù)據(jù)。數(shù)據(jù)集的價值與作品集合的價值產(chǎn)生了重合,是數(shù)據(jù)集商業(yè)化的基礎(chǔ)。此時,數(shù)據(jù)集創(chuàng)建者理應獲得這些作品的著作權(quán)人的授權(quán),否則侵犯了著作權(quán)人的復制權(quán)或匯編權(quán)。數(shù)據(jù)集的開源傳播還會侵犯作品信息網(wǎng)絡(luò)傳播權(quán)。對于專門數(shù)據(jù)集所涉及的著作權(quán)問題,未來的制度完善可引入“選擇退出”機制和事后許可機制,降低數(shù)據(jù)集創(chuàng)建者與作品著作權(quán)人之間的溝通成本。

數(shù)據(jù)投喂階段:基礎(chǔ)模型開發(fā)者的有限義務(wù)

模型開發(fā)者獲取了數(shù)據(jù)集之后,將數(shù)據(jù)集以指定的批量大小、順序等方式加載到模型的開發(fā)程序中,模型通過算力來實現(xiàn)特征提取和對數(shù)據(jù)集的“吸收”。

數(shù)據(jù)投喂階段的著作權(quán)問題有二:第一,基礎(chǔ)模型開發(fā)者是否需要對數(shù)據(jù)集的著作權(quán)合規(guī)盡到注意義務(wù);第二,基礎(chǔ)模型開發(fā)者是否就此階段的數(shù)據(jù)輸入行為承擔復制權(quán)侵權(quán)責任。

第一個問題涉及數(shù)據(jù)與作品之間錯綜復雜的關(guān)聯(lián)關(guān)系。作品是一種信息,數(shù)據(jù)是信息的載體。數(shù)據(jù)集是其創(chuàng)建者與模型開發(fā)者之間進行交易的一種商品。只要數(shù)據(jù)集的來源合法合規(guī),就不需要再考察組成數(shù)據(jù)集的每一個樣本是否經(jīng)過授權(quán)。但需要指出的是,基礎(chǔ)模型開發(fā)者付費獲得專門數(shù)據(jù)集時,看重的正是數(shù)據(jù)集的樣本內(nèi)容和質(zhì)量,模型開發(fā)者應當對于專門數(shù)據(jù)集的內(nèi)容合規(guī)具有一定程度的注意義務(wù),盡最大努力去避免其使用的數(shù)據(jù)集侵犯他人著作權(quán)。

第二個問題涉及的是基礎(chǔ)模型開發(fā)者將數(shù)據(jù)集加載至模型過程中對數(shù)據(jù)中若干個作品的整體復制。著作權(quán)法行為定性采取的是結(jié)果主義,鑒于此時的復制是純粹的內(nèi)部復制,屬于為了實現(xiàn)其他結(jié)果而進行的過程性復制,是一個被后續(xù)行為所涵蓋的行為,故不需要對其進行單獨的法律評價。

機器學習階段:基礎(chǔ)模型開發(fā)者的非侵權(quán)性

開發(fā)者進行數(shù)據(jù)“投喂”的目的在于對數(shù)據(jù)進行機器學習。機器學習階段的著作權(quán)問題是這種使用作品的行為是否落入到著作權(quán)人的專有權(quán)利范圍內(nèi)。

著作權(quán)法保護表達,而不是思想。著作權(quán)人的權(quán)利所控制的行為是對作品的“表達性使用”,包括對作品中的獨創(chuàng)性表達的直接再現(xiàn)的呈現(xiàn)式使用和間接再現(xiàn)的演繹式使用。將著作權(quán)法意義上的作品使用限定在“表達性使用”,是劃定知識產(chǎn)權(quán)保護范圍與公眾信息自由與表達自由之間界限的關(guān)鍵。無論是我國著作權(quán)法第十條規(guī)定的著作財產(chǎn)權(quán),還是第五十二條、第五十三條所列舉的侵權(quán)行為,均在語義內(nèi)涵上指向?qū)ψ髌返摹氨磉_性使用”。

在傳統(tǒng)著作權(quán)法下,有形載體之上的物權(quán)與載體之上的知識產(chǎn)權(quán)能夠有效區(qū)分,有形之物與無形財產(chǎn)之間的涇渭分明使得人們很容易界定一個行為所使用的是作品中的表達還是作品的載體。數(shù)字時代,數(shù)據(jù)也成為作品的載體,作品的無形性與載體的無形性產(chǎn)生重疊,對作品的使用與對數(shù)據(jù)的使用混合為一體。此時,區(qū)分“表達性使用”與“非表達性使用”就變得重要。

當人工智能進行模型訓練時,第一,其抓取和識別的是數(shù)據(jù),旨在讓機器掌握文字與文字、美術(shù)元素與元素之間分布的規(guī)律,這種規(guī)律本身不受著作權(quán)法所保護;第二,機器學習的本質(zhì)是從數(shù)據(jù)中計算出概率,形成表達范式,無論是模型本身還是模型背后的開發(fā)者,都未產(chǎn)生對作品中的表達的理解和欣賞。因此,模型訓練并非將數(shù)字化的內(nèi)容作為作品進行使用,而是將其作為數(shù)據(jù)來使用,該行為并不應當落入到著作權(quán)的控制范疇。

結(jié)語

基礎(chǔ)模型的開發(fā)是發(fā)揮數(shù)據(jù)要素使用價值的直接方式,是發(fā)揮新質(zhì)生產(chǎn)力效能與創(chuàng)新商業(yè)模式的實現(xiàn)路徑。各國對于人工智能基礎(chǔ)模型訓練的著作權(quán)問題的處理態(tài)度,關(guān)乎著作品數(shù)據(jù)的國際化流動與價值開發(fā)以及各國在人工智能領(lǐng)域的國際競爭。我國目前人工智能產(chǎn)業(yè)發(fā)展仍面臨著數(shù)據(jù)集供應不足、質(zhì)量不高、多樣性匱乏等情況,有必要探索合適的方式來減少我國生成式人工智能產(chǎn)業(yè)在數(shù)據(jù)獲取上的著作權(quán)授權(quán)阻礙和合規(guī)束縛。我國《生成式人工智能服務(wù)安全基本要求》在“語料安全”中規(guī)定應重點識別訓練語料中的著作權(quán)侵權(quán)問題,這種一概而論的規(guī)定是否恰當仍需要從著作權(quán)法的法理上進行更審慎的思考。在個案中,司法機關(guān)應當在著作權(quán)法的現(xiàn)有框架下,根據(jù)模型開發(fā)過程中各個環(huán)節(jié)的作品使用目的和方式,運用基礎(chǔ)法理來確定侵權(quán)與否,劃定數(shù)據(jù)集創(chuàng)建者與模型開發(fā)者版權(quán)注意義務(wù)的邊界,從而為技術(shù)開發(fā)與產(chǎn)業(yè)發(fā)展提供指引。

(原文刊載于《政法論壇》2024年第5期)  

編輯:武卓立