刷個(gè)短視頻
看看直播
結(jié)果其他同類產(chǎn)品推銷卻找上門來……
注意!
你的個(gè)人信息可能已經(jīng)被網(wǎng)絡(luò)爬蟲爬取
2022年5月10日,經(jīng)江蘇省無錫市梁溪區(qū)人民檢察院提起公訴,梁溪區(qū)人民法院以提供侵入計(jì)算機(jī)信息系統(tǒng)程序罪判處被告人丁某有期徒刑一年六個(gè)月,緩刑兩年,并處罰金三萬元。據(jù)悉,該案為全國首例短視頻平臺(tái)“爬蟲”案。
在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代背景下,網(wǎng)絡(luò)爬蟲作為一項(xiàng)獲取網(wǎng)絡(luò)中數(shù)據(jù)和信息的技術(shù),在使用方面一直存在爭議。
一、什么是網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲,又被稱為網(wǎng)絡(luò)機(jī)器人、網(wǎng)頁蜘蛛。網(wǎng)絡(luò)爬蟲通過模仿人類瀏覽互聯(lián)網(wǎng)的行為,將網(wǎng)頁、應(yīng)用軟件等數(shù)據(jù)信息爬取,是一種按照一定規(guī)則對(duì)互聯(lián)網(wǎng)信息或者數(shù)據(jù)進(jìn)行抓取的程序或腳本。
網(wǎng)絡(luò)爬蟲又分為善意爬蟲和惡意爬蟲。善意爬蟲具有促進(jìn)數(shù)據(jù)共享的正面影響,而惡意爬蟲極有可能造成數(shù)據(jù)泄露、侵權(quán)、不當(dāng)競爭等危害。
二、近十年網(wǎng)絡(luò)爬蟲發(fā)展過程
網(wǎng)絡(luò)爬蟲的起源可以追溯到互聯(lián)網(wǎng)誕生之初。隨著互聯(lián)網(wǎng)的不斷發(fā)展以及數(shù)字經(jīng)濟(jì)的出現(xiàn),數(shù)據(jù)和信息的重要性日益顯現(xiàn)。無論是公開的信息,還是私密的數(shù)據(jù),其背后隱藏的價(jià)值都不言而喻。
1.2013年—2015年:北美地區(qū)調(diào)查顯示網(wǎng)絡(luò)爬蟲流量占比約五成
海外著名調(diào)查機(jī)構(gòu)Aberdeen Group在2013年至2015年以北美地區(qū)幾百家公司為調(diào)查對(duì)象,探究網(wǎng)絡(luò)爬蟲訪問流量發(fā)現(xiàn),網(wǎng)絡(luò)爬蟲訪問這些公司網(wǎng)站的流量占比竟高達(dá)約五成。其中,2014年真人訪問流量只占40.9%。
除了2013年,善意爬蟲訪問流量(24.22%)高于惡意爬蟲(20.98%)約三個(gè)百分點(diǎn)之外,2014、2015年惡意爬蟲訪問流量占比分別為36.32%、27.04%,均高于同年的善意爬蟲訪問流量占比(22.78%、18.16%)。
2.2018年:云鼎實(shí)驗(yàn)室追蹤惡意爬蟲流量最大行業(yè),“出行”行業(yè)居首
近些年來,隨著我國互聯(lián)網(wǎng)不斷發(fā)展,“大數(shù)據(jù)”的概念深入人心,數(shù)據(jù)價(jià)值更被喻為“無價(jià)之寶”。但是在利益的驅(qū)使下,許多公司或者個(gè)體開始引入“惡意爬蟲”肆意爬取其他公司或者個(gè)人的重要數(shù)據(jù)、信息。
云鼎實(shí)驗(yàn)室在2018年對(duì)海量惡意爬蟲流量進(jìn)行追蹤,并統(tǒng)計(jì)出了惡意爬蟲流量最大的十大行業(yè)。其中,占比最多的是出行行業(yè)(20.87%)。分析認(rèn)為,購票平臺(tái)數(shù)據(jù)量龐大,尤其在節(jié)假日期間,車票、機(jī)票、住宿更是供不應(yīng)求,致使代購票和第三方搶票服務(wù)層出不窮,而要做到數(shù)據(jù)實(shí)時(shí)刷新,需要大量網(wǎng)絡(luò)爬蟲。
3.2019年:Aberdeen Group數(shù)據(jù)顯示網(wǎng)絡(luò)爬蟲流量高達(dá)37.2%
根據(jù)Aberdeen Group在2019年的調(diào)查顯示,縱觀整個(gè)互聯(lián)網(wǎng),網(wǎng)絡(luò)爬蟲的流量高達(dá)37.2%。這些網(wǎng)絡(luò)爬蟲在網(wǎng)絡(luò)中肆意游走,爬取數(shù)據(jù)、查看信息,如此循環(huán)往復(fù)。
按照網(wǎng)絡(luò)爬蟲的功能進(jìn)行分類,可以分為網(wǎng)頁爬蟲和接口爬蟲(也稱API爬蟲)。
4.2020年—2021年:典型案例顯示API爬蟲成為數(shù)據(jù)泄露主要威脅
2021年6月,根據(jù)中國裁判文書網(wǎng)的公開判決案例顯示,河南省商丘市睢陽區(qū)人民法院依法對(duì)逯某、黎某侵犯公民個(gè)人信息進(jìn)行判決。原因是逯某從淘寶中非法爬取了11億余條客戶信息,并將非法獲得的用戶信息提供給了黎某用于商業(yè)經(jīng)營,非法獲利34萬元。
此案一經(jīng)判決便在網(wǎng)絡(luò)中引發(fā)了不小的議論,部分網(wǎng)友對(duì)自己的個(gè)人隱私表示擔(dān)憂。該案中,逯某就是運(yùn)用了API爬蟲技術(shù)對(duì)用戶信息進(jìn)行了非法爬取。根據(jù)永安在線的統(tǒng)計(jì),API爬蟲已經(jīng)成為了數(shù)據(jù)泄露的主要威脅。
三、分析師點(diǎn)評(píng)
輿論認(rèn)為,新技術(shù)的出現(xiàn)標(biāo)志著時(shí)代革新,技術(shù)不分好壞,用途卻有善惡。惡意爬蟲橫行網(wǎng)絡(luò),且涉足領(lǐng)域廣泛,從個(gè)人信息到開源數(shù)據(jù),從政府網(wǎng)站到商業(yè)網(wǎng)站,相關(guān)危害不容小覷。
《檢察日?qǐng)?bào)》等文章認(rèn)為,首先應(yīng)明確合法使用爬蟲技術(shù)的邊界。相關(guān)判定標(biāo)準(zhǔn)至少需包括三項(xiàng)原則,一是合法的網(wǎng)絡(luò)數(shù)據(jù)爬取應(yīng)限于對(duì)開放數(shù)據(jù)的獲取;二是合法使用的數(shù)據(jù)爬蟲技術(shù)不應(yīng)具有侵入性;三是數(shù)據(jù)爬取應(yīng)當(dāng)基于正當(dāng)目的。同時(shí),明確各部門和不同行業(yè)主管部門的監(jiān)管職責(zé),提升執(zhí)法能力、強(qiáng)化監(jiān)管體系,在整治惡意爬蟲這一目標(biāo)上形成合力,促進(jìn)網(wǎng)絡(luò)爬蟲技術(shù)在法律規(guī)制下健康發(fā)展。
參考資料:
1.【報(bào)告】2018上半年互聯(lián)網(wǎng)惡意爬蟲分析
https://cloud.tencent.com/developer/article/1336209
2.API安全已是數(shù)據(jù)泄露頭號(hào)風(fēng)險(xiǎn),92%的數(shù)據(jù)泄露來自爬蟲
https://mp.weixin.qq.com/s/j3SUEYKY6AErtwKgu44Pvw
3. 法律規(guī)制:數(shù)據(jù)爬蟲的懸頂之劍
https://kns.cnki.net/kns8/defaultresult/index
4. 論網(wǎng)絡(luò)爬蟲生態(tài)系統(tǒng)的立法保障——以構(gòu)建行、民、刑三位一規(guī)制模式為進(jìn)路
https://kns.cnki.net/kns8/defaultresult/index
5. 爬取數(shù)據(jù)需遵規(guī)
https://www.spp.gov.cn/spp/llyj/202202/t20220210_543998.shtml
分析師:劉思源
新媒體編輯:李思彤
編輯:劉思源