爬蟲(chóng)技術(shù)應(yīng)用合法性引爭(zhēng)議 亟待規(guī)制非法爬取數(shù)據(jù)行為
爬蟲(chóng)技術(shù)應(yīng)用合法性引爭(zhēng)議
保障數(shù)據(jù)安全亟待規(guī)制非法爬取數(shù)據(jù)行為
核心閱讀
在大數(shù)據(jù)時(shí)代的背景下,愈來(lái)愈多的市場(chǎng)主體投入鉅資收集、整理和挖掘資訊。如果任由網(wǎng)路爬蟲(chóng)任意使用他人通過(guò)巨大投入獲取的數(shù)據(jù)資源,將不利於鼓勵(lì)商業(yè)投入、産業(yè)創(chuàng)新和誠(chéng)實(shí)經(jīng)營(yíng),甚至可能直接違背了數(shù)據(jù)來(lái)源用戶的意願(yuàn)和知情權(quán),最終勢(shì)必?fù)p害健康的競(jìng)爭(zhēng)機(jī)制。
□ 本報(bào)記者 張 維
□ 法制網(wǎng)見(jiàn)習(xí)記者 邢國(guó)涵
隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展,數(shù)據(jù)的價(jià)值日益凸顯,已然成為企業(yè)科技創(chuàng)新的必備要素。但企業(yè)通過(guò)技術(shù)手段獲取數(shù)據(jù)時(shí),數(shù)據(jù)抓取技術(shù)的應(yīng)用行為是否合理合法,是一個(gè)值得深思的問(wèn)題。
近年來(lái),網(wǎng)路爬蟲(chóng)“爬取數(shù)據(jù)”成為熱詞,相關(guān)司法案例不斷出現(xiàn)。據(jù)不完全統(tǒng)計(jì),近些年涉及網(wǎng)路爬蟲(chóng)的司法案件達(dá)十余起,其中既包括民事案件,還包括刑事案件。這類案例甚至還有愈演愈烈之勢(shì)。
在近日于上海舉行的長(zhǎng)三角數(shù)據(jù)合規(guī)論壇(第三期)暨數(shù)據(jù)爬蟲(chóng)的法律規(guī)制研討會(huì)上,上海市人民檢察院研究室副主任陳超然透露,檢察機(jī)關(guān)正在積極推動(dòng)企業(yè)合規(guī)改革試點(diǎn)工作,數(shù)據(jù)合規(guī)正是其中重點(diǎn)。“目前爬蟲(chóng)爬取數(shù)據(jù)案件非常普遍,當(dāng)網(wǎng)路平臺(tái)或者個(gè)人通過(guò)技術(shù)手段抓取別的平臺(tái)數(shù)據(jù)時(shí),這種行為是否合法,平臺(tái)數(shù)據(jù)主體是誰(shuí),歸誰(shuí)使用,值得深入研討。”
杭州長(zhǎng)三角大數(shù)據(jù)研究院副院長(zhǎng)郭兵認(rèn)為,數(shù)據(jù)爬蟲(chóng)作為中立性的技術(shù),已在網(wǎng)際網(wǎng)路産業(yè)領(lǐng)域得到廣泛應(yīng)用。需要注意的是,如果爬蟲(chóng)技術(shù)不當(dāng)應(yīng)用,會(huì)對(duì)其他競(jìng)爭(zhēng)者的合法權(quán)益造成損害,甚至涉嫌違法或者犯罪,也將對(duì)産業(yè)的健康發(fā)展産生非常大的負(fù)面影響。
爬取數(shù)據(jù)涉嫌侵權(quán)
從技術(shù)角度看,爬蟲(chóng)是通過(guò)程式去模擬人類上網(wǎng)或者瀏覽網(wǎng)頁(yè)、App行為,讓其高效地在網(wǎng)上抓取爬蟲(chóng)製造者所需要的資訊。
歐萊雅中國(guó)數(shù)字化負(fù)責(zé)人劉煜晨説,大多數(shù)網(wǎng)站拒絕爬蟲(chóng)訪問(wèn),其中的原因既包括商業(yè)利益考量,也包括自身網(wǎng)站運(yùn)營(yíng)安全的考量。除了爬蟲(chóng)可能爬到網(wǎng)站不願(yuàn)被爬取的數(shù)據(jù)以外,網(wǎng)站經(jīng)營(yíng)者往往還會(huì)擔(dān)心爬蟲(chóng)干擾網(wǎng)站正常運(yùn)營(yíng)。
而非正規(guī)爬蟲(chóng)自動(dòng)持續(xù)且高頻地對(duì)被爬取方進(jìn)行訪問(wèn),伺服器負(fù)載飆升,也會(huì)給伺服器帶來(lái)“難以承受”之重:應(yīng)對(duì)經(jīng)驗(yàn)不足的網(wǎng)站,尤其是中小網(wǎng)站可能會(huì)面臨網(wǎng)站打不開(kāi)、網(wǎng)頁(yè)載入極其緩慢、有時(shí)甚至直接癱瘓的情況。
新浪集團(tuán)訴訟總監(jiān)張喆説,無(wú)論是爬蟲(chóng)還是實(shí)現(xiàn)其他目的的技術(shù),就其本身而言,都是中立的,但爬蟲(chóng)技術(shù)的應(yīng)用不是中立的,技術(shù)應(yīng)用都帶有應(yīng)用者的目的。這時(shí)候不應(yīng)該評(píng)價(jià)技術(shù)原理,而是需要評(píng)價(jià)技術(shù)用來(lái)幹什麼,這一行為手段是否具有正當(dāng)性。
提及網(wǎng)路爬蟲(chóng),robots協(xié)議是繞不開(kāi)的話題。robots協(xié)議(也稱爬蟲(chóng)協(xié)議)的全稱是“網(wǎng)路爬蟲(chóng)排除標(biāo)準(zhǔn)”,網(wǎng)站通過(guò)robots協(xié)議明確警示搜索引擎哪些頁(yè)面可以爬取,哪些頁(yè)面不能爬取。該協(xié)議也被行業(yè)稱為搜索領(lǐng)域的“君子協(xié)定”。
劉煜晨説,當(dāng)網(wǎng)路爬蟲(chóng)訪問(wèn)一個(gè)網(wǎng)站,robots協(xié)議像立在自己房間門(mén)口的一個(gè)牌子,告訴外來(lái)者誰(shuí)可以過(guò)來(lái),誰(shuí)不可以過(guò)來(lái)。但是,這只是一個(gè)君子協(xié)議,只能起到告示作用,起不到技術(shù)防範(fàn)作用。
實(shí)踐中,惡意爬蟲(chóng)爬取時(shí)不遵守網(wǎng)站的robots協(xié)議,並可能爬取到不該爬的數(shù)據(jù),這種情形並非孤例。小紅書(shū)法務(wù)負(fù)責(zé)人曾翔説,惡意爬蟲(chóng)案例經(jīng)常發(fā)生在內(nèi)容平臺(tái)和電商平臺(tái)。在內(nèi)容上被爬取的更多是視頻、圖片、文字、網(wǎng)紅互動(dòng)數(shù)據(jù)、用戶行為等,在電商領(lǐng)域則多為商家資訊和商品資訊。
“內(nèi)容平臺(tái)一般約定了相關(guān)內(nèi)容智慧財(cái)産權(quán)歸發(fā)佈者或者發(fā)佈者和平臺(tái)共同所有,這些爬蟲(chóng)沒(méi)有簽訂協(xié)議就獲得用戶授權(quán),涉嫌對(duì)智慧財(cái)産權(quán)人權(quán)利的侵犯。”曾翔説。
或應(yīng)明確網(wǎng)站權(quán)利
這就涉及到數(shù)據(jù)的權(quán)屬及是否能開(kāi)放的問(wèn)題。
上海市浦東區(qū)人民法院智慧財(cái)産權(quán)庭法官徐弘韜認(rèn)為,數(shù)據(jù)是內(nèi)容産業(yè)的核心競(jìng)爭(zhēng)資源,內(nèi)容平臺(tái)經(jīng)過(guò)匯總分析處理後的數(shù)據(jù)往往具有極高的經(jīng)濟(jì)價(jià)值。
“如果要求內(nèi)容平臺(tái)經(jīng)營(yíng)者將其核心競(jìng)爭(zhēng)資源向競(jìng)爭(zhēng)對(duì)手無(wú)限開(kāi)放,不僅有違‘互聯(lián)互通’精神的實(shí)質(zhì),也不利於優(yōu)質(zhì)內(nèi)容的不斷更疊和網(wǎng)際網(wǎng)路産業(yè)的持續(xù)發(fā)展。”徐弘韜説。
惡意爬蟲(chóng)爬取數(shù)據(jù)案件頻發(fā)的背後,是數(shù)據(jù)的價(jià)值增加,以數(shù)據(jù)為核心的市場(chǎng)競(jìng)爭(zhēng)愈發(fā)激烈。
華東政法大學(xué)教授高富平説,進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)價(jià)值再次凸顯,現(xiàn)在的爬蟲(chóng)技術(shù)已經(jīng)從原來(lái)的網(wǎng)頁(yè)爬蟲(chóng)進(jìn)入到底層數(shù)據(jù)的爬取。數(shù)據(jù)爬蟲(chóng)問(wèn)題會(huì)變得越來(lái)越嚴(yán)重。
在大數(shù)據(jù)時(shí)代的背景下,愈來(lái)愈多的市場(chǎng)主體投入鉅資收集、整理和挖掘資訊,業(yè)內(nèi)人士對(duì)此表示擔(dān)憂:如果任由網(wǎng)路爬蟲(chóng)任意使用或利用他人通過(guò)巨大投入所獲取的數(shù)據(jù)資源,將不利於鼓勵(lì)商業(yè)投入、産業(yè)創(chuàng)新和誠(chéng)實(shí)經(jīng)營(yíng),甚至可能直接違背了數(shù)據(jù)來(lái)源用戶的意願(yuàn)和知情權(quán),最終勢(shì)必?fù)p害健康的競(jìng)爭(zhēng)機(jī)制。
高富平認(rèn)為,如果網(wǎng)站合法積累數(shù)據(jù)資源,那麼這些數(shù)據(jù)資源就應(yīng)該屬於網(wǎng)站的資産。“允許數(shù)據(jù)生産者、控制者基於商業(yè)目的開(kāi)放數(shù)據(jù)是有好處的,通過(guò)許可使用、交換交易等方式,可以讓更多人享用數(shù)據(jù)服務(wù)。期待在未來(lái)確認(rèn)數(shù)據(jù)所有合法生産者對(duì)數(shù)據(jù)的控制權(quán)、使用權(quán)。”
有序流轉(zhuǎn)同等重要
目前,網(wǎng)站雖然可以去指定相應(yīng)策略或技術(shù)手段,防止爬蟲(chóng)抓取數(shù)據(jù),但爬蟲(chóng)也有更多技術(shù)手段來(lái)反制這種反爬策略。
劉煜晨説,反爬和爬取的技術(shù)一直在迭代,在技術(shù)領(lǐng)域,沒(méi)有爬不了的網(wǎng)站和App,只有願(yuàn)不願(yuàn)意爬和多難爬的問(wèn)題。
據(jù)了解,現(xiàn)實(shí)中惡意網(wǎng)路爬蟲(chóng)製造者抗辯時(shí),往往將robots協(xié)議限制爬取與數(shù)據(jù)流轉(zhuǎn)聯(lián)繫起來(lái)。徐弘韜認(rèn)為,在“互聯(lián)互通”的語(yǔ)境下,“有序”和“流轉(zhuǎn)”同等重要、缺一不可,需排除假借“互聯(lián)互通”妨礙公平競(jìng)爭(zhēng)、危害用戶數(shù)據(jù)安全的行為。
“對(duì)於非搜索引擎爬蟲(chóng)的正當(dāng)性判別,要考慮是否足以保障用戶數(shù)據(jù)的安全性。包括身份數(shù)據(jù)、行為數(shù)據(jù)等在內(nèi)的用戶數(shù)據(jù),從屬性來(lái)講不僅僅是經(jīng)營(yíng)者的競(jìng)爭(zhēng)資源,同樣具有用戶的個(gè)人隱私屬性,而此類數(shù)據(jù)的集合更涉及社會(huì)公共利益。”徐弘韜説。
據(jù)了解,近年來(lái)有關(guān)數(shù)據(jù)安全的法律規(guī)範(fàn)正在不斷完善中。數(shù)據(jù)安全法作為數(shù)據(jù)安全的基本法,承載著解決我國(guó)數(shù)據(jù)安全核心制度框架的重要任務(wù)。此外,還有2019年通過(guò)的密碼法,工信部擬出臺(tái)《工業(yè)和資訊領(lǐng)域數(shù)據(jù)安全管理辦法(試行)》等,一些地方如深圳、上海等也在探索制定數(shù)據(jù)管理相關(guān)規(guī)範(fàn)。