数据爬虫的行为如何合规?

由于网络数据的抓取行为具有高效检索、批量复制、低成本的特点,成为许多企业获取数据资源的途径。正因如此,一旦抓取的数据设计了他人的权益,企业将面临诸多法律风险。本文将从数据抓取行为的相关概述、数据抓取的相关立法规定,并结合近期数据抓取行为的典型案例,探讨数据抓取行为的合规点。

一.数据抓取行为概述

数据爬取行为是指按照设定的关键字、采样对象等规则自动爬取万维网信息的程序或脚本的行为。,并大规模复制抓取结果。

在用爬虫爬取数据的过程中,能否把握住法律边界,对企业来说是生死攸关的问题。近年来,大数据和人工智能的广泛应用,以及对各种数据的刚性需求,使得数据行业徘徊在“灰色边缘”。面对网络数据安全的“强监管”形势,做好数据合规和数据风险控制迫在眉睫。我国目前还没有相关的法律法规专门对数据抓取进行规范,而是根据数据抓取的“质”的不同,主要通过《中华人民共和国著作权法》(以下简称《著作权法》)、《中华人民共和国反不正当竞争法》(以下简称《反不正当竞争法》)和《中华人民共和国反不正当竞争法》。

第二,梳理数据抓取相关的法律责任

(一)承担刑事责任

1,非法侵入计算机信息系统罪

《刑法》第二百八十五条第1款规定“非法侵入计算机信息系统罪”。违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。

典型案例:李等人非法侵入计算机信息系统(2018)川3424,第169号。

本案中,被告人李某利用“爬虫”软件抓取凉山州公安局交警支队车管所公布的大量车牌号信息,然后利用该软件以多线程提交、批量刷、验证码自动识别等方式突破系统安全防护措施,,并将抓取的车牌号提交“交通安全服务管理平台”车辆报废查询系统进行比对,并根据反馈自动记录未登记车牌号,建立全国未登记车牌号数据库。之后编写客户端查询软件,李通过QQ、淘宝、微信等方式,以每月300-3000元的价格出售不同省市的数据库访问权限。

法院认为,被告人李文某为谋取私利,侵入国家事务领域的计算机信息系统,违反国家规定,被告人的行为已构成非法侵入计算机信息系统罪。

2.非法获取计算机信息系统数据罪

《刑法》第二百八十五条第二款规定:违反国家规定,侵入前款规定以外的计算机信息系统,或者以其他技术手段获取计算机信息系统中存储、处理、传输的数据,或者非法控制计算机信息系统,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。同时,《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件适用法律若干问题的解释》第1条对“情节严重”作出具体规定:“非法获取计算机信息系统的数据或者非法控制计算机信息系统的,应当认定为刑法第二百八十五条第二款规定的“情节严重”:(一)获取支付结算、证券交易等。(二)获取第(一)项以外的500组以上身份认证信息的;(三)非法控制计算机信息系统二十个以上的;(四)违法所得五千元以上或者造成经济损失一万元以上的;(五)其他情节严重的。”

典型案例:李、王非法获取计算机信息系统数据,非法控制计算机系统(2021)沪0104第148号。

本案中,公司在未经淘宝(中国)软件有限公司授权的情况下,受李某指使,公司负责人被告人王某、高某等人共同协作,利用IP代理、“X-sign”签名算法等手段,突破、绕过淘宝网的“反爬虫”保护机制,进而通过数据抓取程序,非法抓取淘宝公司在淘宝直播过程中存储的各类主播的播放地址和销量。至案发时,蔡邑公司已将非法获取的数据进行整合并出售牟利。违法所得人民币22万元。法院认为,被告人李、王、高等人构成非法获取计算机信息系统数据罪,分别被判处二年六个月至一年三个月不等的有期徒刑,并处罚金。

法院认为,被告人李文某为谋取私利,侵入国家事务领域的计算机信息系统,违反国家规定,被告人的行为已构成非法侵入计算机信息系统罪。

3、提供入侵、非法控制计算机信息系统的程序和工具。

《刑法》第二百八十五条第三款规定该罪为:提供专门用于侵入、非法控制计算机信息系统的程序、工具的,或者明知是用于侵入、非法控制计算机信息系统的程序、工具而向他人提供,情节严重的,依照前款的规定处罚。《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件适用法律若干问题的解释》也将此类程序、工具列为“具有规避或者突破计算机信息系统安全保护措施的功能,未经授权或者超越授权获取计算机信息系统数据的”。

典型案例:陈晖犯侵入、非法控制计算机信息系统程序、工具罪(2021),粤0115,句首5号。

本案中,被告人陈晖为牟取非法利益,在浙江淘宝网络有限公司旗下的大麦网平台上编写了该地区的爬虫软件进行抢票,并将该软件以1888元至6888元不等的价格出售给他人,非法获利120000元。09年7月65438日,被告人陈晖被公安机关抓获。经鉴定,上述爬虫软件具有以非常规方式构造和发送网络请求的功能,模拟用户在大麦网平台手动下单和购买商品;具有非常规手段模拟用户身份识别和输入图形验证码的功能,可以非常规方式访问大麦网平台资源,绕过大麦的人机识别验证机制。com平台。

我们认为,被告人陈晖提供专门用于侵入、非法控制计算机信息系统的程序、工具,情节特别严重,依法应予惩处。

4.侵犯公民个人信息罪

刑法第253条规定了本罪。违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。违反国家有关规定,出售或者向他人提供在履行职责或者提供服务过程中获取的公民个人信息的,依照前款的规定从重处罚。窃取或者以其他方法非法获取公民个人信息的,依照第一款的规定处罚。

典型案例:杭州魔蝎数据科技有限公司、周江祥、袁东侵犯公民个人信息罪(2020)浙0106刑初437号

本案中,被告人周江祥为公司法定代表人兼总经理,负责公司整体运营,被告人袁东为公司技术总监兼技术总监,负责相关程序设计。魔蝎公司主要与各类网贷公司和小银行合作,为网贷公司和银行提供需要贷款的用户的个人信息和多维度的征信数据。方式是魔蝎公司在上述网贷平台A**中嵌入前端插件it。网贷平台用户在网贷平台APP借款时,借款用户需要使用魔蝎公司提供的前端插件。输入其通信运营商、社保、公积金、淘宝、JD.COM、薛鑫的账号和密码。com、征信中心等网站。蝎子公司的爬虫程序经贷款用户授权后,代替贷款用户登录上述网站,进入其个人账户,利用各种爬虫技术,在上述企事业单位网站上抓取(复制)贷款用户本人账户内的通话记录、社保、公积金等数据。

法院认为,被告人杭州魔蝎数据科技有限公司以其他手段非法获取公民个人信息,情节特别严重,其行为已构成侵犯公民个人信息罪。被告人周江祥、袁东分别是被告公司侵犯公民个人信息行为直接负责的主管人员和其他直接责任人员,其行为均已构成侵犯公民个人信息罪。

5.侵犯著作权罪

根据《刑法》第217条规定,以营利为目的,实施下列侵犯著作权或者与著作权有关的权利行为之一,违法所得数额较大或者有其他严重情节的,处三年以下有期徒刑,并处或者单处罚金;违法所得数额巨大或者有其他特别严重情节的,处三年以上十年以下有期徒刑,并处罚金: (一)未经著作权人许可,通过信息网络向公众复制、发行其文字作品、音乐、美术、视听作品、计算机软件等法律、行政法规规定的作品的;(二)出版他人享有专有出版权的图书;(三)未经制作者许可,复制、发行、通过信息网络向公众传播其制作的录音录像制品的;(四)未经表演者许可,复制发行其表演的录音录像制品,或者通过信息网络向公众传播其表演的;(五)制作、销售假冒艺术品的;(六)故意避开或者破坏著作权人为保护其作品、音像制品等著作权或者与著作权有关的权利所采取的技术措施。未经著作权人或者与著作权有关的权利人许可。

典型案例:谭某某等人侵犯著作权罪(2020)京0108刑初237号。

本案中,自2018年以来,在谭某某等12被告人的管理或运营下,被告人公司在未经科技有限公司、京幻网络科技有限公司等权利公司许可的情况下,利用网络爬虫技术抓取正版电子书,推广运营《鸿雁传书》、《TXT全免费小说》等10余部。根据公安机关依法调取的涉案侵权作品的信息资料、账户交易明细、鉴定结论、广告推广协议等证据,经勘验、检查、鉴定,法院认定涉案作品侵犯了掌阅科技有限公司、北京幻想网络科技有限公司享有专有信息网络传播权的文字作品4603件,侵犯了中文在线数字出版集团有限公司享有专有信息网络传播权的文字作品469件。

法院认为,公司及直接负责的主管人员秦某某等12被告人未经著作权人许可,以营利为目的,复制发行他人享有著作权的作品。情节特别严重,其行为已构成侵犯著作权罪,应予惩处。

(2)构成不正当竞争

我国《反不正当竞争法》第12条规定:“经营者通过网络从事生产经营活动的,应当遵守本法规定。经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍或者破坏其他经营者合法提供的网络产品或者服务正常运行的行为: (一)未经其他经营者同意,在其合法提供的网络产品或者服务中插入链接,强制跳转目标;(二)误导、欺骗或者强迫用户修改、关闭或者卸载其他经营者合法提供的网络产品或者服务;(三)恶意不兼容其他经营者合法提供的网络产品或者服务;(四)妨碍或者破坏其他经营者依法提供的网络产品或者服务正常运行的其他行为。

典型案例:深圳市腾讯计算机系统有限公司与腾讯科技(深圳)有限公司、某新媒体公司不正当竞争纠纷案。

本案中,两原告是微信公众平台的运营者和管理者,被告新媒体公司是某网站的运营者,利用爬虫技术抓取微信公众平台上的文章等信息内容数据,通过网站提供微信官方账号信息搜索、导航、排名等数据服务。原报道称,被告使用被控侵权产品,突破微信公众平台数据抓取的技术措施,并将其商业化,妨碍了平台的正常运营,构成不正当竞争。被告辩称,抓取并提供微信官方账号数据服务的行为不构成不正当竞争,其抓取的文章不是腾讯的数据,而是微信微信官方账号的用户数据,其网站盈利较少。

法院认为,被告违反诚实信用原则,在用户同意的情况下使用原告收集的具有商业价值的数据,足以实质性替代其他经营者提供的部分产品或者服务,破坏了公平竞争的市场秩序,属于《反不正当竞争法》第十二条第二款第四项规定的妨碍和破坏其他经营者合法提供的网络产品或者服务正常运行的行为,构成不正当竞争。

(3)行政责任

我国目前爬虫行为的行政责任主要规定在《网络安全法》中,其中涉嫌违反第二十七条规定:“任何个人或者组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能和防护措施、窃取网络数据等危害网络安全活动的程序和工具;明知他人从事危害网络安全的活动,不得为其提供技术支持、广告推广、支付结算等服务。”,需要承担一定的行政责任。该法第六十三条还对违反第二十七条规定了具体的行政处罚措施,包括“没收违法所得”、“拘留”、“罚款”。同时,对违反第二十七条规定受到处罚的相关人员也作出了岗位限制。

此外,《数据安全管理办法(征求意见稿)》第16条对爬虫的应用进行了限制:“网络运营者应当以自动方式访问、收集网站数据,不得妨碍网站的正常运行;这种行为严重影响了网站的运营。自动访问采集流量超过网站日均流量三分之一的,网站要求停止自动访问采集时应当停止。”同时,第三十七条还规定了相应的行政责任:网络经营者违反有关规定的,由有关部门给予公开曝光、没收违法所得、暂停相关业务、停业整顿、关闭网站、吊销相关经营许可证或者吊销营业执照。

第三,数据抓取行为的合规准则

(一)严格规范数据抓取行为

1.如果目标网站有反爬协议,则应严格遵守网站中设置的Robots协议。Robots协议的全称(也称为爬虫协议、机器人协议等。)是“网络爬虫排除标准”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。协议尊重信息提供者的意愿,维护其隐私权;保护其用户的个人信息和隐私不受侵犯。机器人协议代表了一种契约精神。互联网公司只有遵守这个规则,才能保证网站和用户的隐私数据不被侵犯。可以说,无论是从保护网民隐私的角度,还是从尊重版权内容的角度,遵守robots协议都应该是正规互联网公司的无声之举,任何违反robots协议的行为都应该为此付出代价。

2、合理限定抓取的内容。在设置抓取策略时,要注意编码禁止抓取视频、音乐等清晰的版权作品数据,或者针对某些特定网站批量抓取用户生成的内容;当使用和传播捕获的信息时,我们应该检查捕获的内容。如发现个人信息、隐私或他人商业秘密,应及时制止并删除。对于内部系统数据,严禁入侵。

3.抓取行为不应该妨碍网站的正常运行。企业应合理控制抓取频率,尽量避免抓取数据过于频繁,特别是超过《数据安全管理办法(征求意见稿)》明确规定的自动访问和采集流量超过网站日均流量三分之一的要求,应严格遵守网站要求,及时停止数据抓取。

(2)抓取个人信息时遵守合法、公正、必要的原则。

在中国,合法、公正和必要的原则散见于消费者保护法、网络安全法、全国人大常委会关于加强网络信息保护的决定和个人信息安全法等法律和规范中。拟抓取用户个人信息的网络运营者应严格遵守上述法律法规的规定,以个人用户事先同意为原则,避免抓取超出用户授权范围的信息。同样,数据接收方也应审查爬虫获取他人信息的合法性,以了解个人信息的主体是否同意享有个人信息数据。

(三)抓取商业数据时,谨防不正当竞争。

在数字内容领域,数据是内容产业的核心竞争资源,内容平台处理的数据往往具有极高的经济价值,因此非法抓取行为在一些特定的应用场景下会被认为是不正当竞争。特别是如果双方商业模式相同或相似,获取对方信息会对对方造成直接损害,企业要重点防范。如果是这种情况,就要谨慎使用爬取来获取被爬取网站的数据。

四。结论

随着大数据时代的到来和数字技术的蓬勃发展,数据的价值日益凸显。一些企业利用数据抓取技术更高效地获取和使用相关数据,从而弥补企业数据不足的现状,支撑企业的商业发展。对于这些企业来说,“网络爬虫抓取信息数据怎么合法?”“爬行数据时如何实现合规性?”这是一个亟待解决的大问题。作为法律工作者,应从法律的专业角度为企业提供强有力的合规指导,为促进高新技术企业发展,进一步提升国家科技创新能力做出应有的贡献。