作为大数据时代的数据高效采集工具,网络爬虫在诞生之初是中立的。但随着技术和时代的发展,网络爬虫行为逐渐出现了技术不正当使用风险,风险领域也逐渐从民事转向了刑事,刑事规制需求日益凸显。本文通过分析大数据时代网络爬虫行为的刑事规制困境,探讨法秩序统一视阈下大数据时代网络爬虫行为刑事规制的出路,以期为完善相关领域立法提供理论参考。
一、网络爬虫行为的界定及特征
网络爬虫,又被称为网络机器人、网络蚂蚁、网络蜘蛛等,是一种依据人为事先设定的规则,自动对互联网上的特定信息进行爬取和存储的程序或者脚本。随着互联网的迭代升级,网络爬虫技术也在快速更新,从最初的“互联网漫游者”逐渐变得复杂化、多样化,当前主流技术体系依据目标场景差异,主要分化出四种爬虫类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。
网络爬虫行为在收集数据时具有自动性、存储性、高效性和精准性,以及低技术门槛和难防守性的特点。自动性和存储性体现在只需人为事先为爬虫设定一些规则,它就可以自动执行脚本,自动定位到设定者所需要的数据,并将这些数据提取和存储下来。高效性和精准性是指相较人工采集数据的缓慢和易出错性,利用网络爬虫来采集数据更为高效和精准。比如,在甲公司与乙公司的不正当竞争纠纷案件里,甲公司通过爬虫技术日均爬取竞品数据300多万条。低技术门槛体现在网络爬虫的程序或脚本相对来说技术含量较低,甚至不懂软件开发的人也可以直接使用爬虫软件来采集数据。难防守性是指数据被爬取方在应对网络爬虫的大量访问和数据被侵害的行为时往往难以防御。目前可采取的技术防范手段一般为爬虫协议和反爬取措施,但总体而言,这些手段防守性并不强,在无视规则的情况下,网络爬虫操作者完全可以肆无忌惮侵入并采集大量数据。网络爬虫的这些特点使得它广泛运用于各种需要采集大量数据的场合,甚至被用于犯罪行为。
二、网络爬虫行为的刑事风险
网络爬虫行为引起的刑事风险可以通过爬取数据类型、爬取数据的方式以及爬取数据后的使用目的来分析。
(一)从爬取的数据类型分析
从爬取的数据类型来看,网络爬虫行为可以分为爬取公开数据与非公开数据的行为,也可以分为爬取非法数据、法律保护的数据和其他数据的行为。爬取公开数据的行为通常涉及可公开获取的数据资源,其刑事风险主要在于使用方式,如恶意传播、实施诈骗等非法行为。爬取非公开数据行为的刑事风险主要在于数据来源不合法和恶意侵入网站。爬取非法数据和受法律保护数据的行为存在严重的刑事风险,一旦个人隐私、商业秘密、国家秘密等受法律保护的数据被传播或用于牟利,就可能存在构成侵犯公民个人信息、侵犯商业秘密、故意泄露国家秘密、危害国家安全等法律风险。爬取其他数据行为的刑事风险主要在于爬取数据范围的合法性是否突破了法律界限、是否产生了其他不正当的影响等。
(二)从爬取数据的方式分析
从爬取数据的方式看,网络爬虫行为可以分为以下三类:一是获得数据网站同意的爬取行为;二是违背数据网站授权意愿的爬取,典型表现为违反网络爬虫排除协议、服务协议等;三是故意避开或强行破解数据网站安全措施的爬取,表现为使用伪造device_id、UA及IP,或者对数据进行解码等手段。获得数据网站同意的爬取行为的风险主要在于爬取数据的授权范围和针对数据的处理方式是否存在问题。
违背数据网站授权意愿的爬取和故意避开或强行破解数据网站安全措施的爬取行为的刑事风险有两个方面。一是如果非法侵入了国家事务、国防建设、尖端科学技术领域的计算机信息系统,那无须其他附加条件便能认定构成非法侵入计算机信息系统罪。如果非法侵入了一般的计算机信息系统,获取了其中存储、处理或者传输的数据,或者实施非法控制,情节严重的则会构成非法获取计算机信息系统数据罪或非法控制计算机信息系统程序、工具罪。二是如果非法对计算机信息系统的功能或者对系统里存储、处理、传输的数据及应用程序进行破坏,又或是故意编写并传播计算机病毒这类具有破坏性的程序,干扰计算机系统的正常运作,后果严重的将构成破坏计算机信息系统罪。
(三)从爬取数据后的使用目的分析
从爬取数据后的使用目的,可以将网络爬虫行为分为有正当使用目的爬取行为和无正当使用目的爬取行为。有正当使用目的爬取行为指在合法范围内使用爬虫爬取数据,进行教育教学、科学研究等,其刑事风险主要在于数据来源的合理性和侵犯他人隐私等方面的因素。无正当使用目的爬取行为指使用爬虫爬取数据用于违法犯罪等恶意活动,其刑事风险主要在于侵犯他人权益、违反法律规定等方面。
三、大数据时代网络爬虫行为的刑事规制困境
(一)入罪困境:衔接不足与标准模糊
一是前置法衔接不足。大数据时代的迅猛发展凸显了法律滞后性难题。为应对技术革新,我国虽已构建了以《中华人民共和国刑法》(以下简称《刑法》)为核心,《中华人民共和国民法典》(以下简称《民法典》)、《中华人民共和国反不正当竞争法》《中华人民共和国数据安全法》(以下简称《数据安全法》)等为补充的规范体系,但立法呈部门化、碎片化特征。立法疏漏集中体现于两方面。第一,过于笼统抽象,大都是比较原则性的规定,即这些立法直接针对网络爬虫行为合法性的界定较少,未明确网络爬虫的合法边界,导致实务中合法与非法判断缺乏具体指引。如《数据安全法》强调数据处理活动合法性,却未细化爬虫爬取数据的授权范围、频率限制等技术参数;《中华人民共和国个人信息保护法》虽要求“知情同意”,但对自动化爬取场景下的同意形式未予回应,致使爬虫操作者面临合规不确定性。第二,多数条文仅宣示行为违法性,未直接配套具体罚则。例如,《民法典》第111条未规定非法收集个人信息的处罚措施;《网络反不正当竞争暂行规定》第12条虽可用于规制部分恶意爬虫行为,但也未明确规定违反该条款的具体罚则。这就往往导致侵犯数据安全的行为得不到及时有效的救济,与《刑法》的衔接不够。同时,犯罪预防失效,潜在违法者因违法成本模糊而可能心存侥幸。因此,现有立法难以适应实践中全面有效规制网络爬虫行为的需求。
二是客观不法认定模糊。网络爬虫行为犯罪的客观不法性可从进入不法、内容不法与使用不法三重维度来分析。进入不法指爬虫行为违反国家规定或未经、超越授权侵入系统。但现行法律中“违反国家规定”与“是否授权或超越授权”概念是模糊的,没有明确的法定标准。司法实践中,法院常笼统以“违反国家规定”“采取技术手段”等为由来判定违法性,忽略技术细节审查。如在某案中,法院径直将爬虫突破网站防护的行为等同于“侵入”,并未对爬虫行为的技术原理、网站的爬虫协议等进行细致考察,导致客观不法认定机械化。内容不法指爬虫爬取的数据属于《刑法》的保护内容或禁止内容。实践中,法官往往将数据犯罪的相关规定置于计算机犯罪的体系下,导致“数据”的概念无所不包,模糊了数据的价值层级,内容不法的内涵和外延变得不清晰。使用不法指对爬取数据进行了不正当使用。现有法律缺乏对“不正当使用”的细化标准,如爬取公开数据后用于算法歧视或舆论操纵是否构成犯罪尚无明确指引。规则的不明确扩大了法官的自由裁量权,易导致同案异判。另外,由于网络爬虫爬取速度过快、数据量巨大,在认定是否达到“情节严重”或“情节特别严重”时也缺乏相应标准。因此,网络爬虫行为的客观违法性界限还较模糊。
三是主观罪责判定争议。根据主客观相统一原则,网络爬虫行为的入罪需兼顾客观不法与主观罪责:与进入不法相统一的是审视行为人主观上是否存在故意突破网络安全和数据安全保护措施,进而访问、获取相关数据的意图;与内容不法相统一的是主观上是否具有获取法律保护或禁止数据的目的;与使用不法相统一的是主观上是否有不正当使用爬虫所爬取数据的意图。即网络爬虫的爬取行为可能涉及的主观故意主要有是否知悉爬取数据是法律保护或禁止的数据、是否了解目标网站的访问协议与规则、是否具有爬取数据的目的意图等方面。然而,主观故意的判定也面临一定的困难。一方面,《刑法》中对以上主观意图并没有明确的界定标准。另一方面,存在技术中立干扰,自动化操作削弱了行为与故意的直接关联,难以证明行为人的明知。此外,当网络爬虫行为犯罪由多主体参与时,现行法律缺乏责任分层标准,导致司法实践中主观罪责认定存在困难。例如,爬虫程序开发者可能以“技术中立”抗辩,而数据使用者则以“不知情”推责,最终难以归责。
(二)定罪困境:立法滞后与“口袋罪”滥用
在大数据时代,网络爬虫引发的侵权行为可能出现在数据处理的各个阶段。特别是因数据泄露、滥用数据所导致的下游犯罪、消费操控等一系列衍生性、继发性新型损害,让传统法律在有效规制方面面临挑战,刑事规制总体滞后于技术迭代速度。
目前,《刑法》并没有将恶意网络爬虫行为直接规定为犯罪的客观方面构成要件,而是在个别罪名的适用中,通过“侵入”“非法获取”“其他不正当手段”等抽象表述间接定性。这很容易造成“一刀切”的局面,不利于根据爬虫行为的侵害性对其进行细分,以致网络爬虫行为在入罪时被归于“口袋罪”的范畴。较为典型的例证是将网络爬虫突破被爬取方的限制访问认定为非法侵入计算机信息系统罪。若从扩张解释的角度来界定“侵入”,该行为既包括通过算法程序突破系统限制进入网络平台的情形,还包括违反数据主体的意志擅自进入网络平台的情形,后者不要求“侵入”是通过技术手段。《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》所持立场与上述类似,即采取“未经授权、超越授权”的实质标准,无论是否通过技术手段入侵,只要违背了数据主体的意愿,就符合侵入性。当前的司法实践亦是认为,无论是非技术手段进入系统获取大量数据,还是通过技术手段暴力突破系统获取数据,这两种行为在对数据安全造成的侵害后果上没有区别。但笔者认为,“未经授权、超越授权”的实质标准立场会导致非法侵入计算机信息系统罪成为“口袋罪”,不同网络爬虫行为的侵害性是不同的,立法应区分技术手段与危害结果设定差异化的入罪和处罚标准,避免司法中客观归责绝对化。
(三)出罪困境:规则缺位与利益失衡
一是正当目的认定模糊。网络爬虫最初作为一种中立技术,意在推动社会经济的发展,但随着滥用风险加剧,司法实践对其合法性判断趋于审慎。依据刑法“被允许的危险”理论,若爬虫行为具备正当目的,即便存在法益侵害风险,亦可在合理限度内被容忍。网络爬虫技术获取的数据信息被不正当利用是爬虫行为具有可罚性的重要条件。实践中,网络爬虫爬取数据信息后的不正当用途主要有买卖、传播个人信息,传播淫秽物品牟利以及用于诈骗、敲诈勒索等下游犯罪。《刑法》对此类行为须严厉打击,但应恪守谦抑性原则,避免过度干预技术应用。当前困境在于正当目的认定缺乏明确标准,在有些情况下对于正当目的的认定是比较模糊和存在难度的,比如对于数据的正当使用是否有时间限制、商业分析是否属于正当使用等。未来须通过立法细化正当目的类型,并建立动态评估机制,平衡技术红利与法益保护。
二是知情同意效力争议。如果网络爬虫控制者在未经过数据主体同意的情况下大量爬取信息数据,则存在构成非法收集个人信息违法行为的风险。反之,在知情同意的情况下爬取数据则具备合法性。除了双方明确的协议来表明知情同意外,如果采集的是公开数据或共享数据也应默认数据主体已知情同意,不构成“未经授权”的行为。存在争议的是爬虫协议是否可以作为判断“未经授权”或“超越授权”的因素。违反爬虫协议的行为在技术界和法律界往往被认为违反技术伦理和商业道德,但其单方声明性质与法律强制力存疑。若协议内容存在不合理歧视或无根据的排除爬虫行为,则其约束力更受质疑,能否作为网络爬虫行为违法性的认定前提仍有待商榷。未来须通过立法明确爬虫协议的法律属性,并细化授权认定标准,以平衡数据安全与技术发展需求。
四、法秩序统一视阈下刑事规制困境的出路
(一)建立数据规范使用体系
网络爬虫作为一种自动化采集数据的工具,其技术中立性因滥用风险加剧而逐渐异化。建立数据规范使用体系能够更好地实现网络爬虫治理,做好刑法规制前的缓冲工作。当前体系构建存在两种可选路径:一是在《刑法》相关规定中直接嵌入规范使用的规则,将违反规范使用规则纳入犯罪构成要件;二是通过其他规范设定使用规则。鉴于网络爬虫刑事风险的分散性,后者更具可行性。规范体系设计需兼顾技术价值与法律逻辑。一方面,要考虑到技术中立性,提取爬虫技术中的中立元素,如自动化爬取,避免因滥用风险否定技术本身。另一方面,要进行风险分层,根据数据的敏感性与使用场景设定差异化规则。具体实施可围绕事前、事中和事后三阶段展开:事前明确数据爬取的合法来源与授权形式;事中合规爬取,限制爬取范围,如数据量、频率等;事后进行监管,确保数据使用合理合法。规范使用体系的构建能够在一定程度上更好地实现犯罪预防,减少刑事风险,恢复网络爬虫技术的中立性。
(二)增强《刑法》与前置法的衔接
基于网络爬虫行为的社会危害性差异与数据安全保护需求,应从法秩序统一的原理出发,构建“民—行—刑”衔接的分级规制体系,严格遵循刑法谦抑性,即网络爬虫行为应优先通过民法、行政法调控,刑法仅作为最后手段。一是民法层面,需在《民法典》中确立数据权的民事权利属性,明确恶意爬虫侵犯数据权的具体情形。二是行政法层面,厘清《数据安全法》有关术语界定,如数据处理活动,明确爬虫协议的法律性质,并完善行政法监管体系,强化对网络爬虫的行政监管力度,包括明确行政监管主体、设立专门的行政机构、发展多元的行政处罚措施等。三是《刑法》进行补充与衔接,需根据行为侵害性细化罪名与量化标准来避免泛化适用,实现罪责刑相适应,进一步强化《刑法》与前置法的衔接。一方面,要建立行政违法线索向刑事立案的转化机制,避免管辖真空。另一方面,在前置法中嵌入刑事违法提示条款,明确刑事追责的触发条件。由此,既可遏制技术滥用,又能为技术创新保留合理空间,实现法益保护与技术发展的动态平衡。
(三)完善《刑法》并推动前瞻立法
当前,网络爬虫行为的刑事规制存在“口袋罪”泛化问题,如“非法侵入计算机信息系统罪”与“非法获取计算机信息系统数据罪”的扩张适用。然而,网络爬虫行为侵害性是多样的,其所蕴含的权利属性也存在差异,统一适用兜底罪名难以实现精准规制。因此,刑事立法的首要任务是实现“口袋罪”的去口袋化。一方面,可以修正现有罪名,如将“非法获取计算机信息系统数据罪”修改为“非法获取网络数据罪”“侵犯公民个人信息罪”调整为“侵犯公民个人数据罪”。另一方面,根据行为侵害性设定差异化的入罪门槛与量刑标准,避免“情节严重”认定的机械化。
《刑法》对网络爬虫行为的规制存在立法滞后性,亟须通过前瞻性立法完善。一是法益保护转型,加强对大数据时代数据安全法益的保护,将规制重心从计算机信息系统秩序转向数据安全,明确数据安全法益的独立价值。《刑法》将数据犯罪纳入计算机犯罪体系,忽视了数据作为独立客体的特殊性,导致数据主体权益保护不足。二是强化国家安全法益保护,在危害国家安全罪下增设相关罪名,填补数据安全领域的立法空白。《刑法》对网络爬虫行为的规制主要集中于个人与公共安全,而对国家安全法益关注不足。例如,大规模爬取国家基础数据可能威胁国家安全,却缺乏针对性罪名予以规制。通过上述立法完善,既可实现网络爬虫行为的精准规制,又能平衡数据利用与安全保护,为大数据时代的法治建设提供制度保障。
综上,当前我国《刑法》对网络爬虫行为的规制存在三重困境:在入罪层面,前置法与《刑法》衔接不足、客观不法与主观罪责的认定标准模糊;在定罪层面,立法缺失导致“非法侵入计算机信息系统罪”等兜底罪名滥用;在出罪层面,正当目的与知情同意的认定缺乏明确规则。对此,需以法秩序统一为基础,构建分级规制路径,完善数据规范使用体系以平衡技术价值与风险防控;强化前置法对数据爬取行为的类型化约束,明确《刑法》的谦抑性边界;推动前瞻性立法,区分数据安全与系统安全法益,优化罪名设置与出罪标准。
(作者系北京师范大学法学院硕士研究生朱美霖,本文刊载于《法治时代》杂志2025年第4期)
(责任编辑:王凯伦)