爬虫爬来的数据可以用于科研论文吗?个人信息和版权方面要注意什么?
陈晓 · 内容编辑 · 发布 2026-06-25
爬虫数据用于科研并非一律违法,也并非可以随便用。在国内语境下,关键是守住三条红线:个人信息保护法、著作权法、反不正当竞争法。本文给出科研可用与不可用的边界、合规自查清单与替代方案。
爬虫爬来的数据能否用于科研论文,答案是「有条件可以,但不能随便用」。在国内语境下要守住三条红线:身份证号、手机号、人脸、健康等敏感个人信息属禁区,即便公开抓取也不能直接入库;具有独创性表达的内容(文章、图片、代码)受著作权法保护;抓取行为本身还受反不正当竞争法与网站 robots 协议约束。科研、个人学习等非商业用途有一定法定豁免空间,但仍须标注来源、不篡改原意、不超必要范围、不损害权利人合法权益。落地时按合规自查清单逐项核对最稳妥。
为什么「爬来就能用」是误区
很多研究者默认「网上公开 = 可自由使用」,这是国内数据合规中最常见的误区。公开可访问只解决了「能不能拿到」,不等于解决了「能不能用、能怎么用」。个人信息保护法保护的是信息主体的权利,与数据是否公开无关;著作权法保护的是表达的独创性,与是否设置了付费墙无关。社交媒体上用户公开发布的内容,其著作权仍归用户所有,其中夹带的个人信息仍受保护。因此「爬来的数据」要过的是法律与伦理两道关,而不仅是技术上的可达性。
个人信息保护法下的禁区
个人信息保护法把信息分为一般个人信息与敏感个人信息两类,科研用途需重点防范敏感个人信息。敏感个人信息指一旦泄露或非法使用容易导致人格尊严受侵害或人身、财产安全受危害的信息,处理门槛远高于一般信息。研究数据集中若混入这类字段,即便用于学术分析,也可能构成违法处理。
- 敏感个人信息(科研禁区,须脱敏或剔除):身份证号、护照号、手机号、银行卡号、人脸/指纹等生物识别、宗教信仰、医疗健康、行踪轨迹,以及不满十四周岁未成年人的信息。
- 一般个人信息(可用但需谨慎):昵称、公开发表的观点文本、城市级地理位置等,使用时仍应遵循最小必要、目的限定原则。
- 去标识化处理:对无法剔除的字段做哈希、泛化、加噪或聚合,使数据无法再关联到特定自然人。
- 存储与共享边界:脱敏后再入库,论文附录与公开数据集中绝不放出可重新识别个人的原始字段。
著作权法下哪些内容受保护
著作权法保护的是具有独创性的表达,而非事实或思想本身。这条界线决定了爬虫数据里哪些能用、哪些不能整段复制。新闻里的客观事实、统计数字、公式、单纯的数据点通常不受著作权保护,可用于科研分析;但一篇评论文章的文字、一张摄影作品、一段原创代码属于独创性表达,整段抄录进论文或公开数据集会侵犯复制权与信息网络传播权。科研中常见的合规做法是:提取事实与特征用于分析,而非把受保护的表达原样再发布。
科研非商业用途的「合理使用」边界
著作权法为科学研究、个人学习与适当引用预留了合理使用空间,但这不是万能挡箭牌,而是有严格条件的豁免。它通常要求用途确为非商业的研究或学习、引用比例适当、不影响原作品正常使用、不损害权利人合法权益。一旦数据被用于商业产品、对外销售,或大规模复制构成对原数据库的市场替代,合理使用就不再成立。判断时建议把握「四看」:看用途是否商业、看用量是否必要、看是否标注来源、看是否损害权益。
科研可用 vs 需谨慎 vs 禁止:一张对照表
| 数据类型 | 科研使用建议 | 主要法律依据 |
|---|
| 公开统计数字、客观事实 | 可直接用于分析 | 不构成著作权客体 |
| 公开文本的事实/特征提取 | 可用,引用须标注来源 | 著作权合理使用 |
| 原创文章、图片、代码全文 | 不可整段复制再发布 | 著作权法(复制权/传播权) |
| 昵称、公开观点等一般个人信息 | 脱敏后谨慎使用 | 个人信息保护法(最小必要) |
| 身份证、手机号、人脸、健康信息 | 禁止,须剔除或彻底脱敏 | 个人信息保护法(敏感信息) |
| robots 禁止抓取/需登录绕过的数据 | 不抓取 | 反不正当竞争法、网站协议 |
合规自查清单(投稿前逐项核对)
- 是否含个人信息?逐字段排查,标出所有可识别到自然人的列。
- 是否需脱敏?对敏感字段做剔除或去标识化,确认无法反向还原。
- 是否商业用途?明确研究为非商业目的,商业化需另行取得授权。
- 是否遵守 robots 与访问限制?不绕过登录、验证码、付费墙,不破坏网站正常运行。
- 来源是否标注?记录抓取站点、时间、数据范围,论文与数据集中规范注明出处与版本。
- 是否不篡改、不超范围?保持数据原意,使用范围不超出研究目的。
- 存储与共享是否设界?原始敏感数据本地受控保存,对外只发布脱敏聚合结果。
- 是否需要伦理审查?涉及人的数据,确认是否需提交本单位伦理委员会(IRB)审查。
社交媒体公开数据 ≠ 可随意使用
微博、知乎、Reddit 等平台上用户公开发布的内容,常被误认为「公开即免费」,实则涉及隐私伦理与平台协议双重约束。用户公开发帖并不代表同意被纳入研究数据集,其内容著作权仍归用户,夹带的个人信息仍受保护;多数平台的用户协议与 robots 协议也对批量抓取作了限制。国际学术界对此趋于谨慎:涉及人的社交媒体数据研究往往需经伦理审查,并要求去标识化、避免引用可定位到个人的原文。国内投稿同样建议主动评估隐私与伦理风险,在方法部分如实说明数据来源与脱敏处理。
已经匿名化的爬虫数据就一定安全了吗?
不一定。若匿名化不彻底,多个字段交叉仍可能重新识别到个人。应做去标识化并评估重识别风险,确保单独或结合其他数据都无法关联到特定自然人,再用于公开数据集。
用爬虫数据发了论文,期刊要求公开数据怎么办?
公开前必须二次脱敏:剔除全部敏感个人信息,对受著作权保护的原文只发布事实与特征而非全文。无法合规公开的部分,可在数据可用性声明中说明限制与申请方式。
robots 协议没有法律效力,是不是可以忽略?
不建议忽略。robots 体现网站对抓取的意愿,无视它批量抓取并影响网站运行,可能触及反不正当竞争法或破坏计算机系统的相关责任,也会影响论文的伦理评价。
如果不敢用爬虫数据,有哪些合规替代来源?
可优先选用带明确授权许可的公开数据集(如 Zenodo、OpenDataLab、UCI 等)、政府与行业统计数据,或向数据作者正式申请。这些来源授权清晰,引用与复现也更规范。
国外社交媒体数据研究的去标识化要求,国内适用吗?
原则相通。国内个人信息保护法同样要求最小必要与去标识化,涉及人的研究也应评估伦理风险。投稿国际期刊时,审稿人通常会额外关注伦理审查与去标识化说明。
作者:陈晓 —— 学术出版行业从业 10 年,熟悉同行评审、期刊投稿和开放获取出版流程。