爬虫政府网站的公开数据违法吗?-科压科技

一、爬虫政府网站的公开数据违法吗?

爬虫作为一种计算机技术，具有技术中立性，爬虫技术在法律上从来没有被禁止。爬虫的发展历史可以追溯到 20 年前，搜索引擎、聚合导航、数据分析、人工智能等业务，都需要基于爬虫技术。

但是爬虫作为获取数据的技术手段之一，由于部分数据存在敏感性，如果不能甄别哪些数据是可以爬取，哪些会触及红线，可能下一位上新闻的主角就是你。

如何界定爬虫的合法性，目前没有明文规定，但我通过翻阅大量文章、事件、分享、司法案例，我总结出界定的三个关键点：采集途径、采集行为、使用目的。

数据的采集途径

通过什么途径爬取数据，这个是最需要重视的一点。总体来说，未公开、未经许可、且带有敏感信息的数据，不管是通过什么渠道获得，都是一种不合法的行为。

所以在采集这类比较敏感的数据时，最好先查询下相关法律法规，特别是用户个人信息、其他商业平台的信息等这类信息，寻找一条合适的途径。

个人数据

采集和分析个人信息数据，应该是当下所有互联网都会做的一件事，但是大部分个人数据都是非公开的，想获得必须通过合法途径，可参见『网络安全法』第四十一条：

网络运营者收集、使用个人信息，应当遵循合法、正当、必要的原则，公开收集、使用规则，明示收集、使用信息的目的、方式和范围，并经被收集者同意...

也就是必须在提前告知收集的方式、范围、目的，并经过用户授权或同意后，才能采集使用，也就是我们常见的各种网站与 App 的用户协议中关于信息收集的部分。

公开数据

从合法公开渠道，并且不明显违背个人信息主体意愿，都没有什么问题。但如果通过破解、侵入等“黑客”手段来获取数据，那也有相关法律等着你：

刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”：（一）具有避开或者突破计算机信息系统安全保护措施，未经授权或者超越授权获取计算机信息系统数据的功能的；......

违反 Robots 协议

虽然 Robots 协议没有法规强制遵守，但 Robots 协议作为行业约定，在遵循之下会给你带来合法支持。

因为 Robots 协议具有指导意义，如果注明 Disallow 就说明是平台明显要保护的页面数据，想爬取之前应该仔细考虑一下。

数据的采集行为

使用技术手段应该懂得克制，一些容易对服务器和业务造成干扰甚至破坏的行为，应当充分衡量其承受能力，毕竟不是每家都是 BAT 级。

高并发压力

做技术经常专注于优化，爬虫开发也是如此，想尽各种办法增加并发数、请求效率，但高并发带来的近乎 DDOS 的请求，如果对对方服务器造成压力，影响了对方正常业务，那就应该警惕了。

如果一旦导致严重后果，后果参见：

《刑法》第二百八十六条还规定，违反国家规定，对计算机信息系统功能进行删除、修改、增加、干扰，造成计算机信息系统不能正常运行，后果严重的，构成犯罪

所以请爬取的时候，即使没有反爬限制，也不要肆无忌惮地开启高并发，掂量一下对方服务器的实力。

影响正常业务

除了高并发请求，还有一些影响业务的情况，常见的比如抢单，会影响正常用户的体验。

数据的使用目的

数据使用目的同样是一大关键，就算你通过合法途径采集的数据，如果对数据没有正确的使用，同样会存在不合法的行为。

超出约定的使用

一种情况是公开收集的数据，但没有遵循之前告知的使用目的，比如用户协议上说只是分析用户行为，帮助提高产品体验，结果变成了出售用户画像数据。

还有一种情况，是有知识产权、著作权的作品，可能会允许你下载或引用，但明显标注了使用范围，比如不能转载、不能用于商业行为等，更不能去盗用，这些都是有法律明文保护，所以要注意使用。

其他情况就不列举了。

出售个人信息

关于出售个人信息，千万不要做，是法律特别指出禁止的，参见：

根据《最高人民法院最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定，对“情节严重”的解释：（1）非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的；（2）非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的；（3）非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。此外，未经被收集者同意，即使是将合法收集的公民个人信息向他人提供的，也属于刑法第二百五十三条之一规定的“提供公民个人信息”，可能构成犯罪。

不正当商业行为

如果将竞品公司的数据，作为自己公司的商业目的，这就可能存在构成不正当商业竞争，或者是违反知识产权保护。

这种情况在目前涉及爬虫的商业诉讼案中比较常见，两年前比较知名的案件，“车来了” App 抓取其竞品 “酷米客” 的公交车数据，并展示在自己的产品上：

虽然公交车作为公共交通工具，其实时运行路线、运行时间等信息仅系客观事实，但当此类信息经过人工收集、分析、编辑、整合并配合GPS精确定位，作为公交信息查询软件的后台数据后，此类信息便具有了实用性并能够为权利人带来现实或潜在、当下或将来的经济利益，已经具备无形财产的属性。元光公司利用网络爬虫技术大量获取并且无偿使用谷米公司“酷米客”软件的实时公交信息数据的行为，实为一种“不劳而获”、“食人而肥”的行为，构成不正当竞争。

节选自『深圳市中级人民法院（2017）粤03民初822号民事判决书』

「爬虫法」即将出台

好消息是，相关办法已经在路上了。

5 月 28 日零点，国家互联网信息办公室发布了《数据安全管理办法》征求意见稿。

我也查阅了这份意见稿，里面对数据的获取、存储、传输、使用等都做了一些规定，包括关于爬虫行为的若干规定（还在征求阶段，因此后续可能会有变化）。

比如，第二章第十六条：

网络运营者采取自动化手段访问收集网站数据，不得妨碍网站正常运行；此类行为严重影响网站运行，如自动化访问收集流量超过网站日均流量三分之一，网站要求停止自动化访问收集时，应当停止。

第三章第二十七条：

网络运营者向他人提供个人信息前，应当评估可能带来的安全风险，并征得个人信息主体同意。下列情况除外：（一）从合法公开渠道收集且不明显违背个人信息主体意愿；（二）个人信息主体主动公开；（三）经过匿名化处理；（四）执法机关依法履行职责所必需；（五）维护国家安全、社会公共利益、个人信息主体生命安全所必需。

节选自『数据安全管理办法（征求意见稿）』[2]

结语

在此声明：以上所有内容仅是个人分析，可能存在错误之处，不能作为任何依据，具体以相关法律法规为准。

希望能给各位爬虫开发者，也包括其他开发者一些启示：技术虽中立，使用有善恶，一定要合理合规、严格谨慎地使用技术。

二、做国外的大数据收集违法吗？

做国外的大数据收集，没有经过该国认可，会被收集国家以间谍罪逮捕

三、国外爬虫技术违法吗？

根据法律是否予以特别保护，可以将数据划分为普通数据与特殊数据。爬虫技术本身并不违法，关键在于使用的方式和目的。如果爬虫的目的是实质性替代被爬虫经营者提供的部分产品内容或服务，则会被认为目的不合法；

三是使用目的是否合法；

四是是否造成损害。

四、写爬虫框架违法吗？

不违法，爬虫框架之前程序框架，不涉及到具体的应用和采集。

五、如何用爬虫去收集高德地图数据呢？

要用爬虫收集高德地图数据，首先需要编写一个爬虫程序，利用Python或其他编程语言的爬虫库，模拟用户在高德地图上的操作，比如搜索、浏览地图等，然后提取页面中的数据并保存下来。需要注意的是，要尊重高德地图的使用规定，不进行恶意爬取和滥用数据，遵守相关法律法规和隐私政策，确保数据的合法获取和使用。

六、数据获取是爬虫吗？

爬虫是数据获取的一种技能。

因为，数据获取有很多途径，爬虫算是其中最自力更生的技能了，而实现爬虫又和图论的知识有很深的联系。

爬虫是获取数据灵活度极高的一种方式，基本上可以爬取网上所有我们能看到的网页（当然，很多网页难度很大），按照想要的格式爬取我们需要的数据。

最重要的一点，自己爬的数据，自己最了解！也容易有成就感。

七、收集市场信息违法吗

收集市场信息违法吗

市场信息收集的法律规定

在当今竞争激烈的商业环境中，了解市场信息对企业的发展至关重要。然而，收集市场信息需要遵守特定的法律规定，以确保合法合规的行为。那么，我们来探讨一下收集市场信息的法律问题。

侵犯用户隐私的责任

在收集市场信息时，我们必须牢记保护用户隐私的重要性。根据相关法律法规，我们不能非法获取个人隐私信息，包括但不限于手机号码、地址、电子邮件等私人资料。违反用户隐私权是一种侵权行为，可能会导致法律纠纷和商誉损失。

在进行市场调研或用户调查时，我们应当明确告知被调查人有关信息的目的、使用范围和保护措施，并获得其明确的同意。此外，我们还应当确保收集到的个人信息仅用于合理合法的用途，并采取必要的安全措施防止数据泄露。

合法竞争和不正当竞争

收集市场信息涉及到竞争环境的认知，但我们必须遵守合法竞争的原则。不正当竞争行为包括通过非法手段获取竞争对手的商业秘密、操纵市场价格、虚假宣传等。这些行为不仅违反商业道德，还可能构成违法行为。

为了确保市场信息的收集不违法，我们在调查竞争对手的时候，应该使用合法手段，例如公开信息、公开途径。这样可以避免侵犯竞争对手的权益，同时确保我们自身不涉及违法行为。

法律风险评估和合规措施

为了规避法律风险，我们需要进行全面的法律风险评估，并制定相应的合规措施。

首先，我们应当明确收集市场信息的目的和合法性，并详细了解相关法律法规，包括但不限于《中华人民共和国民法典》、《中华人民共和国电子商务法》等。了解适用的法律框架可以帮助我们遵守规定，确保合法操作。

其次，我们应当制定内部合规制度和操作流程，确保员工在市场信息收集过程中遵守法律规定。通过内部培训和指导，提高员工的法律意识和合规意识，降低企业的法律风险。

最后，我们应当建立健全的数据保护措施。对于收集到的市场信息，我们需要采取必要的技术手段和管理措施，确保数据的安全性和保密性。同时，合法合规地处理和存储数据，避免泄露和不当使用。

市场信息收集的法律责任

如果我们在收集市场信息的过程中违反法律规定，可能会面临一定的法律责任。根据《中华人民共和国民法典》的规定，对于违反法律法规侵害他人合法权益的行为，可能需要承担侵权责任，包括但不限于赔偿损失、停止侵害、消除影响、道歉等。

此外，相关法律法规还可能对违法行为给予行政处罚，包括但不限于罚款、吊销许可证等。在严重情况下，涉及刑事犯罪的，还可能面临刑事责任的追究。

结论

在市场信息收集过程中，我们必须遵守相关法律法规，保护用户隐私，维护合法竞争的原则。合法合规的市场信息收集可以为企业发展提供有力支持，而违法行为则会给企业带来法律风险和商誉损失。

因此，我们应该加强对法律法规的学习和理解，建立健全的合规制度和操作流程，并采取必要的安全措施保护市场信息的安全性和保密性。只有在遵守法律的前提下，我们才能够在市场竞争中取得优势，实现长期的可持续发展。

八、帮助科技公司收集数据单是否违法？

可能违法因为收集数据涉及到隐私保护和个人信息安全等法规问题，如果科技公司在收集数据过程中没有严格遵守相关法规，就有可能违法。此外，还要具体考虑数据收集的方式、目的和范围等因素，以评估其合法性，所以需要在具体情况下进行判断和规范操作。

九、爬虫自学难度大吗？

爬虫自学难度大，相对于人工智能、数据分析、深度学习来讲，Python爬虫还是比较简单的。想要从事爬虫工作，需要掌握以下知识：

一般获取数据的过程都是按照发送请求-获得页面反馈-解析并且存储数据这三个流程来实现的。这个过程其实就是模拟了一个人工浏览网页的过程。

Python中爬虫相关的包很多：urllib、requests、bs4、scrapy、pyspider 等，我们可以按照requests负责连接网站，返回网页，Xpath 用于解析网页，便于抽取数据。

十、腾讯收集个人信息违法吗？

不算违法，因为你在安装腾讯软件时都会有同意不同意的一页那页如果仔细看你会发现有允许收集信息，允许使用IP凡此种种的条款