“大数据”“网络爬虫”“合规与风险”
1、什么是网络爬虫
网络爬虫/爬虫程序(Web Crawler),也称网络机器人(Web robots)、网络游客、蜘蛛爬虫,根据《互联网搜索引擎服务自律公约》,这是一种按照指定规则,可自动、批量从互联网爬行抓取数据信息的程序。网络爬虫技术作为采集大数据的主要方式之一,和重要的大数据信息来源,已经被广泛并成熟地应用于各种互联网商业模式和使用场景,例如:新零售、社交、新闻、地图、互联网金融等。
基于不同的使用场景,网络爬虫可以分为通用爬虫和专用爬虫:
通用爬虫主要应用于搜索引擎服务,其主要工作是无特定目标随机地抓取海量网页内容并下载到本地,储存为镜像快照并识别网页文字关键词;
专用爬虫为爬取特定范围的网页而设计,使用者可以设置一个爬取的主题或范围,通过图像识别、机器学习等技术的帮助,爬取互联网上的特定内容。
2、网络爬虫与大数据的联系
网络爬虫爬取的数据是大数据企业数据分析的重要源头之一,例如:一些大数据分析企业开发的“购物平台大数据分析软件”会借助爬虫技术大量收集购物平台的信息,如买家关键词搜索热度、某关键词引向的成交量、某关键词产品的定价分布等等,当收集到足够多的原始信息样本后,再借助大数据分析技术,向其客户提供商品流行趋势、定价策略的分析;一些信用调查公司也是运用网络爬虫技术,从渺如烟海的互联网信息中识别并抓取特定主体的信用相关信息,进而通过对大数据的分析,相应得出信用结论。
3、爬取数据的行为是否合规
网络爬虫技术采取的是“广撒网”模式,爬虫脚本自动运行后,在确定的爬取网站范围内对各网站上载的信息进行遍历。但基于商业利益等因素的考量,部分网站的部分/全部数据信息是不允许其他主体爬取的,因而会选择通过制定和公布机器人协议(robots协议)或通过设置技术性障碍或通过平台服务协议等方式来限制或禁止外部爬虫访问特定的数据信息。该等措施通常被称为“反爬虫安排”。尽管存在反爬虫安排,但有些企业还是会绕过或无视这些反爬虫的规制,进而给其自身带来合规风险,主要包括被认定为未经授权(包括网站授权和个人授权)收集数据、导致网站无法正常运营,构成犯罪的,还可能需要承担刑事责任(如非法侵入计算机信息系统罪、破坏计算机信息系统罪、非法获取计算机信息系统数据罪等)