一个常规的数据抓取纠纷
先简单说一下微博和脉脉之争的来龙去脉。
2014年8月公开闹掰:微博宣布停止脉脉使用的微博开放平台所有接口,理由是“脉脉通过恶意抓取行为获得并使用了未经微博用户授权的档案数据,违反微博开放平台的开发者协议”。与此同时,脉脉宣布终止支持微博登录,并通过一些邮件截图曝光微博此举,是因其投资脉脉不成,索要脉脉用户关系数据受阻后的报复。就像所有口水战一样,双方各执一词、真相扑朔迷离。
2015年3月对簿公堂:微博主体公司于2015年3月将脉脉主体公司告上法庭,微博脉脉之争升级。
微博起诉理由主要有脉脉非法获取和使用微博信息,商业诋毁等。
在用户微博登录脉脉并上传个人通讯录之后,大量非脉脉用户的微博头条、昵称、职业、教育等信息出现在脉脉上,这些信息并不在微博OPEN API之中,并且在微博停止脉脉所有接口权限之后,脉脉依然进行了相关数据抓取,微博认为脉脉通过非法手段获取信息。除此之外,微博认为在双方“闹掰”之后脉脉发表的公开言论对微博商誉构成了诋毁,脉脉采取了类似于微博加V认证的机制和界面设计,构成不正当竞争。
法院认定,脉脉绕过OPEN API抓取数据的行为,危害到微博用户信息安全,损害了微博合法竞争利益,对其构成不正当竞争,商业诋毁成立,判决脉脉停止不正当竞争行为,并赔偿原告经济损失等220余万元。
类似诉讼在互联网行业屡见不鲜。
2013年,百度因奇虎360违背Robots协议抓取复制百科等内容构成不正当竞争,起诉后者并索赔1亿元。
2016年2月,因认为百度视频通过抓取播放窗口的方式,嵌套乐视网视频资源到百度视频客户端,屏蔽了乐视网网页、网址、广告,造成公众混淆,构成不正当竞争,乐视起诉百度并索赔100万元。
2016年4月,大众点评诉百度旗下的百度地图及百度知道大量复制其用户点评等信息,构成不正当竞争,提出9000万元索赔要求。
这些案例均是某平台因内容被抓取起诉抓取方,在数据为核心资产之一的互联网产业,“数据纠纷”只会越来越多。
平台用户数据受法律保护
从法院一审的判决逻辑来看,是否保护用户信息已成数据纠纷中的法律准绳。
海淀法院在“世界知识产权日”公开宣判这一案件,或许不是巧合。其明确表示,
“大数据时代,保护用户信息是衡量经营者行为正当性的重要依据,也是反不正当竞争法意义上尊重消费者权益的重要内容。”
这表明,用户权益被摆在最优先位置。
在“人肉”这类网络暴力频发、用户资料屡屡泄露的大环境下,这一判决具有示范意义。平台在业务设计上必须充分考虑用户信息保护,确保用户信息不被滥用,隐私数据不遭泄露,同时确保用户对个人信息的使用有知情权。
在保护用户利益之后,才是平台利益。
值得注意的是,用户信息与用户数据并不是一回事,比如你在微信公众账号发的文章,算是用户数据,但你个人微信昵称、头像这些资料,才算是用户信息。但究竟哪些属于用户隐私则很难说,你上传到平台的照片肯定是隐私数据,但你发的公开微博就不一定了。那么,不具备“个人隐私”属性的数据是否受法律保护呢?如果有人绕过接口,抓取用户发的微博而不是个人信息,会有不同的结果吗?
这里有一个案例:百度起诉360违反Robots协议抓取知道、百科等数据的纠纷就是这样的情况,法院尊重Robots协议和平台对UGC数据的权益,360被判赔偿百度70万元。就是说,UGC内容的创建者是谁并不重要,搭建平台网站投入运营、技术和人力成本,拥有对数据的使用权和分发权。如果第三方网站违背意愿进行抓取,就可能被判为不正当竞争。
数据是互联网公司的核心资产,不论是个人信息还是UGC数据(微博、文章、点评等),所有这些平台数据都将受到法律保护,平台对这些数据拥有所有权、使用权和分发权。
互联网公司应提防数据纠纷
互联网公司想要利用别家平台的数据时,必须遵循对方的公共API协议,或Robots爬虫协议,抑或通过正式协议合作。数据受法律保护。互联网公司不能违背某平台意愿抓取其数据——在技术上或许并不难,可通过爬虫等手段绕过限制,实现数据抓取,但这样做很可能会吃官司,并且败诉几率相当高。
因为数据抓取纠纷而对簿公堂的案例还不算多,但数据抓取行为在互联网行业却很常见,比如许多平台都能看到豆瓣电影评分数据,再比如一些导购网站聚合了电商平台的评论,还有平台将微信公众账号所有文章都聚集起来…这些行为理论上来说都有数据纠纷的风险,如果你做得不够大平台一般也没这个精力理你,但万一你某天做到了呢?况且,很多大公司也这样干。
对于数据的获取和使用,不再是一个技术问题、商业问题、道德问题,而是一个法律问题,所以,请看好你家的爬虫。