发布时间:2023-7-31 分类: 行业资讯
笔者对资源盗窃进行了一些分析和分析,并分享了一些保护措施,希望对您有所帮助。
在过去的一两年里,越来越多的互联网人士提到“内容为王”,即使是作为大公司的英美烟草公司,也开始在内容领域投入大量的人力和财力资源,各种资源内容。无尽。然而,在此期间,由于缺乏风险控制意识和缺乏版权意识等问题,许多产品被泄露。今天我们将讨论如何防止这些“看不见的小偷”。 (这是一篇非技术文章,技术之神是无情的)
偷盗者常用的盗窃手段
在文章的开头,让我们简单地谈谈我理解的恶意收集。所谓的恶意收集是将其他代购源码网站的图片,文本,视频,音频和其他资源下载到自己的服务器上,经过简单处理后再将它们放入自己的代购源码网站。从这个定义中,我们可以看到恶意收集是一种伤害他人的行为。但类似于百度蜘蛛,谷歌蜘蛛可以带来流量收集,我们不把他算作恶意收集的范围。
接下来,让我们谈谈这一点。让我们来看看收集器通常用来收集资源的东西。
盗取下载链接
这种窃取很好理解。在许多下载站点(如百度图书馆,道克巴巴,21世纪教育网)中,当用户请求下载时,服务器通常会返回下载链接到浏览器进行下载。在此过程中,收集器拦截链接,执行相应的解析,然后通过脚本执行自动下载。已经收集了喝一杯茶的能量。
百度图书馆资源下载页面
盗取页面的内容
对于用户体验,许多代购源码网站通常会在页面上直接加载您要查看的部分数据供用户查看。此时,收集器只需解析页面的html结构,即可收集页面信息。百度抓取工具,快照和页面抓取基本上都使用此原则。
起点中国网络
直接盗取web数据库
这是更高级的,收集器通常会编写一个爬虫,以便爬虫自动发现代购源码网站上的查询界面,并模拟界面的数据标准,将相应的查询指令发送到界面,最后将返回的数据组织到完成。相应的资源集合。
手动采集
从字面上理解手动获取,即通过手动方式收集资源。该方法适用于灵活范围,可以通过资源下载和复制等手动方法收集资源。这样看起来非常低效且效率低下。但往往这种收集方法让人感到头疼。
PS:一位用户在A代购源码网站上下载了单词数据。简单编辑后,将其上传到他的代购源码网站以供使用。这个过程不能通过技术手段跟踪(整个过程就是用户的真实操作)。即使发现这种现象,也无法确定对方是否因为没有实际证据而窃取了自己的资源。在这里,您可以考虑百度库的一部分来自何处。
防采集方法策略
以上简要介绍了一些收藏家的收藏方法,然后我们将讨论如何进行反收集处理。
应对下载链接泄露的策略
上图显示了数据的下载过程。通过这个过程,我们发现如果收集器可以直接获得步骤3的下载链接,则可以直接下载资源而无需验证第2步。因此我们知道为了防止这种收集,我们的重点是不允许用户获取资源的下载链接。然后我们可以按如下方式处理它:
将下载链接进行加密
在开发过程中,程序基本上执行下载链接的加密处理。加密就像一把钥匙。没有钥匙,你无法打开锁。加密是一样的。如果您不知道解密方法,则无法破解下载链接。这将阻止资源的收集。
解密需要了解加密规则,因此在进行加密处理时,最好不要使用第三方加密规则来实现自己的安全性。定期维护加密规则也是必要的。
防止采集者拦截下载链接
一些收集者将拦截步骤3和步骤4之间下载的下载链接。这样,他不需要通过步骤2,并且可以获得我们返回的下载链接。在这种情况下,我们可以考虑将用户身份验证添加到下载URL。当浏览器解析URL时,它会验证当前用户是否是我们的下载用户并实现反收集的目的。除非用户可以获取我们的帐户信息,否则我们无法收集我们的内容。但是,此方法不支持断点下载。
告诉你一个秘密,将代购源码网站升级到https协议,这可以有效地防止数据拦截。
应对页面采集的策略
上图显示了显示页面的过程。在此过程中,我们可以发现收集器必须执行步骤1和3才能获取此页面上的数据。因此,我们需要在这两个步骤中防止收集器,具体方法如下:
限制请求数量
我们可以通过限制关键数据请求的数量来限制收集器的数据收集。这是一个很好的理解,当用户多次请求数据时,再次请求,我们不会向他提供相应的数据。这种方法简单粗鲁,但有效。在对请求数据进行限制时,我们需要注意以下几点:
判断数据请求次数时,必须通过用户名(用户ID)进行判断,不能通过IP地址。 IP地址可以伪造。可以为一个请求更改一个IP。因此,如果通过IP地址判断,则基本上无效。
保证账号的注册难度。许多产品只开放注册他们的手机,即使你使用第三方登录,你需要绑定相应的手机号码。这极大地增加了收集者获取帐户的难度。
评估用户每日浏览这些关键数据的次数。尽量不要影响用户的正常使用。
提供无法直接使用的数据
页面中加载的所有内容都可以直接用于收集。如何提供不能直接使用的数据?这里没有圈子。所谓无法直接使用的数据是因为收集的资源具有部分版权,或者必须转换格式才能使用。这增加了采集的成本并且在一定程度上防止了数据擦除。
上图显示了问题银行产品的测试问题。他用水印图片替换了测试问题(答案分析)的关键部分。当收集器发现要使用数据时,需要记录图像,并且处理困难且成本高。还会继续吗?
加入干扰数据
将错误/混乱数据添加到密钥数据的html代码中,使用爬虫的规则来收集数据,并提供干扰信息(混乱)来收集爬虫以达到反收集的目的。这种方法会影响代购源码网站的搜索引擎优化。
提供错误数据
当用户请求数据的次数超过特定频率时,当再次发出请求时,可以将错误的数据发送到收集器。在收集器包含错误数据之后,他将对整批中收集的数据持怀疑态度,并且不会使用这批资源。这种收集方法会对seo和用户产生一定的影响,并谨慎使用。
通过用户行为分析来防止采集
随着技术的发展,用户行为的分析逐渐成熟。我们可以通过行为分析将此技术应用于我们的反收集领域,以确定用户是机器还是普通用户。如果是机器,我们可以弹出验证码来根据情况进行验证,也可以提供错误的数据。
以上五种方法可以同时使用。例如,组合(1)和(2)以在用户未登录时提供解决方案(2)。当用户登录时,提供更好的体验。 )。更多组合可以单独组合。
在处理页面收集时,您需要考虑seo的问题。切勿向抓取工具(百度,谷歌等)提供错误信息。因此,如果您发现这些是“好蠕虫”,那么在收集数据时,请尝试向他们提供完整且正确的数据。
应对手动采集的策略
如前所述,手动采集是最难以预防的,但它并非没有应对,但完全消除它是非常麻烦的。我们可以通过以下几种方式来描述它:
页面内容是反复制的。通过反复制处理,普通用户可以避免复制页面内容,但对于那些对技术有所了解的人来说,这个功能是无效的。
限制用户的每日下载量。
下载的文件包含产品的版权信息。徽标在视频中;该文件有水印;文件本身添加了一个不影响文件使用的标识符。当我们的内容上传到其他代购源码网站时,我们可以使用这些徽标来保护我们的权利,并要求对方删除相关资源。
手动检测,标题。
应对直接攻击web数据库的策略
该计划知道如何做到这一点,相信你的团队成员,让他解决它!
总结
这篇文章主要是关于扔砖和玉。我希望通过我的分享,我可以让大家初步了解反收集,并将其应用到相应的产品规划中,以增加产品的安全性。
作者:李英杰,教育,高级产品经理,3年互联网产品经验,主要负责考试产品的策划和运营工作。