拥有蝴蝶效应的爬虫如何进行防护

美国气象学家爱德华·罗伦兹(Edward N.Lorenz)1963年在一篇提交纽约科学院的论文中分析了一个叫做蝴蝶效应的理论:“一个气象学家提及,如果这个理论被证明正确,一只海鸥扇动翅膀足以永远改变天气变化。”在以后的演讲和论文中他用了更加有诗意的蝴蝶。对于这个效应最常见的阐述是:

“一只南美洲亚马逊河流域热带雨林中的蝴蝶,偶尔扇动几下翅膀,可以在两周以后引起美国德克萨斯州的一场龙卷风。”

“蝴蝶效应”主要是关于混沌学的一个比喻,也是蝴蝶效应的真实反应。不起眼的一个小动作却能引起一连串的巨大反应——由于误差会以指数形式增长,在这种情况下,一个微小的误差随着不断推移造成了巨大的后果。

在互联网的世界中,蝴蝶效应的呈现则更为明显,身为互联网使用者,你的每一次点击,每一个打开,每一个保存与分享都不仅仅只是点击、打开、保存、分享,它们都将汇集成为数据,成为你互联网畅游的路径。

而对于企业来说,由上述数据推导出你的用户画像(根据你的社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型)早已不是难事。

不过你也无需担忧,对于大多数企业而言,一两个行为标本作用不大,企业所需要的是一个甚至多个受众群体的大数据行为模型。


最初,爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,帮助搜索引擎作为一个辅助人们检索信息的工具。不过,正如同光明与黑暗同时诞生、出生与死亡同存于这个世界,爬虫的出现,也带来恶意爬虫的降生。

以下仅针对互联网业务风控层面阐述。

爬虫是所有攻击链中的重要构成,无论是采集竞争对手网站的数据,尝试破解用户口令还是自动下单,其实都离不开爬虫。

与传统金融类风控不同,会更加关心整个风险事件前端的问题,从最开始用户进入网站的行为进行分析。例如用户在页面的停留时间,是否多次修改输入的内容等,这些行为让风险判断的准确性有了巨大的提升。举个例子:

一、恶意爬取网站→ 注册用户扫描

虽然现在大部分平台的注册页面上会有图片验证码,在一定程度上可以防范爬虫自动化程序遍历手机号查询已注册的用户。

但在不同的终端上,还是可以通过简单的请求判断出用户是否已经注册。

二、爬取注册用户→ 进行业务欺诈

这个数据可以拿来做什么?

一方面,我们已知某个手机号码是某网站的注册用户,这个信息可以用作欺诈,比如模仿官方的服务号向用户发送欺诈短信骗取验证码短信,进行资金盗取。

另外,可以将这些数据向竞争对手出售,协助对方进行精准营销争夺用户。

三、业务欺诈→ 短信轰炸操作

国内每天都在发生大量的业务欺诈等案件,比如模仿官方的服务号向用户发送欺诈短信骗取验证码短信,进行资金盗取。

在欺诈手法中,还经常使用短信轰炸,比如在盗卡盗刷时,为了增加自己的作案时间,用大量的验证短信掩盖掉真正的消费短信,让受害者无法快速的发现并冻结自己的银行卡。

为了达到这种目的,攻击者会使用多家网站的短信接口对受害者发送短信,进而产生短信轰炸问题。

四、短信轰炸→ 账户盗用

个人账户被盗后:垃圾注册→ 产生羊毛党→ 刷单 ……

职业团队产生:爬取评论→ 差评师→ 恶意竞争攻 ……

其它模式→……

我们可以看到,最基础的爬虫所带来的,犹如那只南美洲亚马逊河流域热带雨林中的蝴蝶,拍一拍翅膀,或许只是抖抖阳光雨露,潇洒飞去,或许带来的就是一连串由它而起,又似乎与它无关的后续风暴。

那么要禁用爬虫吗?

显然不可能,如果没有爬虫的存在,你将不再有可能被搜索引擎抓到,在重度依赖搜索引擎的现代用户世界中,你也就成为了‘存在而不可见的’透明人。我相信这是所有企业都不愿意看到的。

所以,互联网世界正如真实世界一样,有好人和坏人,数据和爬虫技术本身没有好坏之分,关键点在于使用它们的那些人。根据网站内容的安全性及敏感性,区别对待爬虫是比较理想的措施。我们所做的事情,就是要把好人和坏人区分开来。

那么问题来了,如何防止恶意爬虫?

反爬机制主要有两大策略:

一、控制IP访问频率
最常见的基本都会使用代理IP来进行访问,但是对于一般人来说,几万ip差不多是极限了,所以一个ip还是可能多次请求。意味着爬虫需要付出更多的成本投入在IP资源上,IP越多,爬取的成本越高,自然容易劝退一部分人。

二、控制爬取策略
如果简单的只对目标数据进行爬取,反爬系统只要对访问情况和用户行为进行相关分析,其实很简单就能判定爬虫的那堆ip,你除了这堆数据什么都没访问,一看就不是正经用户。当然策略这个东西,就需要更多的博弈了。爬虫要增加迷惑度,需要去访问一些无关的东西,最后是研究正常用户的访问流程,然后模拟一遍。再者,控制速度。毕竟反爬系统的统计区间是肯定有限制的,不可能拿一个月的数据都分析一遍找出爬虫。反爬系统的存在,意义就在于增加这个成本。当然也需要衡量自身的成本,毕竟不能本末倒置,反爬成本太高就没价值了。

那网站一般用什么措施防范爬虫呢?主要有以下几种:

1.使用验证码机制
在登录、注册或搜索等重要操作时,引入验证码机制。验证码是一种动态生成的字符,用于验证用户是否为人类。通过在验证码中加入随机性和难以识别的字符,可以有效防止机器自动识别。

2.检测和限制访问频率
通过监控用户的访问频率和访问模式,可以识别出异常行为。一旦检测到异常,可以采取相应的措施,如暂时限制访问或发送警告信息。

3.使用IP黑白名单
对于已知的恶意IP地址,可以将其加入黑名单,禁止其对目标网站的访问。相反,对于可信任的IP地址,可以将其加入白名单,允许其对目标网站的访问。

4.检测和过滤恶意请求
通过分析用户请求的内容和特征,可以识别出恶意请求。例如,可以检测请求中是否包含大量的垃圾数据、是否包含特定的恶意关键词等。一旦检测到恶意请求,可以将其过滤掉或暂时限制其访问。

5.漏洞扫描服务

漏洞扫描服务(Vulnerability Scan Service)集Web漏洞扫描、操作系统漏洞扫描、资产内容合规检测、配置基线扫描、弱密码检测五大核心功能,自动发现网站或服务器在网络中的安全风险,为云上业务提供多维度的安全检测服务,满足合规要求,让安全弱点无所遁形。主要的优势在于:

一、扫描全面

涵盖多种类型资产扫描,支持云内外网站和主机扫描,支持内网扫描、智能关联各资产之间的联系,自动发现资产指纹信息,避免扫描盲区。

二、高效精准

采用web2.0智能爬虫技术,内部验证机制不断自测和优化,提高检测准确率,时刻关注业界紧急CVE爆发漏洞情况,自动扫描,最快速了解资产安全风险。

三、简单易用

配置简单,一键全网扫描。可自定义扫描事件,分类管理资产安全,让运维工作更简单,风险状况更清晰了然。

四、报告全面

清晰简洁的扫描报告,多角度分析资产安全风险,多元化数据呈现,将安全数据智能分析和整合,使安全现状清晰明了。

总之,防御爬虫攻击是一项复杂而重要的任务,需要采取多种技术策略和管理措施,以确保网站的安全性和稳定性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3031915.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

小程序开发平台源码系统 低成本助力中小企业建站 带完整的安装代码包以及搭建教程

在当今数字化时代,拥有一个功能齐全、界面美观的小程序对于中小企业来说至关重要。然而,高昂的开发成本和复杂的搭建流程往往成为制约中小企业建立小程序的瓶颈。小编给大家分享一款低成本、易用性强的小程序开发平台源码系统,旨在助力中小企…

Python-VBA函数之旅-sorted函数

目录 一、sorted函数的常见应用场景 二、sorted函数使用注意事项 三、如何用好sorted函数? 1、sorted函数: 1-1、Python: 1-2、VBA: 2、推荐阅读: 个人主页: https://blog.csdn.net/ygb_1024?spm1…

Python计算器程序代码

from tkinter import * import random class App: def __init__(self, master): self.master master self.initwidgets() #表达式的值 self.expr None def initwidgets(self): #定义一个输入组件 self.show Label(relief SUNKEN, font (Courier New, 24), width 25, bg …

一个“彩光”的自白:入室10万间的变革路

从0到10W 锐捷以太彩光的每一步 2021年 以太全光奠基 锐捷网络创新性提出了以太全光路线的代表性方案——极简以太全光解决方案1.0,在采用光纤作为传播介质的基础上,将交换机直接下沉至房间内。这一举措不仅简化了布线,新增业务只需在房间内灵活扩展,即可完成终端入网,而且通…

Leetcode—946. 验证栈序列【中等】

2024每日刷题&#xff08;133&#xff09; Leetcode—946. 验证栈序列 实现代码 class Solution { public:bool validateStackSequences(vector<int>& pushed, vector<int>& popped) {int left 0;for(int i 0; i < popped.size(); i) {while(left &…

数据结构(十三)----几种特殊的树

目录 一.二叉排序树 1.二叉排序树的查找 2.二叉排序树的插入 3.二叉排序树的构造 4.二叉树的删除 5.二叉排序树的查找效率 二.平衡二叉树 1.平衡二叉树的插入 2.平衡二叉树的查找效率 3.平衡二叉树的删除 三.红黑树 1.红黑树的概念 2.红黑树的查找 3.红黑树的插入…

QT学习(1)——创建第一个QT程序,信号和槽,打开关闭窗口的案例

目录 引出规范和帮助文档创建第一个Qt程序对象树概念信号signal槽slot自定义信号和槽1.自定义信号2.自定义槽3.建立连接4.进行触发 自定义信号重载带参数的按钮触发信号触发信号拓展 lambda表达式返回值mutable修饰案例 打开关闭窗口案例 总结 引出 QT学习&#xff08;1&#…

导出QQ好友列表、群列表、群员列表

MENU 准备工作在浏览器地址栏中输入地址使用F12快捷键打开开发者工具(浏览器控制台)点击头像登入网站(推荐)或手机扫码登录获取群列表获取好友列表获取群员列表 准备工作 一台带有浏览器的电脑 在浏览器地址栏中输入地址 https://qun.qq.com/member.html 使用F12快捷键打开开发…

一文搞懂反射,还有谁不懂,直接甩给他

Hi,大家好&#xff0c;我是抢老婆酸奶的小肥仔。 反射&#xff0c;在我们日常开发中无时无刻&#xff0c;被大量运用在框架代码和工具代码中&#xff0c;反射可以通俗点讲就是一个类的自我剖析&#xff0c;通过反射可以获取到这个类所有信息&#xff0c;包括&#xff1a;属性&…

美国政府发布新的国际网络空间和数字政策战略(上)

文章目录 前言一、战略内容介绍二、数字团结的含义三、如何建立数字团结前言 美国务院5月6日正式发布《美国国际网络空间和数字政策战略:迈向创新、安全和尊重权利的数字未来》,旨在指导国际社会参与技术外交并推动《美国国家安全战略》和《美国国家网络安全战略》。 美国务…

创新指南|将会话式AI聊天机器人纳入PLG增长战略

想象一个繁荣的数字城市广场&#xff0c;志同道合的人们在这里分享他们的激情、经验和知识。想象一个将房东与旅行者、顾客与司机、人们与他们喜爱的品牌无缝连接起来的平台。在这个世界里&#xff0c;用户交流促进增长&#xff0c;社区成为推动力。 如果您的应用程序天生不符…

视频编辑软件pitivi基本功之创建标题片段

视频编辑软件pitivi基本功之创建标题片段 台式机的系统是openSUSE-Leap-15.5-DVD-x86_64 一、素材来源 《视频编辑软件pitivi基本功之使用SSR录制电脑屏幕》 https://blog.csdn.net/weixin_42145772/article/details/138597608?spm1001.2014.3001.5502 根据上面文章的方法得…

考了PMP后,NPDP到底还有没有必要考?NPDP通关宝典来啦!

NPDP和PMP相比&#xff0c;两者的相同点都是由美国发起的&#xff0c;都是管理行业的证书。区别也很大&#xff0c;PMP是项目经理国际认证证书&#xff0c;NPDP是产品经理认证证书&#xff0c;不过PMP已经由外专局引入国内二十多年了&#xff0c;在市面上知名度更高&#xff0c…

【数据结构】第五讲:栈和队列

个人主页&#xff1a;深情秋刀鱼-CSDN博客 数据结构专栏&#xff1a;数据结构与算法 源码获取&#xff1a;数据结构: 上传我写的关于数据结构的代码 (gitee.com) 目录 一、栈 1.栈的定义 2.栈的实现 a.栈结构的定义 b.初始化 c.扩容 d.入栈 e.出栈 f.打印 g.取栈顶元素…

Java医院绩效管理应用系统源码java+ maven+ avue 公立医院绩效考核管理系统源码 支持二开

Java医院绩效管理应用系统源码java maven avue 公立医院绩效考核管理系统源码 支持二开 医院绩效管理系统解决方案紧扣新医改形势下医院绩效管理的要求&#xff0c;以“工作量为基础的考核方案”为核心思想&#xff0c;结合患者满意度、服务质量、技术难度、工作效率、医德医风…

Java入门基础学习笔记16——运算符

package cn.ensource.operator;public class OperatorDemo1 {public static void main(String[] args) {// 目标&#xff1a;掌握基本的算术运算符的使用int a 10;int b 2;System.out.println(a b);System.out.println(a - b);System.out.println(a * b); // 20System.out.…

Pandas DataFrame行迭代:初学者指南

在数据分析中&#xff0c;Pandas是一个强大的Python库&#xff0c;它提供了快速、灵活以及表达力强的数据结构&#xff0c;旨在使“关系”或“标签”数据的操作既简单又直观。对于初学者来说&#xff0c;理解如何迭代DataFrame的行是一项基础但重要的技能。本文将通过通俗易懂的…

一文讲透亚马逊云三层架构

关于三层架构&#xff0c;我们有很多想说的话&#xff1a; &#xff08;以下内容以下都在VPC中&#xff09; cloudfront做CDN加速网关规划S3做静态网站托管APIGateway作为统一网关入口认证/限流Lambda 作为传统后端&#xff0c;并发&#xff0c;底层架构Redis缓存DDB作为持久化…

CH340 RTS DTR引脚编程驱动OLED

运行结果 硬件连接&#xff08;在连接线上串接300R电阻&#xff09; 下面是c#实现代码 using System; using System.Collections.Generic; using System.Linq; using System.Security.Cryptography; using System.Text; using System.Threading.Tasks;using uint8 System.Byt…

5月10日学习记录

[NCTF2019]True XML cookbook(xxe漏洞利用) 这题是关于xxe漏洞的实际应用&#xff0c;利用xxe漏洞的外部实体来进行ssrf探针内网的主机 和[NCTF2019]Fake XML cookbook的区别就在于xxe漏洞的利用方向&#xff0c;一个是命令执行&#xff0c;一个是SSRF 看题&#xff0c;打开…