基于机器学习的web意外检测

  • 电脑网络维修
  • 2024-11-14

Web防火墙是信息安保的第一道防线。随着网络技术的极速降级,新的黑客技术也层出不穷,为传统规定防火墙带来了应战。传统web入侵检测技术经过保养规定集对入侵访问启动阻拦。一方面,硬规定在灵敏的黑客面前,很容易被绕过,且基于以往常识的规定集难以应答0day攻打;另一方面,攻防反抗水涨船高,防卫方规定的结构和保养门槛高、老本大。

基于机器学习技术的新一代web入侵检测技术有望补偿传统规定集方法的无余,为web反抗的防卫端带来新的开展和打破。机器学习方法能够基于少量数据启动智能化学习和训练,曾经在图像、语音、人造言语处置等方面宽泛运行。但是,机器学习运行于web入侵检测也存在应战,其中最大的艰巨就是标签数据的缺乏。虽然有少量的反常访问流量数据,但web入侵样本稀少,且变动多样,对模型的学习和训练形成艰巨。因此,目前大少数web入侵检测都是基于无监视的方法,针对少量反常日志建设模型(Profile),而与反常流量不符的则被辨以为意外。这个思绪与阻拦规定的结构恰好相反。阻拦规定意在识别入侵行为,因此须要在反抗中“随机应变”;而基于profile的方法旨在建模反常流量,在反抗中“以不变应万变”,且更难被绕过。

基于意外检测的web入侵识别,训练阶段通常须要针对每个url,基于少量反常样本,形象出能够形容样本集的统计学或机器学习模型(Profile)。检测阶段,经过判别web访问能否与Profile相符,来识别意外。

一、关于Profile的建设,关键有以下几种思绪:

1. 基于统计学习模型

基于统计学习的web意外检测,通常须要对反常流量启动数值化的特色提取和剖析。特色例如,URL参数个数、参数值长度的均值和方差、参数字符散布、URL的访问频率等等。接着,经过对少量样本启动特色散布统计,建设数学模型,进而经过统计学方法启动意外检测。

2. 基于文本剖析的机器学习模型

Web意外检测归根结底还是基于日志文本的剖析,因此可以自创NLP中的一些方法思绪,启动文本剖析建模。这其中,比拟成功的是基于隐马尔科夫模型(HMM)的参数值意外检测。

3. 基于单分类模型

因为web入侵黑样本稀少,传统监视学习方法难以训练。基于白样本的意外检测,可以经过非监视或单分类模型启动样本学习,结构能够充沛表白白样本的最小模型作为Profile,成功意外检测。

4. 基于聚类模型

通常反常流量是少量重复性存在的,而入侵行为则极为稀少。因此,经过web访问的聚类剖析,可以识别少量反常行为之外,小搓的意外行为,启动入侵发现。

二、基于统计学习模型

基于统计学习模型的方法,首先要对数据建设特色集,而后对每个特色启动统计建模。关于测试样本,首先计算每个特色的意外水平,再经过模型对意外值启动融合打分,作为最终意外检测判别依据。

这里以斯坦福大学CS259D:>

特色2:字符散布

模型:对字符散布建设模型,经过卡方测验计算意外值p

特色3:参数缺失

模型:建设参数表,经过查表检测参数失误或缺失

特色4:参数顺序

模型:参数顺序有向图,判别能否有违规顺序相关

特色5:访问频率(单ip的访问频率,总访问频率)

模型:时段内访问频率散布,均值μ,方差σ2,应用切比雪夫不等式计算意外值p

特色6:访问时时期隔

模型:距离时期散布,经过卡方测验计算意外值p

最终,经过意外打分模型将多个特色意外值融合,获取最终意外打分:

三、基于文本剖析的机器学习模型

URL参数输入的面前,是后盾代码的解析,通常来说,每个参数的取值都有一个范围,其准许的输入也具备必定形式。比如上方这个例子:

例子中,绿色的代表反常流量,白色的代表意外流量。因为意外流量和反常流量在参数、取值长度、字符散布上都很相似,基于上述特色统计的形式难以识别。进一步看,反常流量虽然每个都不相反,但有独特的形式,而意外流量并不合乎。在这个例子中,合乎取值的样本形式为:数字_字母_数字,咱们可以用一个形态机来表白非法的取值范围:

对文本序列形式的建模,相比拟数值特色而言,愈加准确牢靠。其中,比拟成功的运行是基于隐马尔科夫模型(HMM)的序列建模,这里仅做便捷的引见,详细请参考介绍文章[2]。

基于HMM的形态序列建模,首先将原始数据转化为形态示意,比如数字用N示意形态,字母用a示意形态,其余字符坚持不变。这一步也可以看做是原始数据的归一化(Normalization),其结果使得原始数据的形态空间被有效紧缩,反常样本间的差距也进一步减小。

紧接着,关于每个形态,统计之后一个形态的概率散布。例如,下图就是一个或许获取的结果。“^”代表开局符号,因为白样本中都是数字扫尾,起始符号(形态^)转移到数字(形态N)的概率是1;接上去,数字(形态N)的下一个形态,有0.8的概率还是数字(形态N),有0.1的概率转移到下划线,有0.1的概率转移到完结符(形态$),以此类推。

应用这个形态转移模型,咱们就可以判别一个输入序列能否合乎白样本的形式:

反常样本的形态序列出现概率要高于意外样本,经过适合的阈值可以启动意外识别。

四、基于单分类模型

在二分类疑问中,因为咱们只要少量白样本,可以思考经过单分类模型,学习单类样本的最小边界,边界之外的则辨以为意外。

这类方法中,比拟成功的运行是单类支持向量机(one-classSVM)。这里便捷引见该类方法的一个成功案例McPAD的思绪,详细方法关注文章[3]。

McPAD系统首先经过N-Gram将文本数据向量化,关于上方的例子,

首先经过长度为N的滑动窗口将文本宰割为N-Gram序列,例子中,N取2,窗口滑动步长为1,可以获取如下N-Gram序列。

下一步要把N-Gram序列转化成向量。假定共有256种不同的字符,那么会获取256*256种2-GRAM的组合(如aa, ab, ac …)。咱们可以用一个256*256长的向量,每一位one-hot的示意(有则置1,没有则置0)文本中能否出现了该2-GRAM。由此获取一个256*256长的0/1向量。进一步,关于每个出现的2-Gram,咱们用这个2-Gram在文本中出现的频率来代替干燥的“1”,以示意更多的信息:

至此,每个文本都可以经过一个256*256长的向量示意。

如今咱们获取了训练样本的256*256向量集,如今须要经过单分类SVM去找到最小边界。但是疑问在于,样本的维度太高,会对训练形成艰巨。咱们还须要再处置一个疑问:如何缩减特色维度。特色维度约减有很多成熟的方法,McPAD系统中对特色启动了聚类到达降维目标。

上左矩阵中黑色示意0,白色示意非零。矩阵的每一行,代表一个输入文本(sample)中具备哪些2-Gram。假设换一个角度来看这个矩阵,则每一列代表一个2-Gram有哪些sample中存在,由此,每个2-Gram也能经过sample的向量表白。从这个角度咱们可以取得2-Gram的相关性。关于2-Gram的向量启动聚类,指定的类别数K即为约减后的特色维数。约减后的特色向量,再投入单类SVM进后退一步模型训练。

再进一步,McPAD驳回线性特色约减加单分类SVM的方法处置白模型训练的环节,其实也可以被深度学习中的深度自编码模型代替,启动非线性特色约减。同时,自编码模型的训练环节自身就是学习训练样本的紧缩表白,经过给定输入的重建误差,就可以判别输入样天性否与模型相符。

咱们还是沿用McPAD经过2-Gram成功文本向量化的方法,间接将向量输入到深度自编码模型,启动训练。测试阶段,经过计算重建误差作为意外检测的规范。

基于这样的框架,意外检测的基本流程如下,一个愈加完善的框架可以参见文献[4]。

本文管中窥豹式的引见了机器学习用于web意外检测的几个思绪。web流量意外检测只是web入侵检测中的一环,用于从海量日志中捞出大批的“可疑”行为,但是这个“大批”还是存在少量误报,只能用于检测,还远远不能间接用于WAF间接阻拦。一个完备的web入侵检测系统,还须要在此基础上启动入侵行为识别,以及告警降误报等环节。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/4585.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号