搜索 分析 新世界 法规 图书 网址导航 更多
高级用户登录 | 登录 | |

一种针对特定网站类别的网页指纹识别方法
无权-撤回

申请号:201510481183.8 申请日:2015-08-07
摘要:本发明公开了一种针对特定网站类别的网页指纹识别方法,该方法为基于分类效果的特征选择方法以及基于训练集划分和结果集成相结合的分类方法,解决了特定网站类别网页指纹识别时出现的不平衡分类问题,并且改进了网页指纹收集方法,使其能够应对缓存机制下的网页指纹识别,该方法简单易行,在数据收集时充分考虑了不同的浏览器操作所生成的不同指纹数据,大大增强了指纹识别系统应对实际应用环境的能力,对网络行为监控有着很重要作用。
申请人: 南京邮电大学
地址: 210023 江苏省南京市栖霞区文苑路9号
发明(设计)人: 陈伟 李晨阳 沈婧 张伟 杨庚
主分类号: H04L12/26(2006.01)I
分类号: H04L12/26(2006.01)I H04L12/24(2006.01)I
  • 法律状态
2016-06-08  发明专利申请公布后的撤回IPC(主分类):H04L 12/26申请公布日:20160127
2016-02-24  实质审查的生效IPC(主分类):H04L 12/26申请日:20150807
2016-01-27  公开
注:本法律状态信息仅供参考,即时准确的法律状态信息须到国家知识产权局办理专利登记簿副本。
  • 其他信息
主权项  一种针对特定网站的网页指纹识别方法,其特征在于,所述方法包括如下步骤:步骤1:训练数据收集;在通信链路上对目标可能访问的所有网站的不同浏览器操作方式下的网页指纹数据进行采集;步骤2:数据预处理;消除噪音数据与冗余数据,包括:重传数据包、坏数据包,冗余数据包括协议控制数据;步骤3:构造训练集;首先进行特征提取操作,根据指纹特征从预处理后的网页加载数据流中提取出相应的特征值,然后将各特征或特征值组合成特征值向量,并将该网页加载实例所属的网站类别作为该特征值向量的分类类别添加在特征向量末尾构成训练实例,最终所有的训练实例构成了指纹原始训练集;步骤4:特征选择;将指纹数据集分为正类和负类,其中需要识别的网站类别为正类,其它网站类别为负类;步骤5:训练集划分;首先将整个训练集按正类和负类划分为正类训练集和负类训练集,用C和分别表示正类训练集和负类训练集:<mrow><mi>C</mi><mo>=</mo><msubsup><mrow><mo>{</mo><mrow><mo>(</mo><msub><mi>c</mi><mi>i</mi></msub><mo>,</mo><mo>+</mo><mo>)</mo></mrow><mo>}</mo></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></msubsup><mo>,</mo><mover><mi>C</mi><mo>&OverBar;</mo></mover><mo>=</mo><msubsup><mrow><mo>{</mo><mrow><mo>(</mo><msub><mover><mi>c</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>,</mo><mo>-</mo><mo>)</mo></mrow><mo>}</mo></mrow><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup></mrow>其中,ci表示第i个正类样本,n表示正类样本数;表示第i个负类样本,m表示负类样本数;之后,对负类训练集使用随机划分法进行划分:<mrow><mover><mi>C</mi><mo>&OverBar;</mo></mover><mi>i</mi><mo>=</mo><msubsup><mrow><mo>{</mo><mrow><mo>(</mo><msubsup><mover><mi>c</mi><mo>&OverBar;</mo></mover><mi>k</mi><mi>i</mi></msubsup><mo>,</mo><mo>-</mo><mo>)</mo></mrow><mo>}</mo></mrow><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>l</mi><mi>i</mi></msub></msubsup><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>N</mi></mrow>其中,代表划分后的第i块负类子训练集,li表示第i块负类子训练集的样本数目,其中划分的块数N由以下公式决定:m是负类训练集样本数,n是正类训练集样本数,最后,将正类训练集和各个负类子训练集合并,得到N个子训练集:<mrow><msup><mi>T</mi><mi>i</mi></msup><mo>=</mo><mi>C</mi><mo>&cup;</mo><msub><mover><mi>C</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>N</mi></mrow>其中,Ti是最终划分完成后的子训练集,在子训练集中,正类样本数目等于负类样本数目,在这些训练集上使用传统分类器进行分类;步骤6:分类;训练集划分完毕后,使用传统分类器在各个训练子集上对目标产生的待分类指纹数据进行分类;步骤7:结果集成;经过训练集划分并用分类器对每个子训练集进行分类后,产生N个分类结果,该分类结果数与训练集划分块数相同,最后基于最大化的思想对这些分类结果进行整合,得到最终的分类结果,该步骤如下:Wi=F(Ti),i=1,2,...,NW=MAX(W1,W2,...,WN)经过对各个划分后的训练子集进行分类得到各子集分类结果为Wi,该结果由两部分组成:待分类指纹所属网站类别c和待分类指纹属于该类别的类别权值p,选取所有分类结果中p值最大的Wk作为最终分类结果。
公开号  105281973A
公开日  2016-01-27
专利代理机构  南京知识律师事务所 32207
代理人  汪旭东
颁证日  
优先权  
国际申请  
国际公布  
进入国家日期