撸撸看
互联网最先的设想功能仍是远跟不上现实的需求, 阴事保护和安全驻守是互联网应用必须辩论的问题.附近TLS(transport layer security)左券已矣数据的端到端加密传输, 是最通用的加密传输方法.由于数据紧要程度不一样, 有些应用只对用户登录数据加密传输, 有些是对所稀有据都加密传输.跟着硬件老本的下落和东说念主们安全刚烈的提高, 大趋势是所稀有据加密女同 偷拍, 这些措施为互联网应用提供了很好的安全驻守.关联词另一方面, 加密流量比重的增多, 给网络安全和网络不断带来了极大的挑战.
若何从加密的数据中抽取出网络安全驻守和网络不断需要的信息, 已成为国度安一都门网络不断中亟待处理的问题.既要保护普通网民的阴事, 也要实时发现Internet中传递的危害国度和社会安全的信息, 这需要大要在不明密信息的前提下精确识别特定的被加密信息.
现时, 对加密流量的分析主要分为两大类: 应用类型识别和内容识别.对加密流量的应用类型识别开展的比拟早, 包括的范围也比拟广, 包括对加密流量的识别[1]、对网络流量应用类型的识别[2-4]、对坏心软件流量的识别[5-7]、对加密视频播放模式的识别[8]、对加密视频就业平台的识别[9, 10]、对加密视频就业质料的识别[10-14].这类连络都不波及到用户信息的具体内容识别.
在网络安全和网络不断领域有较大需求且最具挑战性的是对加密应用内容的识别, 包括对视频的识别和网站考核活动的识别.字据2018年念念科公司的巨匠互联网流量连络答复[15], 互联网巨匠流量中向上70%为视频流量, 量度到2022年, 视频流量的比例将增长到80%, 何况宇宙上TOP视频就业商都仍是选择了加密视频传输时刻.在这个配景下, 由于视频传播容易, 影响力广, 对加密视频的识别已成为亟待处理的问题.与加密视频内容识别具有同等艰巨需求的还包括加密网站考核的识别[16-18].这两类应用的流量占据了互联网流量的绝大部分, 跟着加密传输的普及, 对这两类应用内容的识别逐步成为网络安全不断所靠近的挑战.
本文的连络围绕加密视频内容识别张开.对加密视频内容的识别标的是: 通过数据传输特征获知被传输视频的内容标签, 而不是对视频的画面内容进行分析, 以下简称为加密视频识别.由于应用层信息被加密无法告成分析, 侧信说念是对加密数据分析的一种常见阶梯.现存加密视频识别连络的基本念念路是, 从网络层和传输层左券头部信息中索求出应用数据单位(application data unit, 简称ADU)的特征.ADU是应用层信息被传输的数据单位[19], 在HTTP传输左券中, 每个HTTP央求的资源即是一个ADU.这些ADU的数据量长度和传输规章组成了应用层信息的指纹, 不雅测者有可能从这些ADU的特征识别出应用层信息.
已有的加密视频识别连络[20-26]存在3个主要问题.
● 第1个问题是现存连络的关心点都在识别算法的连络上, 即若何将网络到的加密传输数据与视频指纹库进行匹配以识别热门视频.关联词识别算法的输入信息——待匹配的加密传输数据与指纹库中的指纹, 这两者若何构建, 以及由于不同的构建方法带来的数据原始偏差都莫得进行深远连络.当指纹库领域变大后, 这些不确信性会极地面影响着这些识别算法的落幕;
● 第2个问题是现存连络对算法落幕的评价规画不全面, 频频只消查全率, 少有假阳率的测试规画, 格外是莫得大型指纹库场景下查准率和假阳率的评估;
● 第3个问题是现存连络都是基于微型以致是微型视频指纹库进行的实验考据, 实验落幕不成反应这些算法应用于大型视频指纹库的可行性, 也莫得文献对方法应用于大型指纹库的可行性进行表面探讨.因此, 即使仍是有了一些初步的探索效能, 在大型指纹库场景中的加密视频识别仍然是空缺, 这亦然国度网络安全竖立中亟待处理的问题.
针对上述问题, 本文对加密视频识别的要道问题进行连络, 主要效能包括:
(1) 针对加密视频识别中的待匹配数据源进行连络, 深远连络TLS数据加密传输中数据偏移的基应承趣, 初次将HTTP头部特征和TLS片断特征作为ADU长度修起的拟合特征, 建议了一个将ADU加密传输长度精确还原出明文长度的方法HHTF(http head & TLS fragmentation), 该方法适用于多个视频就业平台的ADU长度精确还原;
(2) 给出了使用HHTF方法修起ADU长度后, 在大型视频指纹库中识别加密传输视频的方法, 从表面上规画了加密视频识别方法的准确率、查准率、查全率和假阳率, 并通过在大型测试数据库的实验, 考据了将HHTF方法应用于20万级Facebook指纹库的加密视频识别效果, 只需要3个一语气的ADU, 就不错达到准确率、查准率、查全率都为100%, 假阳率为0的规画要求.
本文第1节先容加密视频识别的基本方法和国表里关系使命.第2节给出ADU长度精确修起方法HHTF偏执适用范围.第3节给出使用HHTF方法后在大型视频指纹库中进行加密视频识别的方法, 从表面和实验两个方面给出方法的准确率、查准率、查全率和假阳率评估落幕, 字据评估落幕推断出: 使用HHTF方法, 只需要3个一语气ADU就不错在20万级Facebook视频指纹库中识别出视频.临了, 给出本文的论断并瞻望将来的使命.
1 关系使命与本文的连络内容 2.1 加密视频识别基应承趣现时, 海外主要的视频共享就业商, 如YouTube、Netflix, 主要酬酢网站如Facebook, 都对其提供的视频就业选择了加密传输.国内的视频就业商固然在用户认证步调仍是使用了加密传输, 关联词视频数据传输如故明文传输.因此, 对加密视频的识别连络都是围绕海外视频就业平台进行的.
因为无法附近加密视频应用层的内容特征, 对加密视频的识别主要的可附近特征是ADU的长度特征和传输规章.现存的加密视频分发平台都使用了HTTP自顺应流媒体时刻(HTTP adaptive streaming, 简称HAS), 如MPEG与3GPP建议的基于HTTP的动态自顺应流媒体时刻DASH(dynamic adaptive streaming over HTTP)[27]以及苹果公司的HLS(HTTP live streaming)[28]决议.为了使得视频大要在播放过程中进行自顺应切换, 这些时刻都是将视频文献按照视频的等长播放时候切成一系列的视频ADU, 以便客户端字据传输环境遴荐下载不同分辨率的视频.这些被切片的视频ADU播放时长是固定的, 由于视频内容的不同, 按序切分的ADU数据长度不一样, 这么的规章和长度就组成了一个视频的明文指纹.在现实传输时, 由于应用数据被HTTP左券和TLS (transport layer security)左券封装, 传输数据量要比明文数据量略大, 组成了传输指纹.图 1即为Facebook视频“Avenger4:Endgame”分辨率为360P的明文指纹和传输指纹.
Fig. 1 Video plaintext fingerprint and transmission fingerprint 图 1 视频明文指纹和传输指纹这些视频片断在用户不雅看视频时是按序传输的.图 2所示为使用DASH传输机制的表示图, 客户端最先获取视频刻画文献(media presentation description, 简称MPD), 融会后发起HTTP央求, 每次央求的内容为1个视频ADU, 通过按序央求视频ADU不错在视频播放器完成播放.这些视频ADU在播放过程传输的ADU长度和传输规章不错组成一个视频的传输指纹.
Fig. 2 DASH video transmission 图 2 DASH视频传输加密视频的识别过程即是将已知的视频明文指纹与视频播放过程中的加密传输指纹ADU进行匹配, 由于加密左券封装会导致ADU长度变化, 不同内容的ADU加密后也可能具有沟通的长度, 这导致匹配落幕是有纰谬的.因此需要给出匹配算法的评估规画, 若匹配算法的评估规画在允许范围内, 则可觉得加密传输的视频即是已知的视频.
关联词, 不雅看过程可能会发目生辨率自顺应切换事件和用户手动改换播放进程事件, 因为吞并个视频不同分辨率的指纹是不一样的, 切换分辨率就改换了明文指纹, 不异, 改换播放进程也会导致视频的ADU不按规章传输, 对应的明文指纹发生了变化.这些情况导致在现实中明文指纹和传输指纹很难全程匹配, 这些情况下只消局部匹配是可能的.因此, 在现实进行匹配时, 并不是将视频播放过程中的悉数ADU进行匹配, 而仅仅使用部分ADU与指纹库匹配, 而且需要匹配的ADU数量越少越好.
在数据被加密传输的配景下, 已有连络中取得ADU的长度特征都是附近了HTTP1.1活水线模式传输特质(如图 3所示)[19].在使用HTTP1.1活水线模式的TCP结合中, 就业器响应给客户端的ADU是按照客户端的央求规章发送的, 对吞并个央求的响应数据包序列, 其TCP头部的响应序列号是一样的.通过分析TCP报头信息, 将属于吞并个ADU的响应数据包负载长度进行加总, 就不错得到1个ADU的1次加密传输的数据长度.自顺应流媒体传输过程中一个视频ADU即是视频的一个片断.统计视频播放过程中的悉数ADU加密传输的长度讲理序, 就不错得到此次播放的视频传输指纹.
Fig. 3 ADU request and response in HTTP1.1 图 3 HTTP1.1左券中ADU的央求与响应有了视频的明文指纹和传输指纹以后, 将视频传输指纹与视频指纹库中明文指纹进行匹配, 若是两者匹配见效, 就不错识别出用户播放的视频内容.因此, 咱们需要明确指纹库的构建样式.
在加密视频识别领域中, 已有文献对指纹库和指纹并莫得协调的界说.为了明确本文述说的内容, 咱们给出如下界说.
界说1(明文指纹库). 用视频明文信息构建的指纹库.
界说2(明文指纹). 明文指纹库中的视频指纹.
界说3(密文指纹库). 用视频密文传输实例构建的指纹库.
界说4(密文指纹). 密文指纹库中的视频指纹.
界说5(传输指纹). 视频ADU被加密传输时, 从传输密文的侧信说念索求的长度指纹.
界说6(修正指纹). 使用视频明文信息构建的指纹库进行识别时, 为了使得传输指纹更接近明文指纹, 对传输指纹进行修正后的指纹.
现存的识别方法在构建视频指纹库时使用了两类方法分别构建明文指纹库和密文指纹库: 第1类方法是通过带外的方法取得视频明文信息, 如中间东说念主代理取得视频刻画文献, 这些刻画文献是就业器提供给播放器的对每个视频ADU的刻画, 是对片断明文属性的刻画, 不错用来构建明文指纹库; 第2类方法是告成在末端播放特定视频, 同期, 中间节点网络对应的传输数据, 将末端记载的视频称号和同期网络到的加密传输数据组成一个传输实例, 将视频称号及播放时加密数据的传输特征存储到数据库中构建指纹库, 这个指纹库里存储的是视频传输指纹, 是对一次加密传输实例的刻画, 因此为密文指纹库.
基于上述界说和两类指纹库的构建方法, 现存加密视频识别的基本方法分为两大类, 如图 4所示.
Fig. 4 Encrypted video identification method 图 4 加密视频识别方法如图 4所示, 字据指纹库构建样式的不同, 加密视频识别方法分为两类.
● 图 4(a)是使用视频明文信息构建的指纹库, 附近带外常识为视频指纹打上内容标签, 从侧信说念索求的传输指纹进行修正后与明文指纹进行匹配, 基于匹配落幕识别视频.这类识别方法也包括对传输指纹不进行任何修正就将其与明文指纹匹配的方法;
● 图 4(b)中使用视频密文传输实例构建指纹库, 亦然使用带外常识为指纹打上内容标签, 从侧信说念索求的传输指纹与密文指纹进行匹配, 基于匹配落幕确信是否识别出视频.
1.2 评估测度为了对加密视频识别的效果进行评价, 需要遴荐合适的性能规画.加密视频识别属于二分类任务, 咱们已知对二分类问题的预测, 不错得到4种落幕, 分别为TN(true positive)、FP(false positive)、FN(false negative)、TP(true positive).在加密视频识别算法评价中, 使用准确率(accuracy)、查准率(precision)、查全率(recall)、假阳率(false positive rate)不错全面地评价算法的灵验性.规画公式分别如下所示.
● 准确率
$A = \frac{{TP + TN}}{{TP + TN + FP + FN}}$ (1)● 查准率
$P = \frac{{TP}}{{TP + FP}}$ (2)● 查全率
$R = \frac{{TP}}{{TP + FN}}$ (3)● 假阳率
$FPR = \frac{{FP}}{{FP + TN}}$ (4)准确率、查准率、查全率、假阳率必须搭伙使用, 以全面评测算法的可用性.若是对算法落幕只评测其中个别规画, 即使个别规画落幕很好, 其他要道规画莫得评测, 算法的灵验性也无法保证.
1.3 关系使命本节最先对已有连络效能结合图 4所示指纹库的不同构建方法分类发挥, 然后接头这两种方法构建的指纹库的区别, 从而确信本文的指纹库构建方法.
图 4(a)中使用明文信息构建明文指纹库是最告成的方法.最先分析使用明文指纹库的关系文献.
Reed等东说念主[20]征战了一个大要识别加密Netflix视频的系统, 该系统使用中间东说念主代理取得的视频刻画信息构建明文指纹库, 对加密视频识别时, 通过adudump[19]索求的加密ADU特征构建视频传输指纹.关联词通过adudump索求的传输指纹与明文指纹库中的明文指纹长度上存在偏移, Reed等东说念主辩论到这个问题, 指出: HTTP头部和TLS左券支拨会对数据形成影响, 通过将匹配窗口放大到30个ADU, 以及对ADU特征进行一些修正, 可将这个影响尽量镌汰.该文献在一个包括330 364个Netflix视频指纹库中作念了200次识别测试, 测试落幕为199次正确识别出视频, 即该方法的查全率是99.5%, 关联词该文献并莫得给出其他评测规画.Reed等东说念主的另一篇论文在802.11无线网络会识别加密的Netflix视频流[21], 但该文献的测试指纹库只消不到100个视频, 进行了25次识别都备识别出视频, 因此查全率为100%.除此以外, 莫得给出其他评测规画.该文献数据库领域太小, 同期也指出该方法的误判率会跟着指纹库领域的扩大而增大, 无法应用到现实场景.这两篇论文都要求加密视频数据网络达到30个ADU才能进行匹配, 即网络30个一语气的ADU, 何况在此时间莫得分辨率切换及东说念主工跳转才能用于视频识别.
Stikkelorum等东说念主[22]使用有限状态机进行视频识别, 使用文献[20]中的修正方法对ADU特征进行修正, 修正后的视频传输指纹与明文指纹库进行匹配.该文的指纹库只包括20个YouTube视频, 测试落幕也仅仅在这20个视频的指纹库里轮番识别5个视频并只给出查全率.从指纹库的领域和算法的评估落幕看, 该文献的效能不具有实用性.
图 4(b)中使用加密传输的信息构建密文指纹库亦然常用的指纹库构建方法, 频频用于无法取得明文指纹的场景中.
Gu等东说念主[23, 24]建议一种从侧信说念识别视频的方法, 指纹数据开始于传输过程中的模糊量变化, 因此属于密文指纹, 传输指纹是从视频播放时的数据侧信说念中索求的, 因此这种方法本体上是将密文指纹与传输指纹进行匹配.测试时指纹库有200个视频, 查全率为90%, 并莫得给出假阳率.该方法要求网络可播放3分钟的密文数据, 对应Facebook数据为90个ADU.同期, 该方法的测试数据是实验网网络, 而现实场景中的配景流会干豫该算法假定的视频流固定传输模式.Gu等东说念主的论断也指出, 该方法无法识别出ADU, 因此尚无法应用在大领域指纹库场景中.
文献[25]建议了一种识别Netflix交互视频用户动作的方法, 指纹库是通过用户现实操作的动作结合动作发生时握取的密文构建, 属于密文指纹库, 传输指纹来自于客户端TLS记载左券长度, 使用的是密文指纹与传输指纹进行匹配的方法.该文针对一个交互视频中的10个遴荐点构建指纹库, 测评落幕是该算法达到96%的查全率.由于指纹库太小, 莫得给出假阳率, 该效能也无法实施到大领域指纹库.
文献[26]觉得一个视频的指纹是固定的, 因此屡次下载模式是固定的.但该文并莫得使用指纹库, 该方法对一个视频的播放模式进行机器学习教学分类器, 对不同的视频需要教学不同的分类器, 再索求监听到的视频播放特征进行分类识别.该方法需要对每个视频教学一个分类器, 代价太高; 而且一个紧要的假定是吞并个视频在网络上的传输模式是固定的, 这个假定在广域网上并不建立.骨干网上单个应用流得到的可用带宽是波动的, 导致每次的传输模式并不是固定的, 该文对数据网络环境要求较高, 因此并不得当在大领域网络上应用.
总体看来, 文献[23-26]的密文指纹构建密文指纹库的方法都靠近着两个问题: (1) 密文指纹库存在指纹库内容不确信的问题, 方法各不沟通导致落幕无法具有通用性; (2) 每次对ADU加密后的长度并不成保证不变, 引起不确信性的因素包括HTTP头部信息每次传输都有可能会变化, 每次传输时就业器的性能状态不一样也会导致TLS片断数量不一样, 相应地会添加不确信数见解TLS片断头部[29].这些不确信因素形成一个ADU的密文长度会有多种, 使用不确信的长度构建指纹库会为后续匹配带来纰谬.为了幸免使用不确信性信息构建指纹库, 本文连络使用明文指纹构建视频指纹库的方法.
由现存文献分析可见: 非论使用明文指纹库如故密文指纹库, 现存文献在视频内容识别领域内所作念的连络都处于运转的探索阶段, 存在的问题也比拟相似: (1) 主要连络点聚合在多样匹配算法的优化连络上, 关联词莫得文献深远连络匹配算法的输入数据是否合理简直, 待匹配的信息开始比拟芜乱, 这势必镌汰了这些方法的通用性偏执评测落幕的准确性; (2) 对算法落幕的评测规画不全面, 这一问题在已有文献中体现为对算法的评测规画主要为识别的查全率, 而假阳率只在个别使用微型指纹库测试的文献中被提到, 但在指纹库很小的情况下假阳率是莫得参考价值的; (3) 测试指纹库普遍比拟小, 评测论断不一定适用于大型指纹库.这些问题阐述: 这些加密视频识别连络效能仅仅初步的尝试, 尚无法处理在简直场景中的加密视频识别问题, 也阐述在加密流量比例迟缓提高的现实场景下, 网络安全和网络不断靠近的困难.
1.4 本文的连络内容本文针对加密流量识别连络中的要道问题张开使命, 连络加密视频传输指纹的精确还原方法偏执在加密视频识别方面的应用价值.这两个连络内容的关系如图 5所示.
Fig. 5 Key research point of this paper 图 5 本文的要道连络点ADU长度精确修起方法HHTF不错从加密传输的ADU修起出ADU明文长度, 这是本文的要道时刻立异点.这一时刻大大提高了加密视频识别落幕的准确率、查准率、查全率, 镌汰了假阳率.使用本文的方法后进行加密视频识别大要已矣大型明文指纹库场景中加密视频的准确识别.
2 ADU长度精确修起方法HHTF对单个ADU的长度精确修起是ADU匹配的前提, 本节给出了对单个ADU长度进行精确修起的方法, 该方法的要道点在于特征的索求辩论了HTTP头部和TLS片断这两个要道因素, 因此鄙人文中简写为HHTF(http head & TLS fragmentation)方法.
本节最先给出修起方法的总体架构; 然后细心发挥TLS加密数据长度偏移的基应承趣; 基于这个基应承趣, 给出了特征索求的方法; 使用索求的特征进行模子拟合, 得到HHTF修正方法的参数, 并接头了HHTF方法的适用性.
2.1 加密应用数据单位长度精确修起方法架构图 6所示为本文建议的加密应用数据单位长度精确修起方法架构图.
Fig. 6 Architecture of the accurate restoration method for encrypted ADU length 图 6 应用数据单位长度精确修起方法架构最先通过代理等带外样式网络应用的明文数据信息, 并索求其长度信息组成ADU明笔墨典.需要指出的是, 此处的ADU明笔墨典与图 4所示的视频明文指纹是不同的.这里连络的是单个ADU长度的修起方法, 明笔墨典里存储的是应用层单个ADU的长度, 只消数据量特征; 而图 4所示的视频识别应用中, 指纹库中的视频指纹包括一系列ADU的长度偏执传输的时候规章特征.
通过明笔墨典对教学数据打上长度标签女同 偷拍, 并索求密文传输时的传输长度和关系特征, 再通过机器学习得到对ADU长度精确修起的回想模子.对ADU长度进行修正时, 索求ADU加密数据的传输长度和关系特征, 使用教学好的回想模子进行规画, 就不错精确修起出该ADU的明文长度.
2.2 数据集由于尚无公开的视频明文与密文对应的数据集, 本文网络了Facebook的数据集, 选择了如下的方法.
针对明笔墨典的构建, 咱们通过对DASH视频传输时的MPD文献融会, 以取得明文的准确信息.MPD文献是DASH模式中视频ADU的元文献, 包含了视频ADU信息以及视频ADU资源地址信息.使用DASH模式传输视频时, 在每次播放的脱手以及分辨率切换时, 会传输该视频对应分辨率的MPD文献.通过对MPD文献的融会, 咱们不错取得这些视频片断(即视频ADU)的明文特征, 包括ADU的数据量长度.MPD文献亦然加密传输的, 为了取得MPD文献的内容, 将出动末端通过PC提供的热门接入网络, 在PC上运行中间东说念主代理.在出动末端点播Facebook的不同视频, 并手动切换不同分辨率, 就不错通过中间东说念主代理取得MPD文献的明文, 进而对MPD文献进行融会, 取得视频ADU的刻画信息.这些信息不错用来构造ADU明笔墨典.
为了取得密文传输实例, 出动末端使用PC上的热门, 启动接入热门上的Wireshark, 在出动末端上点播视频, 视频播放时就不错在PC上握取密文数据.实验数据网络过程中严格规章播放视频, 并在实验后开释应用缓存空间, 以保证每次播放时都是全数据传输, 这么不错轮番正确索求视频ADU的传输长度.由于接中计速的截至, 网络的这些传输指纹样本主要由144P、240P、360P这3种不同的分辨率组成, 分析这些数据取得可用的视频传输ADU密文14 551个.
2.3 单个ADU传输特征索求 2.3.1 TLS加密数据传输长度偏移基应承趣分析加密ADU的传输长度与其对应的明文长度进行匹配时, 传输长度越接近明文长度, 则匹配越准确.但在加密传输的情况下, 咱们只可得到悉数加密数据包载荷长度之和Payload_Sc, 由于网络左券添加了多种信息头部, Payload_Sc相对明文长度有了偏移, 必须将Payload_Sc修正成接近明文长度的值, 再与明文长度匹配.本节分析TLS左券加密后数据传输长度发生偏移的原因, 这是特征索求的要道点.
在现时悉数关系连络中, ADU的数据长度特征索求都是告成使用文献[19]中提供的器具或者征战的近似器具, 将对吞并个HTTP央求的响应数据包应用层载荷长度之和视为一个ADU的长度.但现实情况并非如斯, 如图 3所示, 应用层的ADU需要经过HTTP左券、TLS左券、TCP左券封装后才能成为TCP数据包.TLS加密数据通过TCP左券传输时, 只可取得TCP头部信息和IP头部信息, TCP的载荷大部分是加密的.为了分析数据长度发生的变化, 最先需要明确ADU调遣为TCP数据包的过程中发生的信息变化.
自顺应流媒体MPEG-DASH或者HLS模式传输流媒体视频, 使用的都是HTTP应用左券, 因此如图 7所示.
Fig. 7 Process of encapsulating an application data unit to a series of encrypted TCP packets 图 7 将一个应用数据单位封装成一系列加密TCP数据包的过程● 应用层ADU最先由HTTP左券封装;
● 随后, ADU和HTTP头部合并后, 通过接口调用被TLS左券处理: 最先会被分片, 然后可能会被压缩、添加MAC(message authentication codes)值, 随后加密成一系列的TLS片断.这些TLS片断都会有一个TLS头部结构, 含稀有据类型、版块号和长度信息等信息.这些TLS片断成为TCP传输左券的载荷.
从图 7不错看出: TCP数据包载荷长度之和与ADU的数据长度势必存在偏移, 这些偏移包括增多了HTTP头部信息、TLS头部信息.由于TLS左券将HTTP头部和应用数据单位切分为一些TLS片断后加密, 每个TLS片断头部都会增多TLS头部信息, 片断数量越多, 增多的头部信息越多.因此, TLS片断的数量亦然影响ADU长度偏移的要道因素.
HTTP头部信息在TLS片断中有两种散布样式, 如图 8所示: 第1种是HTTP头部与加密数据被羼杂在一个TLS片断中, 第2种是HTTP头部单独成为一个TLS片断.通过对Facebook和YouTube数据的分析发现, Facebook向上85%的样本、YouTube的一都样本都是按照图 8所示的TLS片断数据散布2所示散布的.这是因为视频就业器响当令, HTTP头部信息是由就业器告成产生的, 而视频数据是从硬盘中读出的, 这两者到达缓冲区的速率不一样, 从而导致先到达的HTTP头部作为一个单独的TLS片断; 而且这个片断长度的散布具有较着的区间范围, 如Facebook平台这个TLS片断长度会散布在[400Byte, 700Byte]内.图 8所示的TLS片断数据散布样式1现实中占比很少, 本文的战略是视为不可用而过滤掉.在第2.2节网络的数据聚合, 只消12%的密文数据是属于这种情况的.在现实的视频应用中, 出现散布样式1的概率会小许多, 因此过滤这么的数据并不会影响本文方法的适用性.
Fig. 8 Position of HTTP header in TLS fragmentation 图 8 HTTP头部在TLS片断中的位置 2.3.2 特征值索求ADU长度精确修起的要道点在于, 将上述形成TLS加密数据传输长度偏移的因素加入数据特征的遴荐.本文选用3个特征值: Payload_Sc、HTTPhead_L和NTLS.这3个特征的具体含义如图 9所示.
Fig. 9 Meaning of the three features 图 9 3个特征值的含义Payload_Sc特征的索求方法选择的是近似于文献[27]中的方法, 将在传输层取得的应用层载荷之和作为Payload_Sc.
对HTTPhead_L和NTLS特征的及第是以图 7和图 8所示的旨趣为依据.因为若要修起ADU明文的数据长度, 必须在加密数据长度中减去HTTP头部的数据长度和TLS头部的数据长度.因此, HTTP头部对应的密文长度以及TLS片断个数势必为主要特征.字据文献[29], TLS片断的长度最大为16KB, 再加上TLS片断头部信息, 总长度频频大于TCP数据包的最大长度MSS(maximum segment size), 因此, TLS片断会被分割在几许TCP数据包中发出, 何况在两个TLS片断的接壤处, 分别属于两个TLS片断的数据会合成一个TCP数据包发出.从密文中索求NTLS就需要进行反向操作, 如图 10所示: 将一个应用层数据单位的悉数TCP数据包再行组装为简直的TLS片断, 才能得到对应的TLS片断个数.
Fig. 10 Combining TLS fragmentation from TCP packets 图 10 从TCP数据包中组合出TLS片断TLS片断个数无法告成从TCP和IP的报头得到, 需要结合TLS头部信息的融会得到.在TLS片断的头部所包含的TLSPlaintext结构中, 包含了该TLS片断的长度信息, 这些信息并不是加密的.因此不错融会TCP数据包载荷中的TLS片断头部信息, 得到每个TLS片断的长度信息, 再字据每个TCP载荷的现实长度信息, 将TCP数据包合并或者拆分到各TLS片断中, 从而组合出TLS片断.对组合出的TLS片断, 字据上文分析的论断, 若是第1个TLS片断长度在400B到700B之间, 这个TLS片断包含的数据是HTTP左券的头部信息, 将其长度索求为HTTPhead_L.对剩下的TLS片断规画片断的个数, 就取得了NTLS.
对每个ADU经过加密传输后得到的加密数据, 索求Payload_Sc、HTTPhead_L和NTLS这3个特征, 结合之前对这些ADU作念的明文瑰丽, 就组成了教学集和测试集.
2.3.3 特征值索求中需要处理的要道问题第2.3.2节给出的是特征值索求的基应承趣和方法, 前提条款是大要得到ADU的所稀有据包.固然文献[19]及关系连络都是附近了图 3所示的基应承趣, 但在处理现实传输数据时, 情况要复杂许多, 主要表当今:
(1) 数据传输势必存在丢包、重传、乱序的景象;
(2) 数据网络时可能由于网络系统的性能出现漏网络的景象;
(3) 客户端吸收就业器发送的ADU的时候, 可能由于网络景象的恶化中断已有的传输, 然后客户端再行央求TCP结合, 并发出续传央求.中断后续传的早先会字据不重视况有所不同, 这导致1个ADU的数据可能来自1个TCP结合或者多个TCP结合;
(4) 当发目生辨率自顺应切换时, 在切换处会出现过剩的ADU;
(5) 用户在播放过程中的暂停、回放、快进等操作导致的数据复杂化.
在数据被加密的配景下, 上述这些情况需要大要被识别并进一步加以处理.由于这部分时刻细节的处理过程颇为复杂, 限于篇幅有限以及这部分数据预处理内容更偏向于工程已矣, 具体细节不在本文中张开.
这些由于网络传输的复杂性导致的问题在已有的关系文献中都莫得被说起, 若是告成冷落这些细节是无法准确得到本文建议的3个特征值的.本文在数据处理过程中充分辩论了网络传输复杂性带来的问题, 这是HHTF能精确修起明文长度的时刻复旧.
2.4 回想模子拟合落幕字据图 7给出的TLS传输长度漂移旨趣, 规画ADU长度精确修起值ADU_R的公式为
$ { ADU\_ } R={ Payload\_S }_{c}-{ HTTPhead\_L }-N_{T L S} \times \theta $ (5)ADU_R为将加密数据长度修起后取得的长度, θ为数据中每个TLS片断增多的信息的长度.θ的取值与加密数据传输使用的TLS左券版块以及加密套件关系, 为准确起见, 对不同的TLS左券版块或加密套件需要索求特征后进行模子拟合, 得到θ值.
字据第2.3节中的特征索求方法, 对Facebook样本的ADU传输数据索求特征, 并使用带外样式打上明文长度标签, 进行模子教学后回想模子为
$ A D U_{-} R={ Payload\_ } S_{c}-{ HTTPhead\_ } L-N_{T L S} \times 29 $ (6)即Facebook数据拟合后θ=29, 阐述Facebook对视频数据进行TLS加密时, 每个TLS加密片断增多29字节的头部信息.
对数据聚合得当要求的12 739个ADU传输指纹, 使用公式(6)规画了ADU_R, 与明文指纹ADU_F比拟, 12 739个规画落幕与明文数据完全吻合.规画落幕标明: HHTF方法得到的修碰巧是一个确信性变量, 而不是就地变量.由于HHTF方法修正后得到的修正长度等于明文长度, HHTF不错精确修起ADU长度.
HHTF不错精确修起长度的原因有两个: (1) 本模子是字据加密进程的基应承趣推理的, 特征遴荐包括了悉数影响长度的因素; (2) 少数无法取得HTTP头部加密长度准确值的情况, 即得当图 7中的TLS片断数据散布1的数据样本不参与教学, 也不参与测试.
表面上说, 在TLS左券中的压缩、填充也会影响数据长度, 但在现实监测中发现: 对现存视频数据来说, 视频明文本人即是压缩的, 二次压缩没灵验果, 因此都莫得在TLS里已矣压缩.联悉数据填充问题, 本文的连络过程中也发现: TLS1.0会稀有据填充, 而当今普遍使用的TLS1.2加密后传输, 经过对YouTube和Facebook数据的分析考核发现, 在传输视频数据时都莫得填充.因此, 本文索求的特征值对TLS1.2加密后传输的视频仍是富裕, 不错得到ADU长度精确修起值.
HHTF方法之是以大要高度准确修起ADU的数据长度, 是因为特征的索求辩论了HTTP头部和TLS片断这两个要道因素.底下从视频就业平台和末端两方面接头其适用性.
2.5 HHTF方法的适用性除了Facebook的视频片断, 咱们同期测试了YouTube DASH视频片断.由于YouTube默许情况使用QUIC左券传输视频, 在接入路由器上关闭UDP左券的443端口后, YouTube就修起使用HTTPS.用不异的方法网络了测试数据集.YouTube每个ADU的可播放时长为10s, 本文网络了376个片断的传输指纹, 构建了对应明文指纹库, 不异进行了模子教学, 得到的模子与公式(6)一样.使用公式(6)对传输指纹进行修正, 再与明文指纹比拟, 376个片断的修正落幕与明文指纹库的长度完全吻合.悉数的传输指纹都不错还原到与明文指纹的精确匹配.由此可见, 本方法不异适用YouTube视频ADU使用TLS1.2加密并使用HTTP1.1活水线模式传输指纹的还原.
此外, 对YouTube的实验样分内析落幕发现, YouTube样本一都得当图 8所示的TLS片断数据散布2.由于Netflix需要当地出动接入的出动末端才能播放, 本文未能网络数据进行考据.关联词从加密视频就业器平台的躲避面上看, Facebook和YouTube的测试落幕仍是不错阐述HHTF方法的适用性.
本文的实验数据网络使用了三星Note5、华为畅享5、三星s5和三星s6 edge这4款手机, 在悉数4个测试手机上, Facebook APP使用TLS1.2左券时都选了加密套件“TLS_ECDHE_ECDSA_WITH_AES_128_GCM_ SHA256(0xC02B)”, 而YouTube的APP使用TLS1.2左券都选用了加密套件“TLS_ECDHE_RSA_WITH_AES_ 128_GCM_SHA256(0xC02F)”.固然加密套件有所不同, 关联词本方法都适用.
由此可见: HHTF方法不仅适用于不同的视频分发网站, 对出动末端也有较强的适用性.
3 大型明文指纹库中加密视频识别 3.1 大型明文指纹库的构建为了评估HHTF方法应用的效果, 必须构建大型的视频指纹库.视频指纹库中存放了视频的ADU长度偏执播放规章, 这些信息组成了视频的指纹.
由于取得Facebook简直的大型视频指纹库在现存条款下难以办到, 本文基于统计学的基应承趣构造大型模拟视频指纹库, 只消样本具有平定性和代表性, 在样本容量富裕大的情况下, 不错从样本统计量推断总体参数, 据此不错模拟构建大型Facebook视频指纹库.
最先需要取得简直的视频及视频ADU散布.为了大要从样本统计量准确推断出总体统计量, 样本的遴荐必须具有平定性和代表性.通过代理网络了简直的Facebook视频277个, 视频的种类包括影视、体育、游戏、音乐和综艺这五大类, 5类视频网络的个数轮番为98个、65个、30个、42个和42个.视频的播放时长包括[1min, 2min]、[2min, 5min]、[5min, 15min]、[15min, 120min]这4个时候长度区间.277个视频的ADU片断数量共为77 802个.同期也网络了播放这些视频的密文数据实例, 用以进行视频识别实验.图 11是这77 802个ADU长度的概率密度函数(probability density function, 简称PDF).
Fig. 11 PDF of Facebook ADU length 图 11 Facebook样本视频ADU长度概率密度关于视频识别测试来说, 277个视频组成的指纹库远远不够.固然咱们无法得到Facebook的总体视频片断长度散布, 关联词仍是网络的277个视频包含了77 802个视频片断.因为视频片断的样本容量富裕大, 是以样本的散布靠拢总体散布.因此, 咱们不错基于图 11所示的77 802个ADU长度PDF, 构建一个模拟的大型视频指纹库.
大型视频指纹库的构因素为3部分: (1) 简直网络的277个视频; (2) 以每个简直视频为基础分别模拟出200个模拟视频, 组成了55 400个模拟视频, 这些模拟视频与简直视频ADU个数一样, ADU长度就地散布在其对应的简直视频ADU长度[0.9, 1.1]倍区间内; (3) 模拟产生了150 000个视频, 这些模拟视频的ADU个数就地散布在[30, 930]范围内, ADU的长度按照图 11中的概率密度函数产生.最终产生的模拟指纹库中含有205 677个视频, 87 523 677个ADU, 平均每个视频426个ADU, ADU长度的均值为70KB.
这么产生的模拟数据库有3个特质: (1) 保证简直的视频包含在其中; (2) 包含了较多与简直视频指纹尽头邻近的视频指纹, 因此不错用以考验是否会将指纹接近的视频污染, 在较为残忍的情况下进行测试; (3) 视频的ADU长度是按照简直视频ADU长度的概率密度函数产生的, 因此悉数这个词模拟视频指纹库的ADU长度散布与简直的Facebook视频是一致的.
本文对视频的匹配方法是基于视频ADU长度讲理序进行的, 模拟指纹库的ADU长度散布基于统计表面旨趣接近简直指纹库, 完全不错用于对本文的算法进行考据.
3.2 ADU匹配算法与匹配概率单个ADU是组成视频指纹的基本元素, 亦然进行加密视频识别的基础.本节给出将HHTF方法应用于单个ADU匹配时的方法和匹配概率, 并给出对比的Reed方法应用后的匹配算法和匹配概率.
3.2.1 HHTF方法应用于单个ADU匹配算法偏执匹配概率字据第2节的落幕, 对得当要求的加密ADU, HHTF方法得到的长度修起值ADU_R与ADU明文的长度ADU_F是一致的, 即取得的是确信性变量, 是以在识别时使用的方法是ADU_R等于ADU_F视之为匹配.
匹配概率决定着匹配落幕的准确性, 匹配概率与数据库大小有着密切的关系, 本节使用第3.1节构建的大型指纹库进行分析.
HHTF方法进行修正后得到的是确信性变量, 假定修正后得到长度为x, 事件A为纵情明文指纹长度和修碰巧x匹配, 事件A的概率记为P(A), 使用HHTF方法修正后发滋事件A的概率记为
$P(A) = \int_{C1}^{C2} {f(x)dx} $ (7)其中, f(x)为图 11中的概率密度函数, c1和c2是匹配的凹凸界.因为HHTF方法修正得到的是确信性变量, 是以PHHTF(A)≈f(x).为了简化规画, f(x)不错使用ADU长度均值x0在总体中的概率f(x0)来估算, 得到: PHHTF(A)≈f(x0).
字据第3.1节中模拟的测试指纹库的构建参数, 不错得到f(x0)=7.9×10-6, 即PHHTF(A)≈7.9×10-6.
3.2.2 Reed方法应用于单个ADU匹配算法偏执匹配概率现存的对加密视频识别的论文主要关心点在视频匹配算法的设想上, 大部分都冷落了加密数据经过传输左券和加密左券封装后数据长度的不确信性, 这是导致现存文献效能无法信得过应用到简直网络会的根底原因.现时, 对这个问题建议处理方法的有文献[20-23], 其中, 文献[20]与本文的方法一样使用的是明文指纹库, 在进行匹配前对传输密文指纹作了修正.文献[21]发表于文献[20]之前, 固然有指纹修正, 但仅仅简便等比扩大匹配范围.文献[22]则明确指出其参考了文献[20, 21]的方法和参数, 因此, 本文与文献[20]进行对比分析, 以下将使用文献[20]的方法进行修正后匹配的方法称为Reed方法.
在与HHTF对比的Reed方法中, 文献[20]并莫得对单个ADU匹配的方法及匹配进行分析, 本节基于文献[20]的修正旨趣对单个ADU进行了修正, 并给出了修正落幕应用于单个ADU匹配的方法.
文献[20]指出了告成使用密文传输指纹匹配明文指纹会产生偏差的原因: HTTP头部对每个视频ADU增多大致520个字节; TLS头部对视频ADU和HTTP头部的组合增多大致0.18%的载荷.文献[20]在匹配时针对这两个偏差对传输指纹进行了界限修正:
${\rm{Min}} = \frac{{Total\_Received}}{{1.0019}} - (30 \times 525)$ (8) ${\rm{Max}} = \frac{{Total\_Received}}{{1.0017}} - (30 \times 515)$ (9)Reed方法要求一语气网络到30个ADU才能进行视频匹配, 因此Min和Max是指一语气30个ADU的传输指纹数据量的凹凸界限.本节不辩论30个ADU这个加强条款, 因此, Reed方法中对单个ADU长度的修正公式为
$ A D U_\_ R= { Payload\_S_c } / p-q $ (10)其中, p为TLS头部增多的载荷参数, q为HTTP头部增多的载荷参数.文献[20]中, p=1.0018, q=520.
因为本文的数据集是Facebook数据, 而文献[20]是针对Netflix平台的, 本文最先使用第2.2节中的Facebook数据集进行了回想拟合教学, 一共14 551个ADU, 其中70%作教学集, 30%作测试集, 得到参数为p=1.003676129, q=589.48.
$ A D U_{-} R= { Payload\_} S_{c} / 1.003676129-589.48 $ (11)附近公式(11)规画样本的ADU_R, 再使用明文指纹规画残差x=ADU_F ADU_R.教学集的落幕为: 残差的均值为0, 方差为1 901.87, 尺度差为43.61;测试聚积果为: 残差的均值为0.588, 方差为1799.17, 尺度差为42.42.可见教学纰谬和测试纰谬很接近, 因此选择该模子是可行的.
图 12为样本残差PDF, 不错看到, Reed方法修正后残差主要散布在-100字节到100字节之间.
Fig. 12 PDF of the ADU length residual with Reed methodReed 图 12 方法修正后ADU长度残差的PDF由图 12可见, Reed方法取得的单个ADU长度残差散布可近似地行为正态散布.μ为均值, σ为尺度差, 记作X~N(μ, σ2).可使用教学集残差的均值来无偏忖度总体残差的均值, 用教学集残差的尺度差来无偏忖度总体残差的尺度差, 则X~N(0, 43.612), 残差在正负3倍尺度差范围内的概率为P{μ-3σ < x < μ+3σ}=0.997, 即: 残差在[-130, 130]区间内的概率为99.7%.
附近公式(11)进行长度修正后再进行单个ADU匹配, 已知Payload_Sc, 规画得到ADU_R, 则这个ADU的明文长度ADU_F在[ADU_R-130, ADU_R+130]区间内的概率为99.7%, 界说该区间为Reed方法的匹配区间[c1, c2].使用Reed方法后进行单个ADU匹配的方法为: 通过上述方法规画出匹配区间, 匹配时, 指纹库中片断长度在匹配区间内的ADU为与之匹配的ADU, 其对应的ADU明文指纹长度在匹配区间内的概率是99.7%.
Reed方法的匹配区间为[c1, c2], 在匹配区间内, 纵情明文指纹长度和修碰巧匹配的事件A的概率为$P(A) = \int_{C1}^{C2} {f(x)dx} , $f(x)为图 11所示ADU的概率密度函数.为简化规画, 可把匹配区间内的概率设为尽头的一条直线, x0为ADU长度散布的均值, 简化公式为PReed(A)≈f(x0)×(c2-c1), 则使用Reed方法进行修正后, 匹配概率为
$ P_{{Reed }}(A) \approx f\left(x_{0}\right) \times(c 2-c 1)=f\left(x_{0}\right) \times 261 $ (12)其中, c2-c1=261, 是正态散布假定下匹配区间的范围.图 13为该规画方法的表示图.
Fig. 13 Schematic diagram of matching probability calculation 图 13 匹配概率简化规画表示图字据第3.1节中模拟的测试视频指纹库的构建参数, 可得PReed(A)≈f(x0)×261=2.062×10-3.
3.3 加密视频识别方法加密视频的指纹是由每个视频ADU的长度及这些ADU传输的先后规章组成的, 识别是将待匹配的ADU长度修碰巧与指纹库中的明文长度按规章使用第3.2节的匹配算法进行匹配, 若是有一语气的k段ADU匹配见效, 则觉得识别出了加密视频, 咱们称视频识别的过程为k段匹配.在一次匹配过程中, 假定明文指纹库中的一个视频明文指纹有j个ADU, 不雅测到的加密视频传输指纹含有i个ADU, 加密视频的ADU长度经过HHTF方法或者Reed方法修起后为x1, …, xi, 选择k(k≤i何况k≤j)个一语气ADU匹配的方法来匹配, 即: 若是i个加密传输ADU中有k个ADU和明文指纹的k个ADU长度讲理序都匹配, 则觉得完成了视频的k段匹配.加密视频识别使用k段匹配, 要道参数k需要字据评估规画在识别算法实施前确信.
界说事件E为ADU个数为j的明文指纹和ADU个数为i的密文传输指纹k段匹配见效, 则事件E的概率P(E)为
$ P(E)=(i-k+1) \times(j-k+1) \times P(A)^{k} $ (13)其中, P(A)为纵情明文指纹长度和修碰巧x匹配事件A的概率.
k段匹配仅仅加密视频识别方法, 匹配落幕势必会存在纰谬.该方法要能在大型的指纹库场景中应用, 必须对识别落幕的各项规画进行全面评估, 然后字据评估值确信k的取值, 只消规画达到要求的方法才能应用到现实中.
3.4 加密视频识别方法评估规画的表面规画在加密视频识别算法评估中, 使用准确率、查准率、查全率、假阳率不错全面评价算法的灵验性.在现实应用中, k越大, 势必识别落幕越准确.关联词k值大也意味需要网络一语气传输且分辨率不变的ADU数量多, 若现实中网络到郁勃条款数据的可能性小的话, 则方法的可用性就差.是以对加密视频识别方法的评估, 需要求出郁勃准确率、查准率、查全率、假阳率这4个规画的最小k值.
本节最先给出准确率、查准率、查全率、假阳率的表面评估值, 并字据评估值确信k的梦想取值.然后在大型明文指纹库中进行测试, 将表面值和测试作对比, 以考据方法的灵验性.
假定明文指纹库中有t个视频, 一个待匹配的加密视频和明文指纹库内t个视频匹配过程中有s(s≥1)个明文视频指纹k段匹配见效, 则事件E的概率也不错表示为
$P(E) = \frac{s}{t}$ (14)将公式(13)代入公式(14), 得到:
$P(E) = \frac{s}{t} = (i - k + 1) \times (j - k + 1) \times P{(A)^k}$ (15)其中, P(A)为ADU长度均值x0发生匹配事件的概率.
假定待匹配视频的明文指纹一定在明文指纹库中, s≥1, 因此$P(E) \geqslant \frac{1}{t} $.
● 准确率: $A = \frac{{TP + TN}}{{TP + TN + FP + FN}}.$
本文实验中, 待匹配视频的明文指纹在指纹库里, 而且势必只对应一个明文指纹, 是以TP=1;其余不被匹配上的t-s个视频为TN, 代入准确率公式, 得到:
$A = \frac{{TP + TN}}{{TP + TN + FP + FN}} = \frac{{1 + (t - s)}}{t} = 1 + \frac{1}{t} - P(E) = 1 + \frac{1}{t} - (i - k + 1) \times (j - k + 1) \times P{(A)^k}$ (16)● 查准率: $P = \frac{{TP}}{{TP + FP}}.$
因为有s个明文视频指纹和待匹配视频k段匹配见效, TP+FP=s, 代入查准率公式, 得到:
$ P=\frac{TP}{TP+FP}=\frac{1}{s}=\frac{1/t}{s/t}=\frac{1}{t\times P(E)}=\frac{1}{t\times (i-k+1)\times (j-k+1)\times P{(A)}^{k}}$ (17)● 查全率: $R = \frac{{TP}}{{TP + FN}}.$
查全率不错字据视频ADU的匹配概率推算得出.
Reed方法中, 一个待匹配视频与其相对应的明文指纹视频匹配时, 待匹配ADU与其对应的明文指纹匹配的概率是99.7%, k个一语气ADU与它们对应的明文指纹都匹配的概率是997k, 则k段ADU不成完全与它们对应的明文指纹匹配的概率是1-0.997k.i个ADU中, 有(i-k+1)个一语气的k段ADU, 这些k段ADU与它们相对应的明文指纹都不匹配的概率是(1-0.997k)(i-k+1).因此, 一个视频含有i个ADU, 与它对应的明文指纹视频不错k段匹配的概率为1-(1-0.997k)(i-k+1), 即, 使用Reed方法的查全率为RReed=1-(1-0.997k)(i-k+1).在k较小、i比k大许多的情况下, RReed接近1.也即是说: 若是待匹配视频的ADU数量较多, 关联词只使用较少的视频ADU去匹配, 则查全率接近1.
若是使用HHTF方法对加密数据进行修起, 同理不错得到RHHTF=1-(1-1k)(i-k+1)=1.
由上述分析可见: 使用Reed方法修起ADU长度指纹后查全率接近1, 使用HHTF方法修起ADU长度指纹后查全率等于1.字据查全率的公式, 得到TP+FN=TP, 即FN=0.
● 假阳率: $FP{R_{Reed}} = \frac{{FP}}{{FP + TN}}.$
因为在s个被认定为匹配的明文视频中, 只消1个是信得过的匹配视频, 其余s-1个视频为FP, 即FP=s-1;不异, 因为在明文指纹库的悉数t个视频中, 只消1个是信得过的匹配视频, TP=1, 通过查全率仍是推导出FN=0, 因为TP+FP+FN+TN=t, 是以FP+TN=t-1, 代入假阳率的公式, 得到:
妈妈调教 $FP{R_{Reed}} = \frac{{FP}}{{FP + TN}} = \frac{{s - 1}}{{t - 1}}.$大型指纹库中的视频数量远精深于1, 假阳率不错简化为
$FP{R_{Reed}} \approx \frac{{s - 1}}{t} = \frac{s}{t} - \frac{1}{t} = P(E) - \frac{1}{t} = (i - k + 1) \times (j - k + 1) \times P{(A)^k} - \frac{1}{t}$ (18)将PHHTF(A)≈7.9×10-6和PReed(A)≈f(x0)×261=2.062×10-3代入式(16)~式(18), 并将测试指纹库中的t=205677, i=280, j=426代入, 分别使用2个一语气ADU匹配(k=2)、3个一语气ADU匹配(k=3), 可规画得到在这两种匹配长度下, 分别使用HHTF方法和Reed方法修正ADU长度后, 在大型指纹库进行视频匹配时的表面落幕, 见表 1.
Table 1 Theoretical comparison of continuous ADUs matching results 表 1 一语气ADU匹配落幕表面比拟由表 1可见: 使用HHTF方法修正ADU长度后进行视频识别, 只需要3个一语气ADU就不错达到准确率、查准率、查全率为100%, 假阳率为0.
3.5 加密视频识别方法在大型模拟指纹库中的实测落幕和分析为了考据表 1给出的表面评估值的正确性, 用简直数据在大型模拟指纹库中进行了匹配识别, 分别使用2个和3个一语气ADU匹配, 得到了277个简直视频在20万级模拟指纹库中匹配的预测落幕样例数, 见表 2.
Table 2 Number of prediction results obtained from a large simulated fingerprint database 表 2 大型模拟指纹库中得到的预测落幕样例数将表 2落幕代入准确率、查准率、查全率和假阳率的公式(1)~公式(4), 不错得到表 3的实验落幕.
Table 3 Results of continuous ADU matching experiments in a large simulated fingerprint database 表 3 大型模拟指纹库中一语气ADU匹配实验落幕对比表 1和表 3的落幕可见, 表面分析落幕与在大型模拟指纹库中的实测落幕很接近.有些判袂是因为: 表面分析为了简化使用了ADU长度均值的匹配概率, 而实测中使用的是ADU长度的简直值去匹配.
对实验落幕作进一步比拟分析, 不错确信HHTF修正方法应用到大领域指纹库中进行加密视频识别算法的灵验性.
(1) 准确率: 使用两个一语气ADU进行匹配取得的准确率Reed方法较低, HHTF方法较高, 使用3个一语气ADU进行匹配后准确率都较高, 其中, 使用HHTF方法的准确率尽头接近100%.这阐述准确率规画在大型数据库中达标并不困难, 该规画对不同算法的折柳度不够;
(2) 查准率: 查准率规画判袂很大, 总体上, 使用HHTF方法的查准率高于使用Reed方法, 使用3个一语气ADU匹配后, HHTF方法的查准率为100%, 关联词使用Reed方法的查准率很低.这是因为, 在大型指纹库中, 使用Reed方法后得到的FP样例远精深于HHTF方法, 这导致使用Reed方法的视频匹配在大型数据库中的查准率较差.由此可见, 大型指纹库中的查准率是一个紧要的有折柳度的规画;
(3) 查全率: 两种方法的查全率都很高.这阐述, 查全率规画对设想合理的识别算法来说并莫得折柳度, 现存文献大都以查全率作为评估规画并分歧理;
(4) 假阳率: Reed方法的假阳率精深于HHTF方法, 当使用3个一语气ADU识别时, HHTF方法的假阳率规画为0, 而Reed方法的假阳率仍然不成郁勃识别要求.这亦然因为使用Reed方法后得到FP样例在大型数据库中的数值尽头大, 导致假阳率高.由此可见, 大型指纹库中的假阳率是一个紧要的有折柳度的规画;
(5) k=3时的所磋磨都比k=2时要好, 即: 增多k值不错提高查准率, 镌汰假阳率.关联词k越大, 需要的ADU个数越多, 在现实应用中越难网络到需要的数据量.因此, k的取值不宜过多.由表 1和表 3的落幕可见: 使用HHTF方法后, 只需要3段匹配就不错郁勃在20万级指纹库中的识别需求.而文献[20, 21]中都提到ADU个数要求为30, 文献[23, 24]提到3分钟的数据, 相配于Facebook的90个ADU.对比之下, HHTF方法应用后需要的ADU个数大为减少, 提高了方法的可用性.
由上述瞄准确率、查准率、查全率和假阳率的分析比拟可见: 这两种方法对ADU进行修正后进行视频匹配, 准确率和查全率规画比拟接近, 关联词查准率和假阳率在大型数据库中的规画判袂很大.
HHTF方法的查准率和假阳率规画优于Reed方法, 是因为Reed方法对ADU长度的修起不够精确.为了保证视频大要被识别出来, Reed方法对单个ADU需要较大的匹配区间, 关联词匹配区间的增大, 也会导致FP数见解增多.在大型指纹库场景中, ADU数据多, 不异大的匹配区间内存在更多的长度近似的ADU, 因此Reed方法的FP数量在大型指纹库中急剧增多.查准率的公式为$P = \frac{{TP}}{{TP + FP}}, $在本次测试中, TP=277, 因此FP越大, 查准率越小.假阳率的公式为$FPR = \frac{{FP}}{{FP + TN}}, $由于FP+TN+TP+FN=总的匹配次数, 其中, TP=277, FN=0, 跟着指纹库领域的扩大, 总的匹配次数势必增大, 在全匹配情况下, 是与指纹库领域关系的定量, 是以, FP+TN亦然定量, 跟着FP的增多, 假阳率也会增多.由此可见, ADU长度精确修起方法HHTF是咱们不错在大型指纹库中准确识别视频的基础.
概括看来, HHTF方法的规画远远优于Reed方法.在本文使用的20万级别大型指纹库中, 使用HHTF方法修起ADU长度后, 只需要3个一语气ADU(Facebook视频为6s播放数据)就不错准确识别出加密视频, 准确率、查准率、查全率为100%, 假阳率为0, 完全达到现实应用需求的规画要求.
3.6 加密视频识别方法在微型指纹库中的实测落幕和分析为了进一步比拟两种修正方法应用于不同领域指纹库的效果, 本节给出在微型简直指纹库平分别使用HHTF方法和Reed方法进行修正后得到的实验落幕.使用简直的277个视频组成一个微型指纹库, 分别用2个和3个一语气ADU匹配, 得到了277个简直视频在简直指纹库中匹配的预测落幕样例数, 见表 4.
Table 4 Number of prediction results obtained from a small real fingerprint database 表 4 微型简直指纹库中得到的预测落幕样例数将表 4落幕代入准确率、查准率、查全率和假阳率的公式(1)~公式(4), 不错得到表 5的实验落幕.
Table 5 Results of continuous ADU matching experiments in a small real fingerprint database 表 5 微型简直指纹库中一语气ADU匹配实验落幕由表 5的落幕不错看到:
(1) HHTF方法和Reed方法修正后, 查全率规画都很梦想, 但事实上, 只消HHTF的4项规画一都得当要求.这讲明了查全率对算法的折柳度不高, 现存效能中最浅薄使用的查全率规画不周全面评估算法, 只消4个规画同期达到梦想值才能判断算法是可用的;
(2) 在表 5的落幕中, 使用HHTF方法, 只消2个一语气的ADU就不错达到梦想的识别规画, 关联词对比表 3的实验落幕不错看到: 当指纹库领域达到20万数量级时, 2个一语气的ADU进行匹配的查准率只消10.33%, 会有无数其他视频被误识为识别视频, 必须使用3个一语气ADU进行匹配.这阐述, 跟着指纹库领域的扩大, FP事件势必会飞腾, 因此对微型指纹库适用的识别参数在大型指纹库里随机适用, 只消告成在大型指纹库中进行算法考据, 落幕才具有简直度.
3.7 实验落幕通用性考据上述实考据明了必须使用大型指纹库才能信得过考据算法的可行性.由于无法得到简直的大型明文指纹库, 本文第3.1节基于统计学旨趣, 使用277个Facebook视频的77 802个ADU长度统计特征, 构建了一个模拟的大型视频指纹库进行考据.
为了考据实验落幕与模拟指纹库所使用的简直视频无关, 本节将277个视频分红不相交的2组视频集: 第1组包括139个Facebook视频, 含有40 215个ADU; 第2组包括138个Facebook视频, 含有37 587个ADU.按照不异的方法, 先分别统计ADU长度PDF, 再基于AUD长度的PDF, 按照第3.1节所述的方法构造两个大型模拟数据库, 除了完全不相交的两组简直视频外, 悉数模拟视频构造过程中, ADU长度罢黜简直的Facebook视频ADU长度PDF, 各视频长度使用了一定的就地变化, 因此这两个大型指纹库是不同的.使用不异的匹配方法, 得到两组实验落幕.将这两组实验落幕与第3.5节中的实验落幕一都列入表 6, 对3个不同大型模拟指纹库匹配实验落幕进行比拟.
Table 6 Comparison of the results of three large-scale simulated database matching experiments 表 6 3个不同大型模拟指纹库匹配实验落幕比拟不错看到: 用来构造模拟指纹库的样本不同, 样本ADU的个数不同, 模拟出的指纹库领域接近; 在参数k沟通的情况下, 各项规画的判袂尽头小, 这些细小的判袂完全不错视为由样本个体互异引起的, 对总体的统计论断是一致的.由表 6的落幕不错看到: 只消样本量富裕大、样本遴荐具有平定性和代表性, 使用不同的简直样本构造模拟指纹库, 并不影响本文算法的实验落幕的通用性.
4 落幕语本文建议了一个大型指纹库场景中加密视频识别的方法, 初次将HTTP头部特征和TLS片断特征作为ADU长度修起的拟合特征, 建议了一种ADU长度精确修起方法HHTF, 关于郁勃要求的密文数据, 可从单个视频ADU的传输长度准确修起出明文ADU长度, 然后通过表面分析和模拟的大领域指纹库实验也讲明: 将HHTF方法应用于Facebook的加密视频识别, 在20万级指纹库中识别视频达到的准确率、查准率、查全率为100%, 假阳率为0只需要3个一语气的ADU, 所需ADU个数是已有连络的十分之一, 这大大镌汰了对密文数据的网络需求.
本文对视频识别方法的评估使用准确率、查准率、查全率和假阳率这4个规画, 可全面反应方法的适用性.现时已有的加密视频识别方法评估都使用了折柳度不高的查全率, 但都侧目了在大型指纹库中的查准率和假阳率规画, 导致已有的连络效能无法应用于大型指纹库中.本文的效能填补了这一空缺, 具有很强的应用价值.
本文的要道时刻在于基于TLS1.2加密及HTTP1.1活水线模式传输旨趣建议了ADU长度精确修起算法HHTF, 在对数据预处理时, 充分辩论了网络传输中的多样复杂景象, 保证了待匹配数据的准确性, 从而大要索求出要道特征.而现存效能的连络重心都是在后期的匹配算法上, 并未辩论网络传输环境的复杂性, 无法索求出数据的要道特征, 因此无法精确修起视频指纹, 导致在大型数据库场景中的性能无法得到保证.
本文附近ADU加密传输过程中的左券程序将加密传输的ADU长度精确修起, 关联词Internet上的左券程序会不竭更新女同 偷拍, 当今已有一些网站使用TLS1.3左券进行加密传输, 要想保持算法落幕的精确性, 就需要索求新的特征值.此外, 使用基于UDP的QUIC左券进行加密传输亦然发展趋势之一, 对QUIC左券的特征索求是识别QUIC左券加密传输视频的要道, 这些都是将来才气域的连络点.