加密流量相似性对比
- Published on
加密数据的高效相似性搜索
全文总结
本文提出了一种基于局部敏感哈希(LSH)的高效相似性搜索加密数据方案。作者指出,现有的可搜索加密方案虽然能够处理精确查询匹配,但不支持相似性匹配,这对于现实世界的应用至关重要。所提出的方案利用LSH这种用于高维空间快速近邻搜索的最新算法,实现了对加密数据的高效相似性搜索。作者给出了严格的安全定义,并证明了所提出方案的安全性。他们还展示了该方案在容错关键词搜索加密数据的实际应用,并通过经验分析验证了理论结果。
主要观点
- 本文提出了一种基于局部敏感哈希(LSH)的高效相似性搜索加密数据方案
- 现有的可搜索加密方案处理精确查询匹配,但不支持相似性匹配,这对现实世界应用至关重要
- 所提出的方案利用LSH实现对加密数据的高效相似性搜索
- 作者提供了严格的安全定义,并证明了所提出方案的安全性
- 本文介绍了该方案在容错关键词搜索加密数据的实际应用
- 通过实证分析验证了理论结果
流程
输入 :
- 一个加密数据集合
- 一个相似性查询
- 一个相似性度量指标
输出 :
- 与查询相似度大于预设阈值的数据项
详细流程:
构建LSH索引:将数据项映射到多个桶中,并对每个桶进行加密。这样可以确保相似的数据项被映射到同一个桶中,而不相似的数据项被映射到不同的桶中。
例如,对于一个图像数据集,可以使用LSH将每个图像映射到多个桶中。相似的图像(如同一物体的不同角度拍摄)会被映射到同一个桶中,而不同物体的图像会被映射到不同的桶中。
搜索过程:用户构建一个多组分的查询向量作为搜索凭证(trapdoor),服务器根据该凭证计算每个数据项的相似度得分,并返回得分最高的前t个数据项。
例如,用户想搜索一张包含猫的图像。用户可以构建一个包含"猫"、"毛发"、"眼睛"等特征的查询向量作为搜索凭证。服务器会计算每个图像与该查询向量的相似度,并返回最相似的前t个图像。
结果返回:客户端解密得分并对数据项进行排序,返回最终结果。
参考文献
Efficient Similarity Search over Encrypted Data
基于一维卷积神经网络的端到端加密流量分类
全文总结
本文提出了一种使用一维卷积神经网络(1D-CNN)的端到端加密流量分类方法。该方法将特征提取、特征选择和分类集成到一个统一的框架中,使模型能够自动学习原始流量数据与预期输出标签之间的非线性关系。这是首次将端到端方法应用于加密流量分类领域。该方法在公开的ISCX VPN-nonVPN流量数据集上进行了验证,结果显示相比现有最先进方法有显著改进。
主要观点
- 提出了一种使用1D-CNN的端到端加密流量分类方法
- 将特征提取、特征选择和分类集成到统一框架中
- 自动学习原始流量数据和输出标签之间的非线性关系
- 首次将端到端方法应用于加密流量分类
- 在ISCX VPN-nonVPN数据集上进行了验证,相比以前的方法有显著改进
流程
预处理阶段(Preprocess Phase):
输入:ISCX 数据集的原始流量数据
处理步骤:
将原始流量数据分割、清洗
- 将原始流量数据分割成会话(session)或流(flow)。会话是基于5元组(源IP、源端口、目的IP、目的端口、传输层协议)划分的流量单元,流是单向的会话。
- 对于每个会话或流,选择使用应用层(L7)协议数据或所有协议层(ALL)数据。L7数据可以反映流量的特征,而ALL数据可能包含加密流量的特征信息。
- 由于不同会话或流的长度可能不同,只使用每个会话或流的前 784 个字节作为输入数据,以保证输入数据大小统一
生成图像
转换为 IDX 格式
输出:IDX3 格式的原始流量数据和 IDX1 格式的标签数据
训练阶段(Training Phase):
- 输入:IDX3 格式的原始流量数据和 IDX1 格式的标签数据
- 处理步骤:
- 使用小批量随机梯度下降法训练 1D-CNN 模型
- 采用 10 折交叉验证确保模型的泛化能力
- 输出:训练好的 1D-CNN 模型
测试阶段(Test Phase):
- 输入:IDX3 格式的原始流量数据
- 处理步骤:使用训练好的 1D-CNN 模型对输入的流量数据进行预测
- 输出:预测的类别标签
参考文献
End-to-end Encrypted Traffic Classification with One-dimensional Convolution Neural Networks