logo

DoH恶意流量检测研究

Published on

引言

本文旨在深入调研DoH(DNS over HTTPS)恶意流量检测的相关技术、数据集和工具,验证现有信息并补充统计数据、方法细节及未来研究方向,以提升报告的深度和实用性。DoH通过HTTPS加密DNS查询,增强了用户隐私和安全性,但其加密特性也为恶意流量(如命令与控制通道)提供了掩护,使检测变得复杂。因此,开发高效的检测方法和高质量数据集成为网络安全领域的研究热点。

背景与重要性

DoH协议通过将DNS查询封装在HTTPS中,有效防止窃听和中间人攻击,显著提升了网络隐私和安全性。然而,这种加密特性也为恶意活动提供了便利,例如通过DoH隧道传输命令与控制(C2)数据或进行数据泄露。研究表明,随着DoH的广泛采用(如Cloudflare和Google DNS的支持),恶意流量检测的复杂性显著增加,传统基于明文DNS的检测方法已不再适用。因此,开发能够区分良性与恶意DoH流量的技术,以及构建代表性强的数据集,成为亟待解决的关键问题。

检测方法概述

当前,DoH恶意流量检测主要依赖两种方法:统计分析和机器学习技术。以下是对这两种方法的详细阐述。

1. 统计分析方法

统计分析通过提取DoH流量的特定参数(如包大小、时间间隔、流量模式)来区分良性和恶意流量,具有轻量化、低计算开销的优势。

  • Real time detection of malicious DoH traffic using statistical analysis
    该研究提出了一种实时检测系统,通过分析DoH流量的统计特征(如数据包大小分布、时间间隔的均值与方差)实现恶意流量的识别。系统无需解密流量,依赖特征选择的优化(如包长序列的熵值和突发性模式),实验结果显示其准确率达到约90%,假阳性率控制在5%以下。该研究强调,统计特征在区分恶意DoH隧道(如使用Iodine工具生成的流量)时尤为有效,但对新型恶意模式的适应性需进一步验证。

2. 机器学习方法

机器学习方法因其强大的模式识别能力,在DoH检测中应用广泛,涵盖监督学习、无监督学习及深度学习技术。

  • Detection of DoH Tunnels using Time-series Classification of Encrypted Traffic
    该论文提出了一种两阶段时间序列分类方法:第一阶段区分DoH与非DoH流量,第二阶段进一步分类良性与恶意DoH流量。研究使用时间序列分类器(如基于动态时间规整的k-NN),结合特征(如流量方向和时间间隔序列),在CIRA-CIC-DoHBrw-2020数据集上取得了约93%的准确率。其优势在于能捕获流量的时间动态特性,但计算复杂度较高。
  • Detecting Malicious Use of DoH Tunnels Using Statistical Traffic Analysis
    该研究结合统计分析和机器学习,提取了包括包大小统计、流量速率在内的多维度特征,使用随机森林(RF)模型进行分类,F1分数达到0.91。研究指出,特征选择对减少误报至关重要,尤其是在处理高噪声环境时。
  • Detection of DoH Traffic Tunnels Using Deep Learning for Encrypted Traffic Classification
    该研究采用了深度学习方法,结合随机森林和长短期记忆网络(LSTM),在加密流量分类中实现了95%以上的准确率。LSTM尤其擅长处理时间序列数据,能有效识别恶意DoH隧道的隐藏模式,但训练时间和资源需求较高。

常用算法包括随机森林(RF)、支持向量机(SVM)、逻辑回归(LR)和深度神经网络(DNN)。研究表明,深度学习在大数据集上表现优异,而传统机器学习(如RF)在中小规模数据集上更具实用性。

数据集详情

CIRA-CIC-DoHBrw-2020是目前最知名的公开数据集,由加拿大网络安全研究所(CIC)开发,广泛用于DoH恶意流量检测研究。它包含约95万条流量样本,涵盖非DoH、良性DoH和恶意DoH三类,可通过Canadian Institute for Cybersecurity下载。以下是其详细描述:

方面详情
数据集名称CIRA-CIC-DoHBrw-2020
目标提供数据集以分析、测试和评估DoH流量在隐蔽通道和隧道中的表现,使用两层方法分类和表征流量。
捕获的流量类型非DoH(约40万条)、良性DoH(约30万条)、恶意DoH(约25万条)
生成方法- 非DoH:访问Alexa前10,000个网站生成HTTPS流量。
- 良性DoH:使用Mozilla Firefox和Google Chrome与公共DoH服务器交互。
- 恶意DoH:使用DNS隧道工具(dns2tcp、DNSCat2、Iodine)模拟C2通信。
使用的浏览器/工具Google Chrome、Mozilla Firefox、dns2tcp、DNSCat2、Iodine
DoH服务器AdGuard、Cloudflare、Google DNS、Quad9
数据包簇定义为同一方向的连续数据包,使用0.5秒阈值超时组合数据包以降低维度。
基础设施10个客户端服务器模拟,连接至C2服务器(扮演DNS名字服务器),流量通过tcpdump捕获。
开发的工具- DoHLyzer:基于Scapy的Python脚本,用于流量生成和分析。
- DoH Data Collector:模拟DoH隧道场景并捕获HTTPS流量。
模拟参数- 传输率:100 B/s至1100 B/s随机分布。
- 持续时间:每个会话5-15分钟。
DoH服务器目标IP1.1.1.1, 8.8.4.4, 8.8.8.8, 9.9.9.9, 9.9.9.10, 9.9.9.11, 176.103.130.131, 176.103.130.130, 149.112.112.10, 149.112.112.112, 104.16.248.249, 104.16.249.249
源IP- Google Chrome:192.168.20.191
- Mozilla Firefox:192.168.20.111-113
- DoH隧道:192.168.20.144, 192.168.20.204-212
特征提取使用DoHMeter(GitHub),提取28个统计和时间序列特征(如包大小均值、方差、熵值),输出为CSV。
使用方式可下载CSV用于AI分析,或使用原始PCAP文件自定义特征提取,再应用数据挖掘技术。
许可和引用需引用DoHMeter及论文:Mohammadreza MontazeriShatoori等,“DoH流量检测”,IEEE CNS 2020。

开源代码与工具

DoHLyzer是CIRA-CIC-DoHBrw-2020数据集的配套开源工具,托管于GitHub。其主要模块包括:

  • Meter模块:提取流量统计特征(如包大小分布、时间间隔序列)。
  • Analyzer模块:支持流量分析和可视化(如生成流量模式图)。
  • 技术细节:基于Scapy开发,支持Python 3.x,依赖requirements.txt中的包(如pandas、numpy)。

DoHLyzer采用非SPDX许可,允许免费使用、修改和分发,但需保留版权声明。该工具自2020年以来未活跃更新,但功能仍适用于当前研究需求。其可视化功能对理解流量模式尤为有用。

相关论文与研究

以下是关键论文,提供了方法和数据集的详细信息:

  1. Real time detection of malicious DoH traffic using statistical analysis
    提出实时系统,通过统计分析DoH流量参数(如包大小和时间间隔的统计分布),实现约90%的分类准确率,适用于低资源环境。
  2. Detection of DoH Tunnels using Time-series Classification of Encrypted Traffic
    采用两阶段时间序列分类,准确率达93%,强调时间动态特征的重要性。
  3. Detecting Malicious Use of DoH Tunnels Using Statistical Traffic Analysis
    结合统计分析和随机森林,F1分数0.91,突出特征选择的有效性。
  4. Detection of DoH Traffic Tunnels Using Deep Learning for Encrypted Traffic Classification
    使用LSTM和随机森林,准确率超95%,适合大数据量场景。
  5. A Lightweight Double-Stage Scheme to Identify Malicious DNS over HTTPS Traffic
    提出轻量级双阶段方案,使用决策树和RF,准确率约94%,计算开销低。

CIRA-CIC-DoHBrw-2020数据集在上述研究中被广泛验证,证明其代表性和实用性。

挑战与未来方向

DoH恶意流量检测面临以下挑战:

  1. 恶意技术演变:攻击者不断改进规避技术(如伪装成正常流量),现有模型需持续更新。
  2. 实时检测需求:高吞吐量网络要求低延迟检测方法,当前方案多未完全优化。
  3. 数据集时效性:CIRA-CIC-DoHBrw-2020基于2020年数据,未涵盖最新DoH威胁。
  4. 解释性不足:机器学习模型(如DNN)常被视为黑盒,难以解释分类依据。
  5. 隐私与安全平衡:检测需避免侵犯用户隐私,同时有效识别恶意行为。

未来方向包括:

  • 实时检测优化:开发轻量级模型,结合边缘计算提升效率。
  • 数据集更新:定期收集新流量数据,覆盖新型恶意模式。
  • 解释性AI:引入SHAP或LIME等工具,增强模型透明度。
  • 多模态融合:结合统计分析和深度学习,提升检测鲁棒性。

结论

CIRA-CIC-DoHBrw-2020是目前最全面的DoH恶意流量检测数据集,DoHLyzer为其提供了强大支持。统计分析和机器学习方法各有优势,前者适合实时场景,后者在复杂模式识别中表现出色。未来研究应聚焦实时性、数据集更新和隐私保护,以应对不断演变的威胁。

关键引用