您好,欢迎来到佳博论文网!

基于迁移学习的P2P流量识别研究

论文摘要

随着基于P2P技术的互联网应用的大规模发展和用户数量的激增,由于P2P技术对网络资源的消耗,数据传输网络在建设和维护上面临着越来越大的压力。如何管理好P2P应用,使之能够在现有网络资源下健康发展是国内外专家学者关注的热点问题。P2P流量识别是管理好P2P应用的基础,其研究一直没有中断过,目前主要的算法有基于端口的检测识别技术、基于内容的扫描识别技术,以及基于流量特征的识别技术,各项技术在一定程度上解决了P2P流量识别的问题,但都有各自的缺陷。机器学习算法是当今计算机领域的热门研究方向,机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。目前已有不少机器学习算法能够对P2P流量进行有效识别,但是都要基于大量的手工标记的训练样本,且这些样本在网络情况快速变化后难以重复利用。本论文在迁移学习这一全新的机器学习框架下,结合传统机器学习算法提出新的技术方案来解决P2P流量识别问题,这类新算法可以在少量手工标记样本的情况下获得较好的识别正确率。本论文的主要贡献和创新之包括以下三点:第一、对文本分类领域的基于自适应提升的迁移学习方法进行了研究,将其引入P2P流量识别领域,并提出了更注重实时性的改进算法。基于自适应提升的迁移学习是一种在文本分类领域中使用的迁移学习方法,本论文将其与P2P流量识别特点相结合,通过调整辅助数据的权重,使其更有针对性的迁移到源数据中,组成综合训练集对分类器进行训练,最终得到一个可靠的P2P识别器。在此基础上,本论文还通过使用基于迭代错误率的辅助数据动态裁剪技术,去除了与源数据相差过大的辅助数据,加快了迭代速度,减少了时间消耗。仿真实验证明改进后的算法更具有实时性和应用性。第二、将传统的K近邻法与迁移学习框架相结合,提出了一种基于K近邻的迁移学习方法,将其用于P2P流量识别领域并在复杂度方面该改进了算法。该算法利用K近邻法筛选辅助数据,去除与源数据相差较大的辅助数据,使与源数据更相似的辅助数据与源数据组成综合训练集,共同训练可靠的P2P流量识别分类器。在此基础上,本论文还通过奇异值分解进行预分组,减少了K近邻法部分的计算量,仿真实验也证实了该算法的有效性,以及改进算法可以增强整个算法的实时性。第三、建立了一套简易的基于Java和Web的P2P流量识别系统,方便算法和数据集的检验和交流。该系统在上述两种算法的基础上,以Web为界面,Java语言为核心实现了这两种算法,并将其公开,使用者可以上传自己的数据集加以识别或下载他人的数据集,为P2P流量识别算法的交流提供了一个有效的平台。