译者序

为什么要翻译Malware Data Science这本书?

在读完本书的英文版之后,我这么问自己,是什么驱使我翻译了这本书呢?总结起来有以下三个方面的原因:

首先,这本书的内容同时覆盖恶意软件和数据科学这两个方面,主题非常新颖,目前国内还没有出版过这两方面相结合的技术书籍。因此,我认为这本书有着很大的参考价值,将它翻译成中文,可以帮助国内读者系统、全面地学习如何利用数据科学的方法来分析恶意软件。

其次,这本书的两位作者都是在一线从事恶意软件数据分析工作的数据科学家,书中的内容是两位作者根据他们日常的实践工作总结出来的,其中全面介绍了恶意软件的动静态分析方法,对恶意软件之间进行关联分析的可视化方法,以及利用机器学习和深度学习方法构建实际的恶意软件检测器等内容。全书既有关于恶意软件的理论知识,也有结合丰富实际案例的实践内容,我读后收获颇丰。

最后,我所从事的就是恶意软件的治理工作,在恶意软件的分析工作方面也有多年的实践经验,对这个领域非常熟悉,在翻译原书的过程中能较为准确地把握专业内容的中文表述,希望能够通过翻译这本书为国内从事恶意软件治理工作的同行提供有益的参考。

目前,恶意软件的治理工作面临巨大的挑战,互联网上每年出现在PC端的恶意软件有上千万个,移动端的恶意软件也有数百万个,并且还在继续快速增长。如何对数量庞大的恶意软件进行分析,提取关键信息,确定恶意软件之间的关联关系,最终梳理出攻击团伙的线索,是恶意软件治理的从业者需要思索并试图解决的难题。

近年来,随着互联网上数据规模的急速增长,机器学习、深度学习等数据科学技术在实践中得到了迅猛发展,出现了TensorFlow、Keras、PyTorch等数据科学实用工具,大大降低了在实际工作中应用数据科学技术的门槛。这使得应用数据科学技术成为大规模恶意软件分析的一条可行途径。

然而,在恶意软件分析这个专业性很强的领域应用数据科学绝非易事。如何构造适合于恶意软件的特征空间?如何建立恶意软件分析所使用的数学模型?如何对数据科学方法的作用进行评价?在应用数据科学技术对恶意软件进行分析时,这些都是需要认真考虑的优化问题,我在解决这些问题的过程中就走过一些弯路。而这些问题的答案很多都可以在这本书中找到,本书能够帮助你搭建知识框架,起到入门作用。

未来,相信在更多的专业领域都会应用数据科学技术。回想起我的模式识别课程老师曾说过,万物皆可分类,通过在事物之间寻找差异性、总结差异性、分解差异性,就可以探究事物的本质。借助数字化的处理,我们可以通过机器完成分类,通过不断的训练来优化模型,提高分类的准确性,这是非常有趣的过程,希望这本书能够激发出你的灵感。

由于知识、能力、时间有限,本书的翻译难免会有疏漏和不合理的地方,欢迎读者批评指正,也希望同行能给予宝贵的建议。如果你有任何疑问或者批评建议,可以发送邮件到malwr_data_science@qq.com邮箱给我们反馈。

在本书的翻译过程中,得到了机械工业出版社电工电子分社的张俊红副社长、机械工业出版社华章公司的王春华老师和梁华杰老师的大力支持,感谢他们的指导和审校工作,他们的专业性使得本书的质量得以保证。感谢我的领导严寒冰主任支持我开展基于机器学习的恶意软件检测工作,并与我一同完成了本书的翻译工作。感谢我的家人让我有精力在业余时间进行翻译工作。最后,谨以此书献给我刚满周岁的女儿文新,希望她“读万卷书,行万里路”,在成长的过程中不断丰富生命的模型,健康快乐地成长!

何能强

2019年10月