序

祝贺你选择本书。你正在为自己成长为一名网络安全专家准备必需的技能。在本书中，你不仅会读到将数据科学应用于恶意软件分析的精彩介绍，还有你需要熟练掌握的必要技能和工具。

目前网络安全领域的工作岗位远远多于合格的人选，所以好消息是网络安全还是一个适合涉足的领域。坏消息是要保持最新状态所需的技能在快速变化。通常情况下，需求是发明的动力。随着对熟练网络安全专业人士的需求远远超过目前所能供应的，数据科学算法正通过提供有关网络威胁的新见解和预测来填补这一鸿沟。随着数据科学越来越多地被用于在TB级数据中发现威胁模式，传统的监控网络数据模型正在迅速过时。值得庆幸的是，监控报警屏幕与监控停车场的视频监控系统一样令人兴奋。

那么，数据科学究竟是什么？它如何应用于安全？正如你将在本书前言中看到的，应用于安全领域的数据科学是使用机器学习、数据挖掘和数据可视化等技术来检测发现网络威胁的艺术和科学。虽然你会发现很多来自市场驱动的关于机器学习和人工智能的夸大其词，但事实上，这些技术确实已经在当前的网络安全产品中得到了很好的应用。

例如，在当前恶意软件检测的场景中，无论是恶意软件的制作规模还是攻击者在修改恶意软件特征方面的成本，都使得基于特征的恶意软件检测方法已经过时了。相反，反病毒公司现在正在训练神经网络或其他类型的机器学习算法，使用庞大的恶意软件数据集来让这些模型和算法学习它们的特征，这样就可以在不必天天更新模型算法的情况下实现新型恶意软件变种的检测。通过结合基于特征检测和机器学习检测两方面的技术方法，就可以同时覆盖已知和未知恶意软件的检测范围。本书的两位作者Josh和Hillary都是这方面的专家，他们都有丰富的经验。

但是，恶意软件检测只是数据科学的一个用例。事实上，当我们要在网络空间中发现威胁时，老练的攻击者通常是不会遗留下可执行程序文件的。相反，他们会利用已有的软件进行初始访问，通过漏洞利用获得的用户权限，然后使用系统工具从一台机器跳转到下一台机器。从攻击的角度来看，这种方法不会留下反病毒软件能检测到的恶意软件等工具。但是，一个好的终端日志系统或终端检测和响应（EDR）系统会捕获系统级行为日志并将日志发送到云端，分析师可以从云端尝试拼接还原入侵者的数字足迹。这种需要梳理海量数据流并不断寻找入侵模式的过程是非常适合使用数据科学来解决的问题，特别是使用统计算法的数据挖掘技术和数据可视化技术来实现。未来你可以看到越来越多的安全运营中心（SOC）采用数据挖掘和人工智能技术。这确实是剖析海量系统事件数据集来识别实际攻击的唯一方法。

网络安全正在经历技术和运营的巨大转变，而数据科学正在引领这个转变。我们很幸运，有像Joshua Saxe和Hillary Sanders这样的专家，他们不仅与我们分享他们的专业知识，并且以这样一种引人入胜的、易于理解的方式进行分享。这是你了解他们知识经验的机会，同时也是将这些知识应用到自身工作中的机会，这样你就可以领先于技术的变革和那些你有责任打败的攻击者。

Anup K. Ghosh博士，Invincea公司创始人

于美国华盛顿特区