4.8 基线思维及事件管理工具的使用

CSO在建立网络安全事件响应机制后,可能会发现网络安全事件并不总是那么可控,经常出现的一些未知网络安全故障会给CSO的工作带来挑战。

4.8.1 基线思维

因为网络中的硬件和软件是复杂和动态的,有时网络安全事件可能令人迷惑或无法解释。例如在一个有很多主机的网络中,这些主机不断地被“踢”下网,而没有任何明显的原因,此时如果采用既定的故障检修方式来排查,在没有忽略任何事件的情况下,可能仍发现不了故障点。然后你可能会着眼于主机和配线房之间,以及控制它们连接的集线器和交换机之间的连接问题,甚至任何可能的终端计算机故障,直到发现在这个令牌网络中有一个设备正发生故障,并且正在发送影响其他主机连接网络的通信流量。

在这个例子中可以看到,网络中的每一个设备、硬件、软件其实都是有运行标准的,也就是可用性水平,如在线时间、在一个特定时段能够处理的请求数量、带宽的使用性能、计数器的使用要求等。假如所有的组件都处在它们各自正常的可用性水平之间,那么系统就能正常运转,而如果其中某一个或几个组件的可用性水平出现问题,则整个系统也就出现了问题,网络安全事件也就发生了。举例来说,假如一个设备通常每分钟接受大约300个请求,但是突然它每分钟只能接受3个请求了,那么你就需要关注这种偏差了,这个设备的这种偏差可能最终导致整个系统出现故障或代表其受到DoS攻击。

对于CSO来说,假如在系统正常运行时,记录与系统相关的所有网络、设备、硬件、软件等组件的运行状态,作为基线,然后监控每一个组件运行的情况,当某一个或多个组件出现偏离基线的情况时进行干预和处置,是否就可以更及时地响应网络安全事件,从而避免网络安全事件的发生呢?这当然是可行的,这也就是基线思维的原理。

4.8.2 安全信息和事件管理系统

CSO需要掌握基线思维,因为这种思维可以让组织的网络安全管理上一个台阶。当然,要实现基线思维的管控效果离不开管理工具的使用。在网络安全事件的管理领域中,安全信息和事件管理(Security Information and Event Management,SIEM)系统是常用的管理工具。

SIEM技术已存在了十年以上,最早是从日志管理发展起来的。它将安全事件管理(SEM,即实时分析日志和事件数据以提供威胁监视、事件关联和事件响应)与安全信息管理(SIM,即收集、分析并报告日志数据)结合了起来。

SIEM系统会收集并聚合公司所有技术基础设施所产生的日志数据,数据来源包括从主机系统及应用,到防火墙及杀毒软件过滤器之类的网络和安全设备。收集到数据后,SIEM系统就开始识别并分类事件,并对事件进行分析。该系统的主要目标有两个:

1)产出安全相关事件的报告,比如成功/失败的登录、恶意软件活动和其他可能的恶意活动。

2)如果分析表明某活动违反了预定义的基线,有潜在的安全问题,就发出警报。

如今,大型企业通常都将SIEM系统视为支撑安全运营中心(SOC)的基础。

安全运营中使用SIEM系统的背后有一个主要推动因素,即随着市场日志分析能力的不断提升,很多SIEM技术还引入了威胁情报,它不仅监视网络行为,还监测用户行为,可针对某动作是否为恶意活动给出更多情报。

SIEM系统主要被大型企业和上市公司采用,有些中型企业也用SIEM软件,但小公司基本不考虑。系统主要在公有云环境的一些中小企业通过软件即服务的方式从云外包供应商处获得SIEM。

鉴于流经SIEM系统的部分数据比较敏感,目前大型企业用户习惯在本地部署SIEM系统。不过,随着机器学习和人工智能在SIEM产品中的增多,SIEM提供商会拿出一个混合选项,即部分分析在云端执行。

通过使用SIEM系统,企业可以在网络安全事件萌芽阶段就发现并处置它。当然,使用时也需要注意SIEM系统存在的一些问题:

1)缺乏事件分析能力。SIEM产品的使用是要基于事件规则的,如果企业缺乏适合自身的事件发现规范,那么SIEM往往就不太好用,并且有效的事件发现规范是要不断维护的,缺乏相关能力的企业也无法用好SIEM。

2)存在误报率问题。不少企业在使用SIEM系统时,采用了不符合企业实际情况的默认规则,导致误报率高,而误报率高又致使维护人员工作量变大,工作效率下降。

3)数据质量问题。不少企业将内部设备的数据一股脑地输入SIEM系统,最后发现由于数据老旧或实时性不行,导致关联分析后错报和误报情况多,SIEM系统也就无法有效使用。因此,要使SIEM系统有效,首先要保证输入系统数据的质量。

假如企业无法保障应对上述这些问题的能力,那么不建议部署SIEM系统,建议先从基本的网络安全事件响应机制着手,打好基础。

4.8.3 安全编排和自动化响应系统

目前一般大中型企业都已经建立相对完善的网络安全事件响应指南,或通过SIEM系统可以快速发现潜在的网络安全事件。但是处置这些事件还是需要人工介入,后者主要是完成一些低级别或无关紧要的安全事件调查或处理。同时,由于内部员工存在流动性,新人进入岗位后往往不能及时上手,需要培养一段时间后才能达到老员工的水平。

有什么方式可以在发现中低级别的网络安全事件后,能够更快速地处置吗?在这样的背景下,安全编排和自动化响应(Security Orchestration, Automation and Response,SOAR)系统应运而生。SOAR是Gartner于2017年提出的概念,它可以解决以下三方面的问题。

1)编排。与过去相比,现在的网络安全事件响应过程涉及大量的系统,运维的复杂度也大大增加,事件的响应与处理需要面对各种各样复杂的操作。要满足这些需求,必然需要提供丰富的事件响应与处理编排能力,从而进行流程定制、流程执行、流程监控、结果的验证与评估、流程再造。

2)自动化。与过去相比,当前CSO在解决安全问题时所需要的数据、分析方法使其工作量和内容都大大增加。数据是海量数据,大量的数据需要使用自动化方式处理,这样既可以节省时间、人力和成本,也避免人在处理大量数据的过程中引入误差或出现失误。

3)合理的KPI评估体系。SOAR系统除了提供编排与自动化执行能力外,也需要对流程和自动化执行结果进行有效评估,需要提供合理的评估方法、可量化的评估指标,根据评估结果才可以进行流程再造、优化编排内容,从而使得整个网络安全事件响应过程的效率提升。

举个例子来说,前文设计了一些分场景的网络安全事件响应指南,在这些指南的具体操作中会涉及针对网络设备、服务器、安全设备、系统的操作指令。在执行这些指南时,所有的操作都是人工向系统输入指令。人工输入和执行指令本身需要一定的时间,同时在输入过程中还有可能出现输入错误或多次输入的情况,假如操作还涉及不同部门的不同岗位的协作,那么在两个岗位连接过程中也会浪费一些时间,这样就会导致最终的事件处理时间延长。而运行SOAR系统后,所有的指令都改为系统根据指南预先设定的脚本自动化执行,这样就可以大大节省其中人力的影响,加速事件处置的速度。

另外,所有操作都会被系统记录下来,这就便于评价事件处理KPI的变化。同时,相关数据再反馈到SIEM系统,还可以实现事件发现和处置的自动化闭环,提升网络安全事件实时响应的效果。