- 构建大型银行开放平台系统智能运维
- 徐丽俊
- 4153字
- 2021-03-26 15:23:46
前言
我国银行业信息化建设在过去几十年中取得了巨大的成绩。开放平台系统作为信息化的基础性设施,因其具有开发周期短、架构灵活易扩展、技术更新快、性价比高等优点,在银行业中得到广泛应用,数量规模不断壮大。随着大型商业银行全国数据大集中的完成,大型开放平台的运维面临着需求多样化、对象复杂化、模式集中化、风险集中化的形势。一方面,随着互联网金融和大数据浪潮的兴起,开放平台技术不断更新,对系统运维管理提出了新的需求;另一方面,公众对金融服务的全天候需求与监管机构日益严格的监管要求,对银行业的业务连续性提出了更高要求。大型银行开放平台的运维工作面临着严峻挑战,如何科学、高效、智能地运维开放平台,满足内外部对业务连续性的要求,成为值得深入研究的课题。
由此,原中国银行业监督管理委员会(以下简称“银监会”)根据《银行业信息科技风险管理课题研究管理办法》和《中国银监会办公厅关于银行业信息科技风险管理客体研究立项事宜的通知》,要求五大国有银行及部分股份制商业银行立项并开展相关课题研究,银监会高层指导委员会办公室联合北京银监局共同开展严格的课题验收工作。
本书的研究秉承银监会信息科技风险管理课题的指导思想开展工作,结合开放平台系统运维特点,分析了大型银行开放平台运维面临的六大挑战:交易量增长快、系统异构性强、监控工具割裂、运维自动化不够、技术演进快和监管要求严。由于系统的高可用和业务连续性是衡量运维质量的重要标准,本书通过系统运维方法和智能技术革新的研究,提出了开放平台基础架构的高可用建设思路。在此基础上,梳理了开放平台的运维对象及其特点,明确了运维体系的设计目标、原则与建设内容,设计了符合大型银行特点的运维体系整体架构,包括开放平台治理模型、应急管理体系和风险防控体系等。
特别是在应急管理体系设计中,创新地依据管理学理论和系统工程理论,同时基于应急管理的多主体理论、信息多向交叉沟通机制和信息资源管理理论,统筹规划、综合协调多部门配合与冲突解决机制,建立了智能应急风险管理的关键要素分析智能模型。风险应急事件一般可分为潜伏期和发生期两个时期,相应的,将应急风险管理划分为应急潜态和应急显态两个过程。应急风险管理模型有应急准备、监测预警、应急响应和善后处置四大基本功能,分别体现在各个管理过程中。以事前应急事件风险评估为基础,建立完善的综合应急预案,通过应急事件的预测预警模型实现应急管理快速响应;通过生产运维视图的建立实现应急事件快速精确定位;进一步利用辅助决策和全局资源调度,实现应急恢复等快速处置;同时引入应急评估方法全面评价应急管理绩效,明确奖惩措施,达到总结回顾和提升的目的,实现风险管理自动化、智能化。本书的研究荣获银行业科技风险管理课题三类成果奖。
本书是基于大型商业银行总行开放平台系统的运维实际,通过理论化的运维体系构建指导实际运维工作。目前,提出的相关运维理念和运维成果已经应用于实际工作,取得了较好的成效,主要应用成果包括以下四个方面。
(一)开放平台高可用基础架构的建设推广
为有效保证重要业务系统的高可用性,对企业级统一架构建设思路,运维团队从两方面着手落实。一方面对新投产系统均按照高可用基础架构建设,另一方面对已有的重要系统制订高可用改造实施计划,先后完成对综合应用系统中间层(ABIS中间层)、贷记卡前置系统、银联前置系统、第三方存管和投资业务平台等系统的基础架构改造。
以ABIS中间层为例,总行每笔主机业务均需通过ABIS中间层统一接入主机系统处理。随着各类渠道业务的急剧发展,总行ABIS中间层业务量最高峰达到7100万,巨大的交易量给系统带来很大压力,同时中间层业务关联系统超过60个,一旦中间层系统异常,业务影响范围广泛,异常处置难度大。面对这种情况,运维团队对原有系统进行高可用架构改造。首先硬件层面上实现多份冗余配置,特别在存储层面采用基于操作系统逻辑卷镜像的高可用架构,使单台存储故障时对业务透明。此外,协调软件开发部门改造应用中的单点设计,在中间层基础架构中引入了硬件负载均衡技术,采用对等式冗余设计,布置多套中间层应用,形成应用与数据库集群,提升系统处理能力和整体的高可用性。改造后的ABIS中间层运行平稳,系统标准可用率超过99.999%。
目前,银行开放平台运维团队在基础架构建设中充分运用负载均衡技术、应用服务器集群技术、虚拟化技术、存储高可用技术及冗余技术等主要高可用技术,完整覆盖了系统架构中的各个层次,包括系统接入层、应用服务器层、数据库服务器层及存储层等,有效降低了由于单个设备可靠性低对系统服务连续性的影响。本研究成果目前已推广应用到某大型银行全行36家分行,取得了实际的经济效益。
(二)自主建设开放平台生产集成管理系统
早期采用的监控管理工具包括BMC集中监控系统、AME前置交易监控系统、MyAME中间件系统监控软件、NBU集中备份监控软件,这些工具功能单一,缺乏整合,信息无法共享,同时运维人员面对成千上万条告警信息缺乏有效的事件监控和诊断工具。这些不仅增加了运维成本和难度,而且无法保证快速有效的处置问题。
根据“快速响应、快速定位、快速处置”的运维理念,将开放平台治理模型的研究成果与银行总行开放平台的运维实际相结合,运维团队自主开发了开放平台生产集成管理系统(简称OpenIMIS),同时根据开放系统运维出现的新情况,不断开发新功能,并集成到OpenIMIS中,从整体上实现了开放平台运维队伍专业化、运维工作流程化、运维手段自动化,推动运维工作从被动运维向主动服务的根本转变。
(三)电子银行系统的运维实践
电子银行系统部署于开放平台上,并直接面向客户提供基本金融服务,是对实时性、连续性和稳定性要求最高的系统之一。同时电子银行系统应用模块集中,架构庞大复杂,业务系统逻辑关联紧密,而开发和运维人员分处北京、上海两地,信息共享和人员协调的时空成本较高,客观上给运维工作带来更多困难。运维团队借鉴本书研究成果的相关理念,构建了完善的运维体系,很好地支撑了电子银行系统年均40%的业务增长速度。
首先架构上保证了高可用性,电子银行包括个人网银、企业网银、电子商务、手机银行、电话银行、客户服务六大类电子渠道类业务。每类业务对应的各子系统均采取统一框架开发,配置统一的基础环境,以提高整个电子银行系统的可扩展性和高可用性。除了满足系统横向扩展的要求,还为新的子系统保留扩展接口。交易均通过电子银行的总线服务处理发送到连接核心系统的各类网关系统,各类应用根据各自需要扩展前端应用服务器和基础环境。
其次,运维工作中以“主动运维”为指导方针。一是从应用系统投产立项开始,对架构设计和资源管理提出运维方面的建议。二是借助自主研发的集成管理平台,坚持全面的统一监控,对监控指标进行周期性统计,阶段性开展容量数据采集、数据分析、评估建模、预测及优化。三是标准化日常运维操作,及时规避技术风险和业务风险,主动识别风险和发现问题。四是在问题解决、日常变更和事件处理上遵循统一流程标准,采取精细化管理,统一运维视图,加强运维经验的知识积累,坚持重点问题分析与趋势分析,推进应用优化与架构整合。五是坚持以安全生产为第一要务,多举措落实“快速响应、快速定位、快速处置”的应急管理要求,如加强值班管理、优化监控质量,建立统一的运维视图,建立应急预案并开展应急演练等,整合各方运维力量,及时响应、科学处置,提升突发事件的处置效率。
最后,加强电子银行的风险防控。一方面,技术层面上,采取通过第三方对电子银行系统进行安全评估的方式及通过专业防攻击工具,周期性对电子银行系统的运维提醒进行考察,以针对性消除薄弱环节,并周期性优化方案,对体系进行加固。另一方面,加强风险防控管理,针对新出现的病毒和补丁更新,建立定期更新制度。加强访问控制和密码管理,实行操作系统和数据库管理员的权限分离,对数据库的访问权限进行控制。对应用系统用户访问数据库采取最小权限原则。由于电子银行直接面向客户,且依托互联网,在安全上要求较高。在安全技术方面,通过完善的安全体系(包括CA系统、证书认证系统、动态口令卡系统等)保障客户端安全,并采用符合人民银行安全规范标准的专用安全设备构成安全体系,系统架构的网络安全层层递进以保障网络通信安全。
(四)全面提升开放平台系统的运维质量
在开放平台运维实践中,银行总行数据中心开放平台全面推进生产运行的标准化、规范化和精细化。开放平台的运维工作全面通过了英国标准协会BSI的ISO/IEC 20000-1:2005标准认证和ISCCC 27001:2005信息安全管理体系认证。
通过运维体系建设有效提升了开放平台运维效率和运维质量,逐步完成从被动运维到主动运维的转变。目前运维团队不足50人,运维的计算机数量超过3000台套,并且每年新投产项目增加迅速,开放平台系统数量年增长率超过30%,而重要系统的标准可用率已达到99.98%。
日常运维中,变更总量不断增加,变更成功率逐年攀升。开放平台变更数量年增长率超过45%,而变更成功率已达到100%。变更量的增加,一方面是因为系统数量的增加,另一方面则是主动运维导致的结果,主动运维通过变更来达到系统优化的目的,完善的变更流程则保证了变更的成功率。
围绕“三快”应急管理实践,运维团队梳理了应急场景并建立相应的应急预案,根据应用系统特性建立各系统的运维视图,每年应急场景演练覆盖率为70%,大幅缩短了应急情况下人员和资源协调的时间,提高了应急效率,应急时间平均缩短30%~50%。在事件的处理上,事件响应率和解决率不断提升,开放平台的事件响应率已达99.39%,事件的解决率已达100%。可用性方面,以电子银行系统为例,系统可用性不断提高。一方面得益于基础架构、开放平台治理优化及完善,另一方面通过应急管理体系的落地实施,应急事件的处理时间有效缩短。
构建全面的运维体系为运维工作长期发展打下扎实的基础,并从业务需求视角进行IT风险管理。通过技术和管理两个方面防范操作风险,技术上应用安全审计平台加强用户痕迹管理,管理上职责和权限分离,使信息内部操作风险控制得到全面加强。生产运行标准化、规范化程度稳步提升,生产运行质量和服务效率进一步提高,逐步形成了符合银行数据中心管理目标的IT服务管理体系。
在互联网金融和大数据背景下,银行业在服务创新、竞争手段和经营模式上将出现巨大变化,大型银行开放平台的基础性支撑作用将得到进一步的凸显,科学智能的开放平台运维体系必将发挥更大作用。