主機(jī)監(jiān)控系統(tǒng)在中型銀行的實(shí)踐

時(shí)間:2022-08-18 09:31:14

導(dǎo)語(yǔ):主機(jī)監(jiān)控系統(tǒng)在中型銀行的實(shí)踐一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

主機(jī)監(jiān)控系統(tǒng)在中型銀行的實(shí)踐

摘要:本文首選介紹了IBM大型主機(jī)和IBMTivoli系列產(chǎn)品,然后以南方某中型銀行為例,通過(guò)對(duì)Tivoli相關(guān)產(chǎn)品進(jìn)行整合利用,探索并建設(shè)了一套包含告警收集與豐富、事件生成與處理、性能與可用性基線管理、大屏展示等功能的主機(jī)監(jiān)控系統(tǒng)。利用主機(jī)監(jiān)控系統(tǒng),南方某中型銀行完善了主機(jī)資源性能監(jiān)控,實(shí)現(xiàn)了IT運(yùn)維管理與業(yè)務(wù)發(fā)展的融合,提高了數(shù)據(jù)中心運(yùn)維自動(dòng)化管理水平。

關(guān)鍵詞:銀行;大型機(jī);Tivoli;監(jiān)控

一、相關(guān)技術(shù)概述

(一)IBM大型主機(jī)

1964年,IBM研制出第一代商用大型計(jì)算機(jī)服務(wù)器,經(jīng)過(guò)50多年的不斷發(fā)展,其穩(wěn)定性和安全性在所有計(jì)算機(jī)系統(tǒng)中首屈一指。大型主機(jī)擅長(zhǎng)處理海量的并發(fā)任務(wù),穩(wěn)定性超過(guò)其他類型的服務(wù)器,I/O能力強(qiáng),因此特別適合運(yùn)行銀行的核心系統(tǒng)。從20世紀(jì)80年代開(kāi)始,中國(guó)的國(guó)有銀行開(kāi)始使用IBM大型主機(jī)。目前,國(guó)有五大行(工商、農(nóng)行、中行、建行、交行)和部分銀行類金融機(jī)構(gòu)(江蘇農(nóng)信、四川農(nóng)信)的核心系統(tǒng)運(yùn)行在大型主機(jī)平臺(tái)上。Z/OS,CICS,DB2分別是大型主機(jī)上專用的操作系統(tǒng)、交易中間件和數(shù)據(jù)庫(kù)軟件。

(二)IBMTivoli產(chǎn)品

Tivoli是IBM為大中型企業(yè)專門設(shè)計(jì)的一套完善的產(chǎn)品家族,擁有完善的產(chǎn)品線,可用于管理網(wǎng)絡(luò)和計(jì)算機(jī)的各種產(chǎn)品,為各種IT系統(tǒng)和平臺(tái)提供管理功能。與監(jiān)控相關(guān)的Tivoli系列軟件包括以下幾種。1.Omegamon。Omegamon對(duì)大型機(jī)的Z/OS操作系統(tǒng)、CICS中間件、DB2數(shù)據(jù)庫(kù)等子系統(tǒng)進(jìn)行性能監(jiān)測(cè)和報(bào)表分析,可實(shí)時(shí)查看交易的運(yùn)行情況。2.Monitoring。Monitoring(簡(jiǎn)稱ITM)通過(guò)程序自動(dòng)監(jiān)視重要系統(tǒng)資源,檢測(cè)運(yùn)行故障和潛在的問(wèn)題,同時(shí)自動(dòng)觸發(fā)對(duì)事件的操作。3.OMNIbus。OMNIbus功能是將各子系統(tǒng)和監(jiān)控管理平臺(tái)收集到信息進(jìn)行匯總、判斷、關(guān)聯(lián)、壓縮、處理等操作,再將其發(fā)送給監(jiān)控人員和事件處理人員。4.WebTop。WebTop是Tivoli用于給用戶提供Web視圖的軟件模塊,可以根據(jù)用戶需求進(jìn)行定制,通過(guò)一張監(jiān)控視圖就可以實(shí)時(shí)了解所有相關(guān)資源當(dāng)前的狀態(tài)和變化,并且可以直接查看事件的具體信息和性能等詳細(xì)指標(biāo)。5.Impact。Impact是用來(lái)進(jìn)行事件豐富的工具模塊,可將告警事件與外部數(shù)據(jù)庫(kù)中的信息進(jìn)行比對(duì),將事件相關(guān)的外部信息填充至告警信息中,從而使維護(hù)人員準(zhǔn)確把握某一事件的真正原因及可能造成的后果。

二、需求分析

由于銀行的核心系統(tǒng)承載了所有重要業(yè)務(wù)的記賬功能,因此實(shí)現(xiàn)對(duì)大型主機(jī)運(yùn)行狀態(tài)的實(shí)時(shí)監(jiān)控至關(guān)重要。以南方某中型銀行為例。該銀行核心系統(tǒng)運(yùn)行在IBM大型主機(jī)上,希望通過(guò)一個(gè)主機(jī)監(jiān)控系統(tǒng)對(duì)核心系統(tǒng)所有指標(biāo)進(jìn)行全方位實(shí)時(shí)監(jiān)控,并幫助技術(shù)人員多層次、多角度地了解主機(jī)系統(tǒng)的運(yùn)行狀況、趨勢(shì)走向。經(jīng)需求分析,系統(tǒng)主要操作人員涉及監(jiān)控平臺(tái)管理員、主機(jī)系統(tǒng)及數(shù)據(jù)庫(kù)維護(hù)人員、監(jiān)控平臺(tái)操作員、ECC操作員,最終確定的系統(tǒng)總體用例如圖1所示。圖1 系統(tǒng)總體用例集中監(jiān)控系統(tǒng)主要包括系統(tǒng)管理、事件管理、性能管理、報(bào)表管理、可用性管理、統(tǒng)一門戶等用例,每個(gè)用例都有不同的功能。下文將以事件管理為例進(jìn)行詳細(xì)介紹。事件管理主要實(shí)現(xiàn)監(jiān)控系統(tǒng)管理員、ECC操作員、監(jiān)控平臺(tái)操作員對(duì)告警事件的配置、處置、轉(zhuǎn)事件單等功能。具體需要實(shí)現(xiàn)的功能有以下幾種:重復(fù)告警過(guò)濾功能,通過(guò)設(shè)定濾除某些不重要的事件,避免事件風(fēng)暴的產(chǎn)生,減輕技術(shù)人員的處理工作量;告警關(guān)聯(lián)功能,通過(guò)設(shè)定特定相關(guān)事件的關(guān)聯(lián)性來(lái)幫助技術(shù)人員快速定位并解決問(wèn)題;告警自動(dòng)恢復(fù)功能,通過(guò)對(duì)可自動(dòng)處理的異常告警制定自動(dòng)化恢復(fù)策略,以縮短事件處理時(shí)間,規(guī)避人為失誤風(fēng)險(xiǎn);告警分類功能,根據(jù)事件的影響程度、類型、來(lái)源對(duì)事件進(jìn)行分類;告警豐富功能,將事件與其中文解釋建立關(guān)聯(lián),以及將事件與對(duì)應(yīng)的參考應(yīng)急處理資料建立關(guān)聯(lián),為技術(shù)人員提供參考,提高應(yīng)急處理的效率;告警監(jiān)控屏蔽功能,提供靈活的配置界面,實(shí)現(xiàn)在特殊條件(如正常停機(jī))下的事件監(jiān)控動(dòng)態(tài)屏蔽;告警嚴(yán)重等級(jí)自動(dòng)升級(jí)功能,實(shí)現(xiàn)事件響應(yīng)超長(zhǎng)條件下的嚴(yán)重等級(jí)自動(dòng)升級(jí)及相應(yīng)通知對(duì)象提升;事件通知功能,通過(guò)短信、電郵告警通知,使事件得到準(zhǔn)確的響應(yīng)和處理。監(jiān)控系統(tǒng)管理員制定監(jiān)控管理配置表,部門主管提出監(jiān)控目標(biāo)和具體指標(biāo)的初步需求,監(jiān)控管理員對(duì)需求進(jìn)行整理,ECC操作員提出視圖和工單轉(zhuǎn)發(fā)需求,監(jiān)控平臺(tái)操作員提出處理需求,部門主管提供告警接收人的信息,監(jiān)控系統(tǒng)管理員對(duì)所有需求進(jìn)行匯總,由主管審批后,即可按照需求對(duì)事件進(jìn)行處理。事件管理業(yè)務(wù)流程如圖2所示。

三、設(shè)計(jì)與實(shí)現(xiàn)

(一)系統(tǒng)拓?fù)湓O(shè)計(jì)

主機(jī)監(jiān)控系統(tǒng)主要集中部署在該銀行內(nèi)網(wǎng),可以通過(guò)銀行內(nèi)部網(wǎng)絡(luò)訪問(wèn),也可以通過(guò)互聯(lián)網(wǎng)訪問(wèn)。內(nèi)網(wǎng)環(huán)境主要部署事件告警服務(wù)器、ITM監(jiān)控服務(wù)器、可用性管理服務(wù)器、報(bào)表服務(wù)器、門戶服務(wù)器、認(rèn)證服務(wù)器以及數(shù)據(jù)庫(kù)服務(wù)器。同時(shí),事件告警服務(wù)器與短信服務(wù)平臺(tái)、流程平臺(tái)進(jìn)行網(wǎng)絡(luò)連通。所有服務(wù)器均采用負(fù)載均衡的高可用方式進(jìn)行部署。系統(tǒng)拓?fù)淙鐖D3所示.

(二)總體架構(gòu)設(shè)計(jì)

本系統(tǒng)主要包括管理資源層、管理工具層、管理分析層、統(tǒng)一展現(xiàn)層,系統(tǒng)架構(gòu)如圖4所示。1.主機(jī)管理資源層。即被監(jiān)控對(duì)象層,包括主機(jī)Omegamon監(jiān)控對(duì)象的操作系統(tǒng)Z/OS、數(shù)據(jù)庫(kù)DB2、中間件CICS等。2.管理工具層。即對(duì)管理資源層進(jìn)行監(jiān)控所需要的所有工具軟件,包括Omegamon主機(jī)實(shí)時(shí)監(jiān)控工具、RMFIII主機(jī)性能監(jiān)控工具、NetviewE/AS主機(jī)事件監(jiān)控工具、REXX自開(kāi)發(fā)主機(jī)健康檢查工具。3.管理分析層。根據(jù)管理工具層所提供的監(jiān)控?cái)?shù)據(jù),按照數(shù)據(jù)的來(lái)源以及屬性分別送入不同的分析模塊中進(jìn)行處理。告警分析和集中處理模塊完成對(duì)告警信息的收集、過(guò)濾、關(guān)聯(lián)、壓縮和豐富;可用性管理模塊提取主機(jī)端運(yùn)行狀態(tài)數(shù)據(jù),進(jìn)行主機(jī)健康狀態(tài)的處理和判斷。4.統(tǒng)一展現(xiàn)層。負(fù)責(zé)統(tǒng)一門戶的展示管理,將下層管理分析層準(zhǔn)備好的展示數(shù)據(jù)進(jìn)行統(tǒng)一展示管理。同時(shí),為管理員提供專門的維護(hù)界面以對(duì)整個(gè)監(jiān)控系統(tǒng)進(jìn)行客戶化和靈活的配置。

(三)功能模塊實(shí)現(xiàn)

在功能模塊的實(shí)現(xiàn)上,本文以告警分析與集中處理模塊為例進(jìn)行詳細(xì)說(shuō)明。告警分析與集中處理模塊通過(guò)告警接收器接收來(lái)自各類資源管理工具產(chǎn)生的告警事件。告警接收器提供對(duì)不同事件源的接收接口,用于接收主機(jī)端各類管理工具產(chǎn)生的異常事件告警,之后針對(duì)不同類型來(lái)源的告警事件采用不同的預(yù)處理規(guī)則進(jìn)行處理,之后進(jìn)入綜合處理。告警綜合處理功能包括豐富告警信息、關(guān)聯(lián)告警和分析告警根原因等,而完成這些功能將可能通過(guò)綜合數(shù)據(jù)服務(wù)與交互平臺(tái)來(lái)訪問(wèn)其他的各類數(shù)據(jù)源。這些行為包括根據(jù)配置庫(kù)的信息進(jìn)行告警豐富、根據(jù)配置庫(kù)關(guān)聯(lián)關(guān)系進(jìn)行告警信息的關(guān)聯(lián)、讀取知識(shí)庫(kù)信息獲取告警的解決方案等,并且通過(guò)數(shù)據(jù)交互接口實(shí)現(xiàn)告警事件與業(yè)務(wù)服務(wù)管理平臺(tái)的關(guān)聯(lián)。告警分析與集中處理模塊的詳細(xì)功能架構(gòu)如圖5所示。

四、功能測(cè)試

主機(jī)監(jiān)控系統(tǒng)是基于B/S結(jié)構(gòu)實(shí)現(xiàn)的,所有服務(wù)器均部署在x86虛擬化環(huán)境中,客戶端用戶使用瀏覽器訪問(wèn)服務(wù)器。測(cè)試服務(wù)器的硬件配置為IntelXeonE5-2650v4CPU4核、內(nèi)存32G、磁盤800G,操作系統(tǒng)為Suse12,應(yīng)用部署的中間件為WebSphere8.0,數(shù)據(jù)庫(kù)為DB2V10。在進(jìn)行測(cè)試用例設(shè)計(jì)時(shí),該銀行共編寫了32個(gè)測(cè)試用例,覆蓋了所有的功能需求,并于2020年5月至6月順利執(zhí)行通過(guò)了全部的測(cè)試用例,測(cè)試結(jié)果見(jiàn)表1所列。以大屏展示功能測(cè)試用例為例,測(cè)試結(jié)果展示的效果如圖6所示。

五、結(jié)束語(yǔ)

本文以南方某中型銀行為例,在前期進(jìn)行需求分析的基礎(chǔ)上,對(duì)市場(chǎng)上現(xiàn)有的Tivoli產(chǎn)品進(jìn)行整合利用,并設(shè)計(jì)出了一套功能豐富的主機(jī)監(jiān)控系統(tǒng)。利用主機(jī)監(jiān)控系統(tǒng),該銀行不僅可以對(duì)IBM大型主機(jī)的操作系統(tǒng)、中間件、數(shù)據(jù)庫(kù)等基礎(chǔ)軟件的技術(shù)指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控和異常告警,而且可以對(duì)運(yùn)行其上的銀行核心系統(tǒng)進(jìn)行每秒交易量、總交易量合計(jì)、交易響應(yīng)時(shí)間等業(yè)務(wù)指標(biāo)的實(shí)時(shí)集中展示,大大提高了銀行系統(tǒng)管理員的工作效率。

參考文獻(xiàn):

[1]楊光.大型機(jī)平臺(tái)個(gè)人貸款業(yè)務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2013.

[2]曾光.基于IBM主機(jī)的銀行系統(tǒng)解決方案[D].上海:同濟(jì)大學(xué),2008.

[3]袁春風(fēng),王帥.大學(xué)計(jì)算機(jī)專業(yè)教育應(yīng)重視“系統(tǒng)觀”培養(yǎng)[J].中國(guó)大學(xué)教學(xué),2013(12):41-46.

[4]薛寶明,苑華偉.主機(jī)在中型銀行的應(yīng)用實(shí)例、挑戰(zhàn)與解決方案[J].金融科技時(shí)代,2020(4):77-83.

[5]劉凱強(qiáng),呂遠(yuǎn)陽(yáng).淺談商業(yè)銀行系統(tǒng)高可用技術(shù)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù)與信息化,2017(9):57-59.

[6]黃強(qiáng).IT集中監(jiān)控系統(tǒng)告警關(guān)聯(lián)分析模型研究[J].科技尚品,2017(5):1-4.

作者:苑華偉 薛寶明 單位:江蘇省農(nóng)村信用社聯(lián)合社