編者按:興業(yè)數(shù)金金融云在銀監(jiān)會的監(jiān)管和指導下已開展了十年的金融服務業(yè)務。通過四朵云為客戶及生態(tài)鏈提供全方位的解決方案,包括銀行云、非銀云、普惠云和數(shù)金云。其中,數(shù)金云是面向興業(yè)銀行集團內、外部客戶,提供金融級 IaaS平臺、金融級PaaS平臺、銀行級IaaS平臺,以及覆蓋金融全行業(yè)的端到端解決方案。目前,興業(yè)數(shù)金已累計服務超350家合作銀行,有400項從基礎設施到解決方案的服務品種,成為國內領先的銀行信息系統(tǒng)云服務平臺。那么,興業(yè)數(shù)金是如何解決金融云平臺的運維與合規(guī)難題,走向金融科技應用前列的呢?
實際上,興業(yè)銀行在金融科技的浪潮中主動擁抱新技術,領先完成了網(wǎng)絡和云平臺選型,邁出了數(shù)字化轉型的第一步。興業(yè)數(shù)金很快發(fā)現(xiàn)傳統(tǒng)的運維監(jiān)控方式已經(jīng)無法匹配云時代的技術架構。怎么辦?只能迎頭趕上,繼續(xù)創(chuàng)新,應對轉型后的新挑戰(zhàn)。
第一步 | 可視化打開虛擬網(wǎng)絡的“黑盒”
云計算、軟件定義網(wǎng)絡(SDN)等架構的引入為金融服務水平的進步奠定了基礎,卻也帶來了管理和運維上的挑戰(zhàn)——從前,服務器集群組成一個業(yè)務系統(tǒng),再配置交換機便完成了部署。這樣的架構使得出現(xiàn)問題時非常好定位。而如今,隨著多租戶環(huán)境中虛擬網(wǎng)絡流量的日益增長,租戶業(yè)務系統(tǒng)中應用和服務的調用關系越來越復雜,租戶內部以及租戶與租戶之間東西向的網(wǎng)絡鏈接和安全狀況卻是“黑盒子”。在實際操作中,業(yè)務部門報障后,云平臺的運維管理人員則需要對問題進行排查和定位,由于傳統(tǒng)物理網(wǎng)絡的監(jiān)控工具缺少對虛擬網(wǎng)絡流量數(shù)據(jù)監(jiān)測的能力,Overlay網(wǎng)絡內部一直處于“黑盒”狀態(tài),無法掌握東西向流量與租戶業(yè)務、虛擬機、虛擬網(wǎng)元之間的對應關系,整個業(yè)務鏈路究竟哪段出現(xiàn)了問題,讓運維人員難理頭緒。
興業(yè)數(shù)金的第一步,進行全網(wǎng)流量精準采集,使虛擬網(wǎng)絡全景可視化。首先數(shù)金云在同城雙數(shù)據(jù)中心部署一體化的虛擬網(wǎng)絡流量采集與分析平臺,通過對接現(xiàn)有OpenStack云平臺并自動化部署輕量級用戶態(tài)的采集器,完成大規(guī)模云網(wǎng)絡的全景圖繪制,該全景圖是解決網(wǎng)絡問題的總入口,通過對全景圖上異常流量的監(jiān)控和告警,云平臺的運維人員可第一時間發(fā)現(xiàn)網(wǎng)絡問題,然后進行端到端診斷,并進行分析和取證;對于業(yè)務層問題的診斷需求,可以使用分發(fā)功能將相關流量發(fā)給第三方工具進行分析。
第二步 | 回溯分析破解運維“迷局”
業(yè)務報障之后,運維團隊主動復現(xiàn)問題,本是很平常的操作,但在金融領域,復現(xiàn)業(yè)務系統(tǒng)出現(xiàn)的問題,存在很大用戶體驗風險。而且,運維人員排查過程中可能無法復現(xiàn)故障,問題難以根除。這樣的情況下,回溯分析就顯得十分必要了。
興業(yè)數(shù)金通過云網(wǎng)環(huán)境中基于流的多維度回溯分析,自定義流量關鍵字搜索,全景式重現(xiàn)指定時段相關網(wǎng)絡的流量特征,為取證、排障等應用場景提供原始數(shù)據(jù)的支撐。當運維人員排查問題時,可以以時間點為標簽輕松抓出與此相關的一切網(wǎng)絡信息,從而實現(xiàn)迅速發(fā)現(xiàn)問題并排查故障根源。
第三步 | 策略驗證確保安全合規(guī)的“金字招牌”
隨著互聯(lián)網(wǎng)金融的發(fā)展、業(yè)務上云的推進,國家的監(jiān)管力度也越來越大。不僅僅有《網(wǎng)絡安全法》的出臺,工信部、銀監(jiān)會也都推出了相應的部門法規(guī)。而這些政策縮緊反映在技術端,則表現(xiàn)為對基礎設施越來越嚴苛的要求,尤其是審計的要求。
此外,金融上云給技術帶來的新挑戰(zhàn)是,傳統(tǒng)環(huán)境下的策略在云端是否都需要一一跟隨。為求保險,運維人員不敢輕易刪除安全策略,只能在安全問題發(fā)生之后再去增補,導致安全策略愈積愈多。隨著上云業(yè)務的逐漸增多,安全策略的配置也愈發(fā)復雜。大量的新增安全策略和變動也增加了網(wǎng)絡設備的負擔,影響了網(wǎng)絡效率,最終降低業(yè)務的訪問質量。
興業(yè)數(shù)金從網(wǎng)絡流量的視角出發(fā),通過自動學習云環(huán)境中的網(wǎng)絡策略、采集并分析云環(huán)境中的網(wǎng)絡流量,協(xié)助運維人員設置安全白名單策略驗證,通過對比真實發(fā)生的流量是否違背技術人員編寫的網(wǎng)絡策略,從而觸發(fā)告警,以確保生產(chǎn)系統(tǒng)的安全可靠。并且可將舊平臺的策略直接導入在新的平臺上,同樣通過流量分析和白名單驗證,觀察是否存在安全風險。這樣,不斷驗證策略是否生效、是否足以表達用戶的安全意圖,從而保證網(wǎng)絡安全的萬無一失。
第四步 | 流量及性能量化做精細化運營的“小能手”
金融機構的互聯(lián)共享,帶來了金融科技新的想象空間。興業(yè)數(shù)金累計簽約客戶已經(jīng)超過360多家,而且數(shù)量仍在持續(xù)增加中,其中170多家的業(yè)務都托管在興業(yè)數(shù)金的云平臺上。在云平臺運營的初期,計費策略主要是按照租戶帶寬進行按月結算計費,但隨著租戶規(guī)模不斷擴大和金融業(yè)務的增長,對計費模式提出了新的需求。興業(yè)數(shù)金迫切需要解決的則是如何以云服務運營者的身份,通過精細化管理更好地為這些客戶提供靈活、個性化的服務。
數(shù)金云依托全網(wǎng)流量的細粒度采集能力,運營人員可以根據(jù)租戶需求自定義選擇任意日期范圍、不同時間粒度內指定資源所生成的流量生成報表。租戶通過個性化、詳實的數(shù)據(jù)可以更直觀的了解流量的使用情況。對平臺運營方來說可以及時回收虛擬機、帶寬等閑置資源,不但提高IT投資回報率也提高金融云整體服務水平。
興業(yè)數(shù)金點亮云網(wǎng)黑盒 實現(xiàn)云網(wǎng)絡精細化運營
經(jīng)過這四步的穩(wěn)扎穩(wěn)打,興業(yè)數(shù)金大幅提升了云網(wǎng)絡的運營效率,排障時間成功縮短到分鐘級;成本上,一套虛擬網(wǎng)絡流量采集分析系統(tǒng)可以將流量分發(fā)給不同平臺、不同分析工具復用,大大節(jié)省成本;管理上,精細化運營讓整個流程更清晰可控、井然有序。
對于為興業(yè)數(shù)金提供上述虛擬網(wǎng)絡流量采集與云網(wǎng)分析解決方案的云杉網(wǎng)絡來說,深耕數(shù)據(jù)中心網(wǎng)絡解決方案多年,認識到要解決上述問題必須深刻理解業(yè)務和網(wǎng)絡的關系,即將網(wǎng)絡的拓撲、網(wǎng)絡的流量與其承載的業(yè)務進行有機的關聯(lián)。云杉網(wǎng)絡DeepFlow從虛擬流量的采集、分發(fā)、分析三個層面出發(fā),用機器學習的方式分析虛擬網(wǎng)元及其配置信息、抽象網(wǎng)絡流量數(shù)據(jù)中的類型、從業(yè)務的視角層層梳理網(wǎng)元與流量的特性,從而為客戶提供“采集分發(fā)”和“分析診斷”兩大解決方案。
興業(yè)數(shù)金在與云杉網(wǎng)絡的合作下,穩(wěn)扎穩(wěn)打擊破金融上云的各種網(wǎng)絡難題,成就金融行業(yè)最佳應用案例。