在我們平時的運維過程中,雖然會對常見的故障備有應急預案,也極有可能會在未知的情況下發(fā)生系統(tǒng)包括數(shù)據(jù)庫都需要重新部署的極端情況,面對4G時代的流媒體,網(wǎng)絡社交,網(wǎng)頁瀏覽等熱點業(yè)務的急速發(fā)展,業(yè)務流程越來越復雜,對IT系統(tǒng)的依賴性也越來越強,IT運維質(zhì)量的好壞對業(yè)務的影響有至關重要的作用。本次應用性能管理大講堂,來自愛投資、聽云、西山居和京東的運維大牛們?yōu)榈綀鲇^眾帶來一場生動的業(yè)務級運維公開課。

韓世琪:互聯(lián)網(wǎng)金融業(yè)務運維的挑戰(zhàn)與實踐

“互聯(lián)網(wǎng)+”的概念最近火熱一時,而互聯(lián)網(wǎng)金融更是處于浪潮之巔,本次沙龍首先登場的便是來自愛投資的技術副總裁韓世琪,他先給大家展示了互聯(lián)網(wǎng)金融現(xiàn)實中的樣子。

韓世琪說到,需求決定業(yè)務模式,而業(yè)務模式、業(yè)務規(guī)模決定技術架構(gòu)和運維模式,互聯(lián)網(wǎng)金融的特殊性決定了它需要業(yè)務的敏捷性與安全性完美融合?;ヂ?lián)網(wǎng)金融的本質(zhì)還是金融,傳統(tǒng)的金融行業(yè)在適應性上多少會出現(xiàn)問題,而互聯(lián)網(wǎng)金融的P2P、P2C模式幫助企業(yè)做到金融脫媒的過程,同時也滿足了個人投資者的需求。愛投資的模式,用一句話來概括:“線上放貸,線下抵押”,業(yè)務模式從管錢、管人、管事三個方面入手。

緊接著韓世琪為我們介紹了愛投資的技術架構(gòu)。愛投資技術團隊差不多40人,所以適合中小規(guī)模團隊、支持快速迭代、低成本、穩(wěn)定可靠、開源社區(qū)健康的技術和架構(gòu)是他們的首選,選擇的原則就是盡量的簡單,把問題集中解決掉,然后以迭代的方式來做更多的事情。架構(gòu)采取公有云和私有云混合使用,同時有一些線下的離線處理和數(shù)據(jù)倉庫。APM監(jiān)視方面使用阿里云的云監(jiān)控去監(jiān)控一下硬件方面數(shù)據(jù),運維方面則是使用聽云,節(jié)省大量的人力成本。


最后韓世琪為我們分享了業(yè)務運維實踐經(jīng)驗運維。他說互聯(lián)網(wǎng)金融行業(yè)的運維需要滿足三點,第一,要從運維的角度為每條產(chǎn)品線的全生命期供給運維資源,提供日志查詢和結(jié)果分析的工具;第二,嚴格控制所有的權(quán)限、成本、性能、風險等方面;第三,制定一定的標準去衡量工作,保證對用戶以及對業(yè)務部門的承諾。

運維者的逆襲讓應用自我感知性能問題

隨后來自聽云技術副總裁廖雄杰為我們分享了一些應用性能自我感知的經(jīng)驗。廖雄杰說到,在我們的工作中,業(yè)務系統(tǒng)時不時出現(xiàn)了性能問題,而常規(guī)的手段是對系統(tǒng)的監(jiān)控指標逐項排查,CPU、內(nèi)存、IO、網(wǎng)絡延時、數(shù)據(jù)庫響應時間是否有異常,這些指標都是孤立的指標,與業(yè)務系統(tǒng)未必關聯(lián),在應對越來越復雜的技術架構(gòu)時,傳統(tǒng)的監(jiān)控手段已經(jīng)很難做到全方位覆蓋,更別提與業(yè)務進行關聯(lián),我們急需一套系統(tǒng),能自動監(jiān)控系統(tǒng)的各項健康指標,一旦系統(tǒng)出現(xiàn)問題,迅速報警并給出健康建議。

接著廖雄杰為我們展示了應用性能自我感知的關鍵所在,APM(Application Performance Management)。APM所做的就是對軟件應用的性能和可用性進行監(jiān)控和管理,致力于發(fā)現(xiàn)和定位性能瓶頸和故障,以保證應用達到預期的服務水平及最終用戶體驗,并用幾行代碼來演示了APM想做的事情。廖雄杰還說到,要完成這樣的事只需要在幾個關鍵的位置嵌碼即可。


最后廖雄杰用幾個例子為我們演示了應用性能自我感知的具體實現(xiàn)。首先是一個慢應用過程追蹤的例子,我們通過APM可以拿到所有慢應用過程的列表,并可以看到所有追蹤的詳細過程以及時間占比最高的方法,然后我們就能找到在哪一個文件,哪一行代碼出現(xiàn)了問題,這僅僅是通過我們的運維手段就把直接出現(xiàn)問題的代碼找出來,同理在SQL和API上我們也能實現(xiàn)同樣的效果,這一切都歸功于APM。

廖雄杰說道不僅是在Server端APM能發(fā)揮如此的功效,在移動互聯(lián)網(wǎng)上APM也能大發(fā)神威。對移動互聯(lián)網(wǎng)進行監(jiān)控的時候,最頭疼的一個問題是終端數(shù)量非常龐大,而且分散在世界各地,APM可以很簡單的解決的這個問題,并能很清晰直觀的監(jiān)測到網(wǎng)絡請求響應、交互性能、錯誤、崩潰等不同維度的信息,并定位至代碼級,開發(fā)人員就能很好的解決問題,留住用戶。

劉宇:運維自動化平臺實踐

經(jīng)過現(xiàn)場觀眾與講師Q&A互動和短暫的休歇以后,來自金山西山居的架構(gòu)師劉宇開始了講堂下半場的干貨分享。他首先為大家介紹了業(yè)務運維的方向,業(yè)務運維向來是走在公司的第一線,它必須保障業(yè)務穩(wěn)定性,同時對業(yè)務質(zhì)量進行監(jiān)控,處理業(yè)務投訴,定位和分析問題所在,提升客戶體驗以及業(yè)務性能優(yōu)化,還有業(yè)務部署、新版本發(fā)布、服務端變更等等,然而業(yè)務線繁雜,無規(guī)范、無標準,故障難以快速定位,變更發(fā)布周期性長等問題一直困擾著每一個運維。

不懂業(yè)務運維的人,一定不是好研發(fā),隨后劉宇為大家描繪了運維自動化規(guī)劃藍圖,建立一個運維自動化的平臺,通過可視化讓研發(fā)和更多一線的運維得到提升,讓他們更輕松的應對工作。同時做好服務管理,把全線業(yè)務以及流程根據(jù)規(guī)范集成起來,同時監(jiān)控配置和命令執(zhí)行,然后用CMDB來監(jiān)管所有的網(wǎng)絡和服務器,從而得到一個完整的自動化運維平臺。


最后劉宇分享了他的一些運維實踐經(jīng)驗,第一,規(guī)范化,包括命名、代碼、研發(fā)、測試等多方面的規(guī)范;第二,CMDB系統(tǒng)研發(fā),包含數(shù)據(jù)存儲、開放API兩大功能,保持數(shù)據(jù)一致性和業(yè)務之間關聯(lián)關系;第三,監(jiān)控系統(tǒng)上線,先快速上線Zabbix并逐步完善業(yè)務級監(jiān)控;第四,綜合所有功能,讓運維自動化平臺上線。最后劉宇還談到業(yè)務運維如何發(fā)展,需要具有對系統(tǒng)的全局把握能力,做到隨叫隨到,解決任何問題并記錄未自動化事宜提出改進。

李志明:京東百億級業(yè)務應用運維的進化與發(fā)展

最后一位登場的是京東應用運維部經(jīng)理李志明,恰逢618購物節(jié)的到來,京東在如此巨大的用戶規(guī)模情況下,業(yè)務運維是怎么進行的引起人們好奇。李志明說到,過去京東的運維基本都是靠人來驅(qū)動的,無論是編譯、打包還是上線都是手工完成,審批過程也極為漫長,隨著業(yè)務不斷壯大,最后他們決定建立系統(tǒng)和平臺,將人的常規(guī)操作系統(tǒng)化,將人的角色由操作改為決策,建立了四大系統(tǒng):編譯系統(tǒng)、部署系統(tǒng)、日志系統(tǒng)、監(jiān)控系統(tǒng)。

利用這些系統(tǒng)將整個業(yè)務平臺化、自動化,去掉最底層人的操作,降低人的作用,通過審計讓運維做到透明化,做好冗余,保證一切實例的故障、服務器的故障、交換機的故障、機房故障、地震等不可抗拒因素等都有備用,同時將中間件云化。從業(yè)務層面上,運維需要了解業(yè)務邏輯、部署結(jié)構(gòu),還要準備應急響應方案、災難演練以及促銷時的應對方案。


最后李志明對業(yè)務運維的未來談了一下自己的看法,他希望所有的研發(fā)人員、運維人員的工作最后都在一個生產(chǎn)環(huán)境運維平臺上進行,在保證自動化的同時做好標準化,最終解放研發(fā),提高業(yè)務連續(xù)性。

至此,第四期聽云應用性能管理大講堂落下帷幕,散場后小伙伴們?nèi)耘f意猶未盡,紛紛在講堂微信群里進行討論,或發(fā)表自己對運維的看法,或向講師提運維方面的問題,講師們也都熱情解答,相信本次大講堂一定能讓大家受益良多,讓我們一起期待下一期的到來吧!

點擊如下鏈接下載講師課件:http://bbs.tingyun.com/forum.php?mod=viewthread&tid=73&extra=page%3D1

分享到

fanz

相關推薦