當天晚間6:05,支付寶錢包官方微博解釋稱,此次事故的是“由于杭州市蕭山區(qū)某地光纖被挖斷”而“造成目前少部分用戶無法使用支付寶”,支付寶表示,運營商正在搶修,而支付寶的工程師正在緊急將用戶請求切換至其他機房。支付寶還稱,用戶的資金安全并不會因此而受到影響,而交易數(shù)據(jù)不同步的情況也會在修復后恢復同步。
從下午5時許到晚間7時左右,系統(tǒng)的故障在持續(xù)了兩個小時左右后被排除。擁有超過4萬億年交易總額的支付寶是中國第一大第三方交易平臺,約占中國整體社會消費金額的六分之一。由于支付寶的在金融領域的系統(tǒng)重要性程度,以及其獨特的基于云計算的IT技術架構(gòu),此次故障受到各方關注。
對于導致此次事件的原因,螞蟻金服方面的解釋并未獲得金融和互聯(lián)網(wǎng)界的廣泛認同。業(yè)界聚焦于這樣一個問題,如果按金融機構(gòu)系統(tǒng)災備標準衡量的話,即使在出現(xiàn)光纜被挖斷的情形,系統(tǒng)的運行也應該正常無誤。
一位資深電信領域?qū)<冶硎荆F(xiàn)在網(wǎng)絡架構(gòu)多中心制決定了,任何一個節(jié)點出現(xiàn)問題,它的任務將由其他中心來承接。而支付寶肯定是多節(jié)點多中心制。任何一點斷服,都會由其他節(jié)點來進行服務。而且支付寶的路由非常多,其系統(tǒng)也不可能只接一家運營商,即便是只接一家,肯定也是多路由接入。
另一位傳統(tǒng)金融機構(gòu)的系統(tǒng)安全領域?qū)<曳Q,從理論上講,支付寶應該全部是互聯(lián)網(wǎng)出口,也就是說,所有的入口和出口都是基于互聯(lián)網(wǎng)通信或者電信的節(jié)點來實現(xiàn)數(shù)據(jù)的交換和通信,關鍵節(jié)點出現(xiàn)斷電或者光纖挖斷的情況,理論上應該有備份的接口,就相當于可以放棄出現(xiàn)故障的線路,通過其他的專線可以繼續(xù)保證運行。他因此推斷斷的電纜應該是離主機房比較近的一根線。
簡而言之,在光纜被挖的情況下,整個系統(tǒng)的切換應該可以更加順暢。
在我國金融領域,金融機構(gòu)涉及客戶資金的重要系統(tǒng)都有災備系統(tǒng)。比如,目前國有大型銀行基本上是采用“兩地三中心”的模式,即同城除了有一個災備中心以外,異地也有一個災備中心,這樣就可以應對戰(zhàn)爭、重大災難等極端情形。因此,當一個機房出問題時,系統(tǒng)會切到同城或者異地的災備中心。
湯森路透的金融網(wǎng)絡網(wǎng)絡號稱世界最大的,它處理著全球?qū)崟r的金融數(shù)據(jù),其系統(tǒng)的建設要求就是在自然災害或戰(zhàn)爭的時候也不能宕機,兩條不同電信公司的光纜和不同電力公司的電纜分別從機房的兩個方向浸入,同一個機房的所有系統(tǒng)實時雙備份,并建立異地(巴黎、日內(nèi)瓦)機房同時實時處理相同的數(shù)據(jù)。
一位國有大型銀行的專業(yè)人士分析,通常來說,如果是同城災備,客戶根本感受不到延遲,如果是異地,系統(tǒng)的切換也會在較短的時間內(nèi)完成。但無論同城還是異地,兩個小時的系統(tǒng)切換的時間對于支付寶這樣一個金融支付系統(tǒng)來說顯然太長。
這一說法得到多位接受記者采訪的電信技術人士的支持。中國電信的一位技術高層人士分析,服務故障切換機制應該是自動的,根據(jù)一定的事先設置的策略,無需人為干預,人工可以在服務切換后,再重新定義流量疏導方式。
一位螞蟻金服的高管解釋了切換時間較長的原因。他表示,大流量網(wǎng)站實時切換涉及資金時有難度。切換時的數(shù)據(jù)要確保不丟不錯,所以放緩速度是為了安全,對此,他們也在內(nèi)部討論這個選擇的利弊,但認為,首先要保證客戶資金安全,當然未來仍有優(yōu)化空間。在這次恢復中,支付寶已發(fā)現(xiàn)了可以更快恢復的一些環(huán)節(jié),未來出現(xiàn)類似情況有把握更快且更安全的恢復。
而某大型國企網(wǎng)絡運維人員則認為,從技術角度看,支付寶此次事故可能是內(nèi)部應用模塊出了問題,未經(jīng)嚴格驗證的應用被統(tǒng)一升級后,被意外觸發(fā)到未知狀態(tài),導致出現(xiàn)此類問題。
上述運維人員還表示,經(jīng)他觀察,支付寶DBA(數(shù)據(jù)管理人員)緊急恢復了RPO=10days的完整數(shù)據(jù)(RPO,Recovery Point Objective,復原點目標,是指當服務恢復后,恢復得來的數(shù)據(jù)所對應時間點,理想的狀態(tài)是RPO=0,故障出現(xiàn)立即恢復,但需要極大投入),并不停地進行分段增量數(shù)據(jù)恢復,歷時約2小時余,這就是應用模塊的問題。
上述中國電信技術人士則分析認為,出現(xiàn)這種問題的可能性是,支付寶多個數(shù)據(jù)中心之間的自動流量切換機制出現(xiàn)問題,只能人工介入。還可能是其他三種原因:一是很有可能是支付寶遭到了攻擊;二是支付寶的路由配置癱瘓了;三是支付寶的云服務器癱瘓了,亞馬遜也出現(xiàn)過這個問題。號稱最先進最安全的阿里云系統(tǒng)對自家業(yè)務并沒支撐好。
就以上相關問題,記者詢問了螞蟻金服方面,螞蟻金服回應稱,具體的技術分析正在加緊進行,但得出結(jié)論判斷還需要一段時間。
微妙的是,在螞蟻金服更早的一份媒體回應中稱,之所以花費較長時間,是在流量向支付寶位于深圳的數(shù)據(jù)中心遷移的時候,切換系統(tǒng)也受到了光纖斷裂的影響,所以切換上花費了一些時間。這與“技術上他們可以做到更快恢復,之所以較慢是為了確保不丟數(shù)據(jù)”這一說法并不一致。
金融領域的系統(tǒng)安全一直是監(jiān)管機構(gòu)的重點。2013年6月,工行在系統(tǒng)升級的時候也曾出現(xiàn)全國大面積癱瘓的情況,根據(jù)當時媒體的報道,全國多地用戶在登陸網(wǎng)銀系統(tǒng)時均出現(xiàn)了“登陸失敗,因系統(tǒng)原因暫無法獲取當前交易結(jié)果”的提示,但是整個問題在1-2個小時內(nèi)處理掉了,其系統(tǒng)的回退也很快。即便如此,這次事故也被監(jiān)管機構(gòu)當成案例來反復“敲打”各家銀行重視系統(tǒng)安全。
業(yè)界人士認為,與工行一樣,支付寶的網(wǎng)絡也具有系統(tǒng)重要性。更重要的是,支付寶底層的基礎云平臺技術,不僅支撐著支付寶,也是浙江網(wǎng)商銀行的基礎,未來還計劃輸出給其他金融機構(gòu)。因此,系統(tǒng)的安全保障能力更需高標準、嚴要求。
隨著云計算和大數(shù)據(jù)的逐步普及,以及人們在互聯(lián)網(wǎng)應用越來越重的資產(chǎn)托付,IT技術領域普遍呼吁互聯(lián)網(wǎng)公司改變“盡力而為”的服務承諾和網(wǎng)絡架構(gòu),向傳統(tǒng)電信、IT領域高達99.999%的“5個9”安全級別靠攏。
一位資深的業(yè)內(nèi)專家表示,此次故障事件,給了支付寶反思,但新興事物就是在這種經(jīng)驗的積累中不斷成長,公眾和媒體對此也應有一定的寬容度。這就像跳水,起跳不錯,空中動作也還行,但入水壓水花不夠好,未來還有改進空間。
(轉(zhuǎn)載至網(wǎng)絡,僅作為相關資訊的傳播普及目的,如果原作者發(fā)現(xiàn)內(nèi)容的使用不符合本人意愿,請聯(lián)系本站作者或客服,將第一時間刪除處理)
下單付款后十分鐘內(nèi),您可以在商城眾網(wǎng)的個人中心查看訂單信息