隨著電子商務、云計算、大數據、人工智能、互聯網金融等應用的快速發展,數據中心單體規模越來越大、系統越來越復雜,應對的挑戰也越來越多。
一個好的數據中心需要通過科學的運維管理,充分利用技術和設備資源,將運行成本降到最低,同時能源利用率最大化。
京東在宿遷的自建數據中心,按照世界一流數據中心的理念設計和建設,也按照國際先進的運營管理模式投入運行。
作為數據中心生命周期中最重要的一環,如何針對基礎設施,各種IT設備,信息與數據,應用軟件等各方面展開數據中心的運維管理,為基礎設施和信息系統提供穩定可靠的運行環境,確保他們安全,穩定,可靠,持續并高效的運行。
京東IDC建設的技術專家們,設計并落地了一套先進的、可靠的智能化基礎設施運維管理體系,進行系統性的支撐。
接下來的內容,我們將通過京東自建數據中心在運營維護中的人,制度,流程規范,監控管理等各個方面,一窺這里是如何高效滿足京東不斷增長的業務需求。
1人
京東IDC建設部技術專家劉銘談到:人是數據中心IT設施運維管理的基礎,也是管理的核心,正所謂是三分靠技術,七分靠管理。京東在宿遷的自建數據中心,設施運維管理核心團隊組建于數據中心建設初期,主要的專業技術管理人員都深度參與了整個數據中心園區的工程建設以及測試驗證等重要環節。
在數據中心交付之前,他們就已經充分的了解這個數據中心基礎設施系統的構成,掌握了數據中心設計、施工、變更、整改的技術文檔和測試數據,哪些是今后運維工作的特別關注點,都熟記于心。
京東自建數據中心的實施運維團隊主要有兩大工作職能。第一個是實行7*24小時輪崗工作制的運維巡檢團隊,他們對基礎設備設施進行巡檢,第一時間發現故障或問題。
第二個是對數據中心基礎設施提供運維技術支持,解決技術問題的技術管理團隊,他們承擔數據中心場地基礎設施的優化改造工程和項目管理工作,也是運維管理的核心團隊。
2制度
設備臺賬制度
給每個獨立的數據中心模塊建立完整并實時更新的設備臺賬。臺賬包括所有關鍵基礎設施設備的清單,并完整記錄這些設備設施的運行情況、事件情況、變更情況、維護保養頻次等信息。
對影響安全運行的關鍵設備,比如UPS、冷水機組、精密空調等的設定參數以及關鍵點的報警閥值制定了統一管理制度,結合數據中心實際運行情況與技術,討論后按統一參數值設定,運維巡檢人員不可以隨意修改。
預防性維護計劃
為了延長設備的使用壽命,減少設備故障的概率,必須對所有設備設施進行有計劃的維護。提前制定月度、季度、年度的預防性維護計劃。
運維人員會按照設備和系統的特性、維護流程及規范,及時、完整的落實維護工作,并形成客觀實際的記錄和報告存檔。
此外,運維團隊還定期對設備運行狀態的數據進行統計和趨勢量化分析,對于異常的趨勢,及時作出報警和相關預案。
通過定期檢查和保養,使得設備設施的某些缺陷或隱患在變得更嚴重之前被發現。
維修工單制度
運維人員在接到工單時,能明確獲悉工作任務與注意事項,提前熟悉操作流程,做到心中有數。在維修操作過程中,工單也可以起到指導操作的作用;在維修工作結束交單、備案歸檔。如果在維修過程中遇到困難,也便于及時通過上溯的渠道,快速解決問題。
3監控
京東在宿遷的自建數據中心園區中,包含有4個數據中心模塊,每個模塊都配置有一個獨立的監控中心,整個園區中心位置設置了綜合監控中心ECC。
ECC的綜合智能監控管理平臺,可以實現對數據中心各設備和系統的統一監控與管理,提高整個系統的運行可靠性、穩定性和擴展性,實現機房的科學管理。
作為園區級的監控平臺,ECC很好的實現了:
1、可視化展示各設備設施實時狀態,實時掌握可用性狀況;
2、業務流程規范化管理,變更風險管控,降低變更帶給業務的影響;
3、復雜事件分析處理,準確定位故障;大數據分析,智能預警;
4、設備部署合理化,平衡各維度容量綜合利用率,避免單項容量短板;
5、可視化容量管理,直觀展示容量使用情況及趨勢分析,擴容決策及時準確;
6、提供多維度運行分析報告,為運營決策提供數據支持;
7、重大故障可實時準確提供數據中心應急預案;
模塊級的監控系統對基礎設施的監控包括電氣,動力,環境三部分,實時進行監測和展示被監控的設備。
系統的架構包含現場設備的數據采集層、現場設備監控層和集中重慶監控</a> http://www.brbbq.net監控層。
現場設備數據采集層:由各種I/O采集模塊組成,連接所有傳感器和被監控設備,實現監控平臺與被監控對象的數據通訊。所有硬件采用模塊化架構,I/O模塊采集傳感器數據后,通過系統配置實現對所有傳感器的數據匹配對應,直接接入現場監控層。
現場設備監控層:由多臺嵌入式服務器或獨立網絡控制器組成,負責收集與處理由現場設備采集層發送過來的數據。
模塊集中監控層:采集現場設備監控層上傳的數據,對模塊內的現場監控服務器進行集中管理,實時監測組內基礎設施的參數、狀態,并提供遠程瀏覽。在這個模塊中的監控數據,可以直接上傳至園區綜合監控中心ECC的綜合監控層。
集中管理平臺配置了“雙服務器+雙數據庫”,實現容錯配置。也開發了移動終端操控平臺,可以對數據中心的基礎業務進行實時操控
京東IT資源服務部負責人呂科說:“京東自建數據中心的設施運維管理有一個非常重要的目標,那就是要“建立一套持續改進的機制”,這一點往往容易被行業從業人員所忽略。數據中心設施運維管理與數據中心設施系統建設階段的項目管理有很大的不同,項目管理是一次性的,必須保障“當前最佳”。而數據中心運維管理則是一個不斷迭代的過程,“一套持續改進的機制”可以保障數據中心運行效率不斷提高、重慶監控</a> http://www.brbbq.net運行成本不斷降低。數據中心的設施運維工作就是這樣一個不斷優化的過程,這也是我們的目標:沒有最好,只有更好。”