【導(dǎo)讀】本文從保險企業(yè)數(shù)據(jù)備份系統(tǒng)建設(shè)的實(shí)際需求出發(fā),充分利用重復(fù)數(shù)據(jù)刪除等數(shù)據(jù)備份技術(shù),來優(yōu)化傳統(tǒng)備份架構(gòu),從而完成備份系統(tǒng)建設(shè)方案的規(guī)劃設(shè)計,對同行有一定的借鑒和參考價值。
【作者】陳萍春,現(xiàn)就職于保險行業(yè),擁有多年的系統(tǒng)、存儲以及數(shù)據(jù)備份等運(yùn)維工作經(jīng)驗。
1. 項目背景
數(shù)據(jù)是企業(yè)的核心資產(chǎn),數(shù)據(jù)備份可以有效應(yīng)對系統(tǒng)運(yùn)行過程中的存在的數(shù)據(jù)損失風(fēng)險,是業(yè)務(wù)連續(xù)性的保障。隨著云計算、大數(shù)據(jù)等新技術(shù)的廣泛應(yīng)用,傳統(tǒng)基于結(jié)構(gòu)化數(shù)據(jù)備份的數(shù)據(jù)備份模式面臨著以下三方面的挑戰(zhàn):
非結(jié)構(gòu)化數(shù)據(jù):非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量越來越大,海量數(shù)據(jù)帶來了更長的備份時間窗口;
數(shù)據(jù)庫:適配多種類型數(shù)據(jù)庫備份方案的需求,且數(shù)據(jù)量與日俱增,需要平衡備份方案的成本與收益;
虛擬化和云平臺:適配多種云環(huán)境下VM、容器的備份需求,關(guān)注備份恢復(fù)的效率。
為應(yīng)對新的備份恢復(fù)場景,數(shù)據(jù)備份系統(tǒng)也需要與時俱進(jìn)。本文從保險企業(yè)數(shù)據(jù)備份系統(tǒng)建設(shè)的實(shí)際需求出發(fā),充分利用重復(fù)數(shù)據(jù)刪除等數(shù)據(jù)備份技術(shù),來優(yōu)化傳統(tǒng)備份架構(gòu),從而完成備份系統(tǒng)建設(shè)方案的規(guī)劃設(shè)計,希望對同行有一定的借鑒和參考價值。
2. 備份系統(tǒng)的規(guī)劃設(shè)計
2.1需求分析
完整的備份系統(tǒng)一般包括備份管理系統(tǒng)、備份介質(zhì)、備份網(wǎng)絡(luò)以及備份策略。結(jié)合我司的實(shí)際情況,備份系統(tǒng)需要滿足以下方面的需求:
可靠性:備份系統(tǒng)需要較高的可靠性,才能保障備份作業(yè)定期穩(wěn)定運(yùn)行;
備份管理系統(tǒng)的容災(zāi):備份是數(shù)據(jù)容災(zāi)的重要手段,數(shù)據(jù)恢復(fù)又依賴于備份系統(tǒng),所以備份系統(tǒng)本身也需要具備容災(zāi)能力,才能保證容災(zāi)方案的施行;
備份數(shù)據(jù)的容災(zāi):備份數(shù)據(jù)應(yīng)采用兩份拷貝的方式,分別存放在雙數(shù)據(jù)中心機(jī)房,重要數(shù)據(jù)還需滿足離線保管的需求。
擴(kuò)展性:備份系統(tǒng)需要具備良好的擴(kuò)展性,滿足新備份節(jié)點(diǎn)、備份域的需求;
性能:性能需求體現(xiàn)在兩點(diǎn),一是備份過程對源系統(tǒng)的性能影響較小 ,二是備份時間窗口要短,避免影響到源系統(tǒng)的非備份時間窗口;
數(shù)據(jù)保護(hù)功能:需能覆蓋Oracle、SQL Server、Mysql、PgSQL等數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)、虛擬機(jī)的備份場景以及Exchange郵箱歸檔場景;
管理性:需對接現(xiàn)有監(jiān)控平臺實(shí)現(xiàn)備份系統(tǒng)的監(jiān)控告警,并定期生成運(yùn)行情況報表;
性價比:在設(shè)計備份系統(tǒng)時,在考慮上述幾項需求的同時,還需要兼顧系統(tǒng)的總體投入和項目收益。
2.2 備份管理系統(tǒng)規(guī)劃
備份管理系統(tǒng)主要包括備份軟件和備份管理服務(wù)器這兩類組件。
2.2.1 備份軟件
備份軟件方面的工作包括:備份軟件選型和備份軟件架構(gòu)規(guī)劃。
備份軟件選型
選型可參考的因素包括:場景適應(yīng)性、技術(shù)支持服務(wù)能力、成熟度、Gartner企業(yè)級備份與恢復(fù)軟件的評測、運(yùn)維人員技能儲備等等。通過備份軟件POC測試,以確定最終選型,測試項規(guī)劃為下表:
測試項目
具體測試項
測試項
說明
備份存儲對接
配置本次磁盤庫
配置物理帶庫
配置虛擬帶庫
配置NAS磁盤庫
數(shù)據(jù)備份
DR備份
文件備份
Oracle數(shù)據(jù)庫備份
Mysql數(shù)據(jù)庫備份
PgSQL數(shù)據(jù)庫備份
Vmware虛擬機(jī)備份
NAS備份
數(shù)據(jù)歸檔
文件歸檔
郵件歸檔
數(shù)據(jù)恢復(fù)
DR恢復(fù)
文件恢復(fù)
oracle數(shù)據(jù)庫恢復(fù)
Mysql數(shù)據(jù)庫恢復(fù)
PgSQL數(shù)據(jù)庫恢復(fù)
Vmware虛擬機(jī)恢復(fù)
NAS恢復(fù)
其他管理功能
重復(fù)數(shù)據(jù)刪除
定時任務(wù)策略
存儲池拷貝策略
監(jiān)控、報告定制
用戶權(quán)限管理
其他特色功能
非功能性指標(biāo)
軟件UI
軟件易用性
備份軟件架構(gòu)規(guī)劃
規(guī)劃生產(chǎn)、災(zāi)備、郵箱歸檔域等備份域,按照主流備份軟件架構(gòu)實(shí)踐,采用經(jīng)典的三層架構(gòu),主控服務(wù)器用于集中管理各備份域,備份服務(wù)器用于提供備份介質(zhì)管理和數(shù)據(jù)傳輸,客戶端包括備份客戶端及各種備份代理,整體架構(gòu)示意圖如下:
2.2.2 備份服務(wù)器
規(guī)劃一臺主控服務(wù)器,三臺備份服務(wù)器。
主控服務(wù)器
主控服務(wù)器與備份服務(wù)器的功能分離,本質(zhì)上是一個管理數(shù)據(jù)庫,負(fù)責(zé)備份軟件層的調(diào)度管理,是備份軟件層最重要的組件,其他組件依賴它去重建或修復(fù)配置,需要保證高可用性與容災(zāi);主控服務(wù)器本身不涉及到備份介質(zhì)管理與備份數(shù)據(jù)傳輸,IO壓力并不大。結(jié)合主控服務(wù)器的特點(diǎn),可規(guī)劃虛擬機(jī)部署方式,通過虛擬化集群來保障主控服務(wù)器的高可用;容災(zāi)方面,主控服務(wù)器可以通過虛擬機(jī)即時恢復(fù)技術(shù)恢復(fù)到災(zāi)備集群,也可以通過備份軟件自身的DR備份恢復(fù)來實(shí)現(xiàn),整體規(guī)劃架構(gòu)圖如下:
備份服務(wù)器
三臺備份服務(wù)器受主控服務(wù)器管理,分別負(fù)責(zé)各自備份域的備份存儲介質(zhì)、客戶端、數(shù)據(jù)流。生產(chǎn)域、災(zāi)備域需要對接虛擬帶庫、物理磁帶庫、NAS存儲等備份存儲,承擔(dān)所有客戶端的備份數(shù)據(jù)流,規(guī)劃各部署一臺X86服務(wù)器,生產(chǎn)域與災(zāi)備域的備份服務(wù)器可互為備份。這是由于主控服務(wù)器承擔(dān)了備份系統(tǒng)的大腦功能,備份服務(wù)器較容易災(zāi)難恢復(fù),只需要把備份介質(zhì)與客戶端指向新的備份服務(wù)器即可。
郵件歸檔域的備份服務(wù)器主要用于Exchange郵箱的郵件歸檔,對性能要求較低,規(guī)劃部署為虛擬機(jī)。
數(shù)據(jù)備份流程
數(shù)據(jù)備份流程參考下圖:
數(shù)據(jù)恢復(fù)流程
數(shù)據(jù)恢復(fù)流程參考下圖:
2.3 備份介質(zhì)規(guī)劃
傳統(tǒng)的備份介質(zhì)主要是磁帶、硬盤、光盤等,對應(yīng)的設(shè)備包括物理磁帶庫、虛擬磁帶庫、NAS存儲、光盤庫等,光盤相對小眾,主要用于特定的數(shù)據(jù)保護(hù)場景,暫不考慮。對于主流備份介質(zhì)的規(guī)劃,可以從容量、性能、重刪壓縮、保存方式等特性來考慮,具體可參考下表:
閃存盤
(SSD)
虛擬帶庫
(Data Domian)
NAS存儲
(SAS/SATA)
磁帶
(LTO7)
性能
多線程訪問,比SAS/FC更好的多線程順序數(shù)據(jù)流處理;
讀操作擁有頂級的快速訪問,寫操作比讀操作慢
多線程訪問;
讀寫性能較好
多線程訪問;
讀寫性能一般
單線程;
順序讀寫性能較好,讀寫帶寬300MB/s
容量
單位容量價格高
單位容量價格較高
單位容量較廉價
近6TB原生容量,較廉價
重刪壓縮
與備份軟件的重刪壓縮功能結(jié)合
自身硬件重刪壓縮性能好
與備份軟件的重刪壓縮功能結(jié)合
不能開啟備份軟件的重刪功能
保存使用
在線
便于擦寫重用
在線
便于擦寫重用
在線
在線保存與擦寫重用
易于離線保存
離線保存與擦寫重用
結(jié)合上表中不同備份介質(zhì)特性的對比,我們做出了如下的備份介質(zhì)規(guī)劃:
SSD存儲池
規(guī)劃利用備份服務(wù)器本地SSD盤(后續(xù)可通過SAN存儲擴(kuò)容)構(gòu)建SSD存儲池,用作數(shù)據(jù)備份系統(tǒng)的主緩存池,結(jié)合備份軟件的重刪壓縮,有效減少落盤的數(shù)據(jù)量。大部分?jǐn)?shù)據(jù)緩存保留3天,數(shù)據(jù)備份、恢復(fù)速度均能得到保障。
虛擬帶庫池
規(guī)劃分配較多的虛擬driver以保障充足的備份并發(fā)流,虛擬帶庫池作為數(shù)據(jù)備份系統(tǒng)的副緩存池,本身硬件層的重刪壓縮性能較好。
NAS存儲池
NAS存儲池主要是兩個用途:歸檔數(shù)據(jù)和保存期限相對短的數(shù)據(jù)。歸檔數(shù)據(jù)可滿足一定的數(shù)據(jù)在線能力,方便隨時調(diào)?。ㄈ绻麣w檔數(shù)據(jù)量較大,后續(xù)可以替換為對象存儲池);數(shù)據(jù)保存周期短,對容量需求相對較小,數(shù)據(jù)擦寫重用方便。
磁帶池
磁帶的特性適宜用于需要數(shù)據(jù)離線保存、數(shù)據(jù)保存周期較長的場景。新的LTO7帶機(jī)driver讀寫速度快、單盤磁帶容量大。但磁帶池是通過物理帶庫的帶機(jī)driver提供并發(fā)能力,而本方案中磁帶池不直接對接備份客戶端,而是經(jīng)緩沖池的重刪壓縮后的數(shù)據(jù),相比傳統(tǒng)直接對接客戶端備份的方式,可以有效減少帶機(jī)driver的使用。
備份介質(zhì)整體使用思路如下圖:
2.4 備份網(wǎng)絡(luò)規(guī)劃
備份網(wǎng)絡(luò)主要包括備份SAN、備份LAN網(wǎng)絡(luò)兩種,是數(shù)據(jù)備份時間窗口的重要影響因素之一,也是備份數(shù)據(jù)穩(wěn)定傳輸?shù)谋U?。備份網(wǎng)絡(luò)規(guī)劃主要從以下幾個方面考慮:
容災(zāi)規(guī)劃
由于數(shù)據(jù)備份系統(tǒng)的容災(zāi)功能,需要保障備份數(shù)據(jù)流能跨數(shù)據(jù)中心同步,包括LAN網(wǎng)絡(luò)、SAN的同步數(shù)據(jù)流。
備份帶寬
備份帶寬很大程度上會影響到備份時間窗口,特別需要關(guān)注數(shù)據(jù)流匯聚處的帶寬。本方案中主要關(guān)注的是備份服務(wù)器層的帶寬,采用萬兆LAN網(wǎng)絡(luò),備份客戶端則視情況選擇備份網(wǎng)絡(luò)。備份SAN主要用于備份服務(wù)器連接磁帶庫、存儲設(shè)備以及客戶端Lanfree備份,而備份軟件可以在客戶端開啟數(shù)據(jù)重刪壓縮,重刪壓縮的數(shù)據(jù)流比較小,備份速度快,可以替代絕大部分Lanfree場景。
安全隔離性
備份服務(wù)器一般規(guī)劃在獨(dú)立網(wǎng)段,在備份數(shù)據(jù)流較大的情況下可能會影響到正常的業(yè)務(wù)網(wǎng)絡(luò)訪問,除了注意備份窗口做規(guī)避外,還需要重點(diǎn)考慮數(shù)據(jù)庫場景、虛擬化場景以及對網(wǎng)絡(luò)核心交換層的影響,在條件允許的情況下,組建獨(dú)立備份局域網(wǎng)具有一定的必要性。
2.5 備份系統(tǒng)整體架構(gòu)
綜上,備份系統(tǒng)整體架構(gòu)圖如下:
2.6 備份策略制定
備份策略的內(nèi)容包括需要備份的數(shù)據(jù)對象、備份的方式方法、備份數(shù)據(jù)落地的存儲介質(zhì)以及數(shù)據(jù)保留周期等要素。按照不同的備份數(shù)據(jù)對象,適當(dāng)錯開各自的備份時間窗口,并分別制定備份策略。通用的備份策略參考如下表格:
數(shù)據(jù)對象名
備份數(shù)據(jù)流
時間窗口
數(shù)據(jù)量
數(shù)據(jù)增長量
備份方式
數(shù)據(jù)保留
2.6.1 數(shù)據(jù)庫策略
數(shù)據(jù)庫一般都需要安裝單獨(dú)的備份客戶端,結(jié)合不同的數(shù)據(jù)庫用途,可再規(guī)劃分成三類策略:
核心類數(shù)據(jù)庫
這類策略需要重點(diǎn)保障核心級系統(tǒng)的RPO、RTO、備份窗口這三種指標(biāo)。RPO對應(yīng)的措施是數(shù)據(jù)庫每日全備份,歸檔日志定時備份;RTO對應(yīng)的是需要保證數(shù)據(jù)恢復(fù)速度;備份窗口則是要提高備份速度,減少備份時間。核心類數(shù)據(jù)庫通過Lanfree備份方式,數(shù)據(jù)恢復(fù)時間比較能保證;而開啟備份軟件的數(shù)據(jù)重刪功能,通過LAN網(wǎng)絡(luò)就可以迅速完成數(shù)據(jù)備份。綜合考慮后,選擇LAN網(wǎng)絡(luò)和備份軟件客戶端重刪壓縮的方式,管理成本低,數(shù)據(jù)并發(fā)要求低,容錯性高。備份數(shù)據(jù)流策略如下圖:
報表類數(shù)據(jù)庫
這類策略可以通過備份軟件重刪壓縮來做全備份,但一般這類數(shù)據(jù)庫未開啟日志歸檔,DBA選擇了定期導(dǎo)出數(shù)據(jù)文件來備份,數(shù)據(jù)保留周期短;如后期選擇定期離線全備份,可以參照核心級的備份方式。其備份數(shù)據(jù)流策略如下圖:
其他數(shù)據(jù)庫
其他數(shù)據(jù)庫采用備份軟件重刪壓縮來做每日全備份,無其他定時備份歸檔日志策略,備份數(shù)據(jù)流策略如下圖:
2.6.2 虛擬化與容器策略
虛擬機(jī)VM
虛擬機(jī)備份不需要安裝其他agent,而是基于VMware虛機(jī)備份代理VSA實(shí)現(xiàn)備份功能。規(guī)劃選取業(yè)務(wù)重要級別高的虛擬機(jī)來做備份,每日增量備份,每周做一次合成全備份,數(shù)據(jù)保留周期比較短。虛擬機(jī)中的數(shù)據(jù)重復(fù)率也非常高,重刪壓縮收益較高,采用的備份數(shù)據(jù)流策略如下圖:
虛擬機(jī)恢復(fù)策略相對更加多樣。不同的恢復(fù)方式對應(yīng)于不同的恢復(fù)場景,可以整機(jī)恢復(fù),也可以恢復(fù)虛機(jī)中的某些文件,也可以通過備份系統(tǒng)直接拉起虛擬機(jī)等方式。
容器
目前容器場景暫未部署到生產(chǎn)環(huán)境,但數(shù)據(jù)備份也需要提前規(guī)劃。容器中的數(shù)據(jù)主要包括容器云集群組件配置信息備份、K8S資源對象信息、容器鏡像、容器PV快照等等,規(guī)劃采用備份腳本等方式定時將數(shù)據(jù)導(dǎo)出,備份到NAS存儲池。
2.6.3 非結(jié)構(gòu)化數(shù)據(jù)策略
非結(jié)構(gòu)化數(shù)據(jù)也規(guī)劃了三種數(shù)據(jù)備份方式:
文件目錄級備份
規(guī)劃一臺專門用于非結(jié)構(gòu)化數(shù)據(jù)備份的服務(wù)器,掛載需要備份的NAS,減少對業(yè)務(wù)系統(tǒng)的影響。文件目錄級備份方式在數(shù)據(jù)恢復(fù)時,恢復(fù)的顆粒度比較細(xì),能做文件級恢復(fù)。其特點(diǎn)是首次全備份時間長,但后續(xù)只需要每日增量備份,定期合成全備份即可。對于數(shù)據(jù)文件特別多的目錄,文件目錄掃描時間也會很長,不適宜海量文件目錄場景。
文件歸檔
文件歸檔主要用于合規(guī)要求,需要對長期保存的文件定期歸檔。文件歸檔適宜于與文件目錄級備份配合使用。
NDMP方式備份
NDMP方式是NAS存儲特有的數(shù)據(jù)傳輸協(xié)議,主要用于NAS文件系統(tǒng)級的備份,備份速度較快,但恢復(fù)顆粒度是整個NAS文件系統(tǒng),適宜于文件數(shù)較多、數(shù)據(jù)量大的NAS文件系統(tǒng)的備份
非結(jié)構(gòu)化數(shù)據(jù)備份數(shù)據(jù)流策略如下:
2.6.4 郵箱歸檔策略
郵箱歸檔設(shè)置了單獨(dú)的備份域,由一臺虛擬機(jī)作為備份服務(wù)器去對接郵箱系統(tǒng)。郵箱歸檔主要是需要滿足郵件合規(guī)保存要求,一般要求保存3年以上的郵件,設(shè)置好歸檔策略后,只需要每日定時歸檔,其備份數(shù)據(jù)流策略如下:
2.7 管理功能規(guī)劃
監(jiān)控規(guī)劃
備份系統(tǒng)的監(jiān)控應(yīng)對接現(xiàn)有的zabbix監(jiān)控系統(tǒng),并重點(diǎn)關(guān)注如下四個方面:
1)備份設(shè)備硬件狀態(tài):需要確認(rèn)存儲設(shè)備硬件狀態(tài)正常
2)備份軟件進(jìn)程和服務(wù):需要確認(rèn)備份軟件進(jìn)程和服務(wù)端口正常
3)備份作業(yè)執(zhí)行結(jié)果:需要確認(rèn)定時備份作業(yè)以及其他后臺作業(yè)都執(zhí)行正常
4)備份介質(zhì)可用容量:需要確認(rèn)備份介質(zhì)的可用容量,提前做好容量預(yù)估
報表規(guī)劃
報表規(guī)劃主要需要訂制每日、每周、每月的運(yùn)行情況定時報表,主要包括特定時間段內(nèi)的不同備份數(shù)據(jù)對象的備份作業(yè)統(tǒng)計信息,包括完成作業(yè)數(shù)、失敗作業(yè)數(shù)、運(yùn)行中的作業(yè)數(shù)、備份存儲消耗情況等等。
配置管理
通過自動化手段,定期抓取備份系統(tǒng)的配置信息,包括主控服務(wù)器、備份服務(wù)器、備份客戶端、備份策略集、存儲策略、定時策略以及存儲庫等的詳細(xì)配置信息,關(guān)注整體備份窗口長度、重要數(shù)據(jù)的備份性能等信息,適時做出相關(guān)的備份配置策略調(diào)整。
3. 總結(jié)和反思
容量規(guī)劃
容量估算公式:后端容量 = (前端容量 x 備份周期 增量合計)/ 去重比。由于重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用,容量估算難度加大,增量和去重比都是以經(jīng)驗值計算,所以需要預(yù)估相當(dāng)?shù)娜萘咳哂?。運(yùn)維過程中,更需要重點(diǎn)及時關(guān)注各存儲池上的數(shù)據(jù)備份周期、增量、去重比以及空閑容量的變化數(shù)據(jù)。
SSD存儲池
為進(jìn)一步確認(rèn)核心類數(shù)據(jù)庫的備份方式,已完成備份恢復(fù)測試。根據(jù)測試結(jié)果,LAN網(wǎng)絡(luò)備份方式下,2.5TB的核心庫的重刪壓縮數(shù)據(jù)流量約為456GB,備份時間只需要46分鐘,恢復(fù)時間與lanfree方式接近。SSD存儲池的使用,可以顯著地提高備份性能,不受SAN網(wǎng)絡(luò)、帶機(jī)driver數(shù)的限制,在運(yùn)維管理方面,也避免了磁帶機(jī)相關(guān)故障導(dǎo)致的備份報錯問題。
另外一方面,在服務(wù)器本地SSD盤構(gòu)建SSD存儲池的方案,具有一定的成本優(yōu)勢,但整體規(guī)模受限,可靠性并不高;但采用更復(fù)雜的存儲方案,又加重了管理等成本問題,也需要做好權(quán)衡。
原標(biāo)題:某保險企業(yè)數(shù)據(jù)備份系統(tǒng)的規(guī)劃設(shè)計