核心提示: 大多數(shù)人認為云存儲服務(wù)較實體存儲更便宜。事實證明,如果無法進行重復(fù)數(shù)據(jù)刪除處理,云環(huán)境下的存儲資源使用成本將迅速提升至無法接受的水平。
大多數(shù)人認為云存儲服務(wù)較實體存儲更便宜。畢竟大家可以根據(jù)性能與訪問需求以每TB每年276美元甚至更低的價格租用存儲資源。相比之下,企業(yè)數(shù)據(jù)倉庫的每TB每年使用成本一般在2500美元到4000美元之間。
然而除了一級數(shù)據(jù)之外,大家還需要在云環(huán)境下對數(shù)據(jù)進行備份或者副本保存,這無疑會令資源使用支出大幅提升。設(shè)想一下,若企業(yè)需要以三年為周期每月保留100 TB備份數(shù)據(jù),則其原始備份數(shù)據(jù)約等于3.6 PB,每月支出將超過83000美元。而且這還不算數(shù)據(jù)訪問以及檢索帶來的成本。
正因為如此,高效的重復(fù)數(shù)據(jù)刪除技術(shù)對于內(nèi)部及云存儲體系皆極為重要,特別是在企業(yè)需要長期保留其歸檔數(shù)據(jù)的情況下。事實證明,如果無法進行重復(fù)數(shù)據(jù)刪除處理,云環(huán)境下的存儲資源使用成本將迅速提升至無法接受的水平。
云存儲的承諾:成本低廉、可擴展、永遠可用
云存儲一直被視為一種廉價、可靠且能夠無限擴展的資源——事實也基本就是如此。AWS S3等對象存儲服務(wù)每月每TB的標準層使用成本僅為23美元,連續(xù)訪問層則為每TB 12.5美元。眾多現(xiàn)代應(yīng)用已經(jīng)能夠發(fā)揮對象存儲的既有優(yōu)勢。云服務(wù)供應(yīng)商提供自己的文件或者塊存儲選項,例如AWS EBS每月每TB塊存儲資源成本為100美元,且可按小時計費。亦有不少第三方方案可作為后端用于將傳統(tǒng)文件或塊存儲同對象存儲系統(tǒng)對接。
即使是每年每TB 1200美元的AWS EBS,其使用成本也僅為內(nèi)部解決方案的二分之一到三分之一,而且后者還需要更高昂的前期投入。正因為如此,企業(yè)紛紛選擇云存儲以降低運營成本及前期投入,且享受由此帶來的按使用量計費收益(而非像傳統(tǒng)方案那樣購置遠超實際需求的資源容量)。
云存儲成本的爆表之路:無窮無盡的副本
云存儲與傳統(tǒng)內(nèi)部存儲間的成本差異在于,前者的成本要素更為分散。云存儲的成本要素主要包括:
1)一級數(shù)據(jù)存儲成本,包括對象或者塊存儲。
2)副本、快照、備份或數(shù)據(jù)歸檔的成本。
3)數(shù)據(jù)傳輸成本。
第一項之前已經(jīng)討論過了,下面看看后兩項。
數(shù)據(jù)副本。這與您存儲在云內(nèi)的具體數(shù)據(jù)量無關(guān)——上傳數(shù)據(jù)并不收費,而且存儲單一副本也用不了多少投入。最可怕的是保存多份數(shù)據(jù)副本——包括備份、歸檔或者其它需求——這會在不經(jīng)意間帶來可怕的支出。即使大家并未主動進行數(shù)據(jù)復(fù)制,應(yīng)用程序或數(shù)據(jù)庫的內(nèi)置數(shù)據(jù)冗余與數(shù)據(jù)復(fù)制功能亦會默認擴大資源需求。
在云環(huán)境中,每套副本都會產(chǎn)生與原始對象相同的成本。雖然云供應(yīng)商可能會在后臺進行重復(fù)數(shù)據(jù)刪除或壓縮,但這種情況并不常見。以消費級云存儲服務(wù)Dropbox為例,復(fù)制十套文件副本即會占用十倍的存儲配額。
對企業(yè)而言,這意味著快照、備份與歸檔數(shù)據(jù)都會產(chǎn)生額外費用。舉例來說,AWS EBS的每月存儲快照成本為每GB 0.05美元。雖然快照會進行壓縮并僅存儲增量數(shù)據(jù),但由于不具備重復(fù)數(shù)據(jù)刪除機制,100 TB數(shù)據(jù)集的快照每年需要花費60000美元。
數(shù)據(jù)訪問。公有云供應(yīng)商通常會向不同云服務(wù)區(qū)或者云外部間的數(shù)據(jù)傳輸收費。例如在不同Amazon服務(wù)區(qū)間移動或復(fù)制1 TB的AWS S3數(shù)據(jù)會帶來20美元成本,而將其移動至互聯(lián)網(wǎng)的成本則為90美元。事實上,GET、PUT、POST、LIST以及DELETE等請求都會產(chǎn)生對應(yīng)的數(shù)據(jù)訪問成本。
重復(fù)數(shù)據(jù)刪除對于云存儲的重要意義
云應(yīng)用在設(shè)計上具備分布式特性,且標準部署在非關(guān)系型大規(guī)模可擴展數(shù)據(jù)庫內(nèi)。在非關(guān)系型數(shù)據(jù)庫中,即使不進行復(fù)制,大多數(shù)數(shù)據(jù)仍然屬于冗余信息。以MongoDB或者Cassandra為例,其復(fù)制因子為3,意味著為了確保數(shù)據(jù)完整性,其會在分布式集群中保留3份副本。
備份或者次級副本通常由快照進行創(chuàng)建及維護。數(shù)據(jù)庫體系結(jié)構(gòu)決定當我們保存快照時,實際上同時也制作出了三份副本。
不僅是重復(fù)數(shù)據(jù)刪除——還有重復(fù)語義刪除
大多數(shù)重復(fù)數(shù)據(jù)刪除技術(shù)作用于存儲層,即對數(shù)據(jù)塊進行重復(fù)刪除。這種作法對于SAN或NAS等集中式存儲非常有效,但卻不太適用于MongoDB等分布式數(shù)據(jù)庫的數(shù)據(jù)層。在這一領(lǐng)域,重復(fù)刪除技術(shù)需要解決兩大基本問題:
1)需要立足數(shù)據(jù)層起效,而非存儲層。為了在分布式集群中實現(xiàn)重復(fù)數(shù)據(jù)刪除,軟件需要理解并解釋底層數(shù)據(jù)結(jié)構(gòu)。
2)需要搶在冗余數(shù)據(jù)被寫入數(shù)據(jù)庫前將其清除。一旦數(shù)據(jù)寫入,則會在集群內(nèi)進行復(fù)制,這意味著必須利用實時重復(fù)數(shù)據(jù)刪除方可解決。
來源:中國IDC圈
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機柜租用 石家莊機房 |