核心提示: 大多數人認為云存儲服務較實體存儲更便宜。事實證明,如果無法進行重復數據刪除處理,云環境下的存儲資源使用成本將迅速提升至無法接受的水平。
大多數人認為云存儲服務較實體存儲更便宜。畢竟大家可以根據性能與訪問需求以每TB每年276美元甚至更低的價格租用存儲資源。相比之下,企業數據倉庫的每TB每年使用成本一般在2500美元到4000美元之間。
然而除了一級數據之外,大家還需要在云環境下對數據進行備份或者副本保存,這無疑會令資源使用支出大幅提升。設想一下,若企業需要以三年為周期每月保留100 TB備份數據,則其原始備份數據約等于3.6 PB,每月支出將超過83000美元。而且這還不算數據訪問以及檢索帶來的成本。
正因為如此,高效的重復數據刪除技術對于內部及云存儲體系皆極為重要,特別是在企業需要長期保留其歸檔數據的情況下。事實證明,如果無法進行重復數據刪除處理,云環境下的存儲資源使用成本將迅速提升至無法接受的水平。
云存儲的承諾:成本低廉、可擴展、永遠可用
云存儲一直被視為一種廉價、可靠且能夠無限擴展的資源——事實也基本就是如此。AWS S3等對象存儲服務每月每TB的標準層使用成本僅為23美元,連續訪問層則為每TB 12.5美元。眾多現代應用已經能夠發揮對象存儲的既有優勢。云服務供應商提供自己的文件或者塊存儲選項,例如AWS EBS每月每TB塊存儲資源成本為100美元,且可按小時計費。亦有不少第三方方案可作為后端用于將傳統文件或塊存儲同對象存儲系統對接。
即使是每年每TB 1200美元的AWS EBS,其使用成本也僅為內部解決方案的二分之一到三分之一,而且后者還需要更高昂的前期投入。正因為如此,企業紛紛選擇云存儲以降低運營成本及前期投入,且享受由此帶來的按使用量計費收益(而非像傳統方案那樣購置遠超實際需求的資源容量)。
云存儲成本的爆表之路:無窮無盡的副本
云存儲與傳統內部存儲間的成本差異在于,前者的成本要素更為分散。云存儲的成本要素主要包括:
1)一級數據存儲成本,包括對象或者塊存儲。
2)副本、快照、備份或數據歸檔的成本。
3)數據傳輸成本。
第一項之前已經討論過了,下面看看后兩項。
數據副本。這與您存儲在云內的具體數據量無關——上傳數據并不收費,而且存儲單一副本也用不了多少投入。最可怕的是保存多份數據副本——包括備份、歸檔或者其它需求——這會在不經意間帶來可怕的支出。即使大家并未主動進行數據復制,應用程序或數據庫的內置數據冗余與數據復制功能亦會默認擴大資源需求。
在云環境中,每套副本都會產生與原始對象相同的成本。雖然云供應商可能會在后臺進行重復數據刪除或壓縮,但這種情況并不常見。以消費級云存儲服務Dropbox為例,復制十套文件副本即會占用十倍的存儲配額。
對企業而言,這意味著快照、備份與歸檔數據都會產生額外費用。舉例來說,AWS EBS的每月存儲快照成本為每GB 0.05美元。雖然快照會進行壓縮并僅存儲增量數據,但由于不具備重復數據刪除機制,100 TB數據集的快照每年需要花費60000美元。
數據訪問。公有云供應商通常會向不同云服務區或者云外部間的數據傳輸收費。例如在不同Amazon服務區間移動或復制1 TB的AWS S3數據會帶來20美元成本,而將其移動至互聯網的成本則為90美元。事實上,GET、PUT、POST、LIST以及DELETE等請求都會產生對應的數據訪問成本。
重復數據刪除對于云存儲的重要意義
云應用在設計上具備分布式特性,且標準部署在非關系型大規模可擴展數據庫內。在非關系型數據庫中,即使不進行復制,大多數數據仍然屬于冗余信息。以MongoDB或者Cassandra為例,其復制因子為3,意味著為了確保數據完整性,其會在分布式集群中保留3份副本。
備份或者次級副本通常由快照進行創建及維護。數據庫體系結構決定當我們保存快照時,實際上同時也制作出了三份副本。
不僅是重復數據刪除——還有重復語義刪除
大多數重復數據刪除技術作用于存儲層,即對數據塊進行重復刪除。這種作法對于SAN或NAS等集中式存儲非常有效,但卻不太適用于MongoDB等分布式數據庫的數據層。在這一領域,重復刪除技術需要解決兩大基本問題:
1)需要立足數據層起效,而非存儲層。為了在分布式集群中實現重復數據刪除,軟件需要理解并解釋底層數據結構。
2)需要搶在冗余數據被寫入數據庫前將其清除。一旦數據寫入,則會在集群內進行復制,這意味著必須利用實時重復數據刪除方可解決。
來源:中國IDC圈
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房 |