簡単なんだけど難しい重複除去

アプリケーションの対応可否を気にせずストレージの圧縮ができ、メリットの多い重複除去は、本当に素晴らしい技術です。

ファイル単位の圧縮と異なり、同じファイルが複数保存されているとき、1つのファイル分の容量しか消費しません。ファイル名は異なるけど、同じデータが存在する場合も同じく、一つ分のデータにまとめられるので、ファイル共有サーバーなどでは非常に大きな効果が期待できます。



ただ、いくつか注意が必要です。

1.非対応のアプリケーションが存在する。

冒頭にアプリケーションの対応可否をきにせずと言っておきながら何言っての?って感じですが、アプリケーションのデータを重複除去するとうまくアクセスできない経験がありました。可否を気にせずというのは、HYPER-Vの仮想ディスク保存領域を重複除去するって意味です。こうすれば、VM内では重複除去を意識しない状態になります。

2.急激な大容量保存や編集には対応できない。

空き領域が十分にあれば問題ないし、リアルタイム重複除去機能を持ったH/Wでは問題ありません。Windows標準の重複除去などは、バックグラウンド処理を行うので、重複除去処理されるまでは、そのままのデータが記録されるため、一時的には無圧縮で保存できる領域が必要です。

3.空き領域と使用領域がよくわからない

重複除去を行ったボリュームは、重複除去処理が動くと空き領域が変化します。
データ量を積み上げていくとディスクの容量を超えていることもあります。
もういっぱいだ~と思っても次の日には余裕があるなんてこともあります。

4.ファイルを削除しても空き領域が増えない

重複除去はファイル単位ではなく、データレベルの重複除去を行っているため、100GBのファイルを削除したとしても、そのうち70GBが重複除去領域に保管されていれば、30GBしか解放されません。では、70GBはいつ解放されるのか?というと、ガベージコレクション処理によって、未使用ということが確認された後に解放されるため、ファイルを消しても、消しても、空き領域が全く増えないと感じます。

上の注意点を理解していれば、ほぼ問題なく運用できます。

でも、空き領域が少なくなった時に、ディスク増設できない場合、非常に苦しむことになります。4で上げた空き領域がすぐに増えない問題です。
しかも、利用者からみると、どのファイルが重複除去されていないのか分からないため、頑張って削除や退避したファイルがほぼ重複除去されていて、一所懸命頑張って作業したのに全く空き領域が増えないってこともよくあります。


設備増強に時間がかかるしコストにうるさいって方は、はっきり言って使わないほうが よい技術かもしれません。
10TBのNASで運用していて、容量が不足したので10TBのNASを買い足すことはなんとかできても、20TBのNASを買うのは絶対に無理って方は、10TBのNASに15TBのデータが保管されていると、10TB追加した直後に空き領域5TBになって、「なんでこんなに増えるの?お前たち無駄遣いしすぎ!!二度と買わないぞ!!」なんて言われかねません。
重複していること前提の圧縮方法なので起こりえるのです。

でもさ、一度この圧縮を見てしまうと、使いたくなってしまうんですよね~

コメント

このブログの人気の投稿

SharePoint2010のカレンダーをカテゴリ別に色分けする

暗号化はじめました

通勤用自転車のタイヤが裂けてきた・・・