Windows10で重複排除(Dedup)を使う(Part2.設定編)


Windows10で重複排除(Dedup)を使う(Part1.導入編)
Windows10で重複排除(Dedup)を使う(Part2.設定編)
Windows10で重複排除(Dedup)を使う(Part3.運用編)

前回、Windows10に重複排除機能を追加しましたが、まだ有効になっていないので、有効にする必要があります。

サーバOSであれば、以下のようにサーバマネージャというGUIツールを利用して、ドライブの重複排除の有効化や各種設定、状況確認などができるのですが、Win10にはそのようなものはありませんので、すべてPowerShellから設定、状況確認をする必要があります。

では、コマンドを利用して有効化します。
対象は、ドライブ単位になります。

今回は D:\ドライブをReFS 3.4でフォーマットしていますので、こちらを有効化します。
一旦、以下の条件で、設定してます。

設定ドライブ D: (ReFS 3.4フォーマット)
使用用途   Defualt(General purpose file Server)

(有効化)
Enable-DedupVolume -Volume “D:” -UsageType Default

(設定確認)
Get-DedupVolume –Volume “D:”

(詳細設定確認)
Get-DedupVolume –Volume “D:” | select *

なお、一部項目はすべて表示されない場合があるので、以下のように入力すると表示されます。(以下はNoCompressionFileTypeを表示する場合)
Get-DedupVolume -Volume “D:” | foreach-object NoCompressionFileType

これで、D:ドライブが重複排除として設定されましたが、一部設定を変更することもできます。

なお、使用用途については、”Defualt(General purpose file Server)”をいったん設定しましたが、用途は、以下からセレクトできます。
MSドキュメント

用途
________
設定値
_____
特徴
_______________________
動作________________________
汎用ファイルサーバDefault汎用ファイル サーバーでは、同じファイルの多くのコピーまたはバージョンを複数のユーザーが所有する傾向があるため、データ重複除去の有力候補です。 ソフトウェア開発用の共有は、多くのバイナリがビルドごとに基本的に変更されていないため、データ重複除去の恩恵を受けることになります。バックグラウンドの最適化
既定の最適化ポリシー:ファイルの最小経過期間 = 3 日
使用中のファイルの最適化 = なし
部分的なファイルの最適化 = なし
仮想デスクトップ インフラストラクチャ (VDI) の展開HyperV仮想デスクトップ インフラストラクチャ (VDI) の展開: リモート デスクトップ サービスなどの VDI サーバーは、組織がユーザーにデスクトップをプロビジョニングするための軽量のオプションになります。バックグラウンドの最適化
既定の最適化ポリシー:ファイルの最小経過期間 = 3 日
使用中のファイルの最適化 = あり
部分的なファイルの最適化 = あり
Hyper-V 相互運用のための「内部的」な調整
仮想化されたバックアップ アプリケーションなどのバックアップ先Backupバックアップ スナップショット間には大幅な重複があるため、Microsoft Data Protection Manager (DPM) などのバックアップ アプリケーションはデータ重複除去の有力候補です。(WinSV2016から設定可能)優先度の最適化
既定の最適化ポリシー:ファイルの最小経過期間 = 0 日
使用中のファイルの最適化 = あり
部分的なファイルの最適化 = なし
DPM または DPM に似たソリューションとの相互運用のための「内部的」な調整

変更コマンドは、以下の通りです。(初期の有効化時と同じコマンドです)
一部パラメータは、自動調整されます。

(Default)に再設定する場合
Enable-DedupVolume -Volume “D:” -UsageType Default

(HyperV)に再設定する場合
Enable-DedupVolume -Volume “D:” -UsageType HyperV

(Backup)に再設定する場合
Enable-DedupVolume -Volume “D:” -UsageType Backup

それでは、特定の設定項目を設定してみます。

ここでは、以下の条件で設定変更します(よく設定変更する項目)。
(その他項目は、MSドキュメントを参照ください。)

設定
_________________
パラメータ名
________________
Default時
の初期値
_______
変更値
______
ファイルが最適化のポリシー内であるとみなされる前にファイルが作成されてから経過した日数MinimumFileAgeDays 30
ファイルが最適化のポリシー内であるとみなされる必要がある最小ファイル サイズMinimumFileSize 3276832768
最適化から除外されるファイルの種類ExcludeFileTypeなし.tmp
.temp
最適化の対象としないフォルダーのパスの指定ExcludeFolderなしd:\TEMP

コマンド例(設定、確認)

Set-DedupVolume -Volume “D:” -MinimumFileAgeDays 0 -MinimumFileSize 32768
get-DedupVolume -Volume “D:” | select MinimumFileAgeDays,MinimumFileSize

Set-DedupVolume -Volume “D:” -ExcludeFileType @(“tmp”,”temp”)
get-DedupVolume -Volume “D:” | select ExcludeFileType

Set-DedupVolume -Volume “D:” -ExcludeFolder @(“\TEMP”)
get-DedupVolume -Volume “D:” | select ExcludeFolder

上記のように項目を設定していくことができます。

これで、D:ドライブを重複排除ストレージとして使用できるようになりました。

このままDドライブにファイルを保存すれば、サーバのアイドル時に自動的に重複排除が行われます。
また、スケジュールされた時間帯に、ガーベージコレクションや整合性チェックも行われます。

この時点での状況を確認してみます。

Get-DedupProperties D Dドライブの利用状況
Get-dedupjob       実行中の重複排除ジョブ
Get-dedupstatus      重複排除状況(ファイル数)
Get-DedupVolume     重複排除状況(重複排除による削減結果)
Get-DedupSchedule    設定されているスケジュール情報
Get-DedupMetadata    メタデータ情報

次回は、運用編として、強制的に重複排除を実行するコマンド等、
特定のシナリオに従って、どのように動作するかを見てみたいと思います。



Windows10で重複排除(Dedup)を使う(Part1.導入編)

Windows10で重複排除(Dedup)を使う(Part1.導入編)
Windows10で重複排除(Dedup)を使う(Part2.設定編)
Windows10で重複排除(Dedup)を使う(Part3.運用編)

重複排除というのは、保存されたファイルの内容から、同じブロックを共有することで全体のディスク使用量を削減する機能です。

別のファイルシステムの機能で「圧縮機能」というのもありますが、条件によってはそれ以上の削減効果を得ることができます。(ReFSではまだ使えませんが)

一般的な話になりますが、削減効果としては
・ユーザドキュメントで30-50%程度
・繰り返し取得したフルバックアップファイルとかだと50-90%程度
とかなりのDisk容量を削減可能な場合があります。
(状況によって上下しますので、あくまで参考値です。)
(よく似たファイルが多いほど効果は高いです。)

重複排除はエンタープライズレベルの機能で、非常に高価な機能だったのですが、最近のWindowsServer(2012以降)には、重複排除機能が機能として搭載されています。

重複排除には処理方式としては、大きく分けると2種類あります。

インライン方式(リアルタイム処理)

  • ストレージに保存する直前に重複排除してから、保存します。
     リアルタイムで同じブロックがストレージに保存されているかを判断し、
     同じブロックが既にあれば、ブロックへのインデックス(メタデータ)のみ保存します。

     重複排除・圧縮後のデータだけを書き込むため、より必要な容量が抑えられる反面、
     一般的に多くのCPUパワーと、大量のメモリを利用する製品が多く、
     これらが足りないと書き込み性能に影響が出る場合があります。

     (データストレージ、NetApp、Oracle由来のZFSファイルシステムなど)


ポストプロセス方式(後処理)

  • ストレージに保存完了後の空き時間に重複排除処理を行います。
     ストレージの負荷が低いタイミングやスケジュールで、順次同じブロックがあるかを
     チェックし、同じブロックがあれば、ブロックを共有して、
     ブロックへのインデックス(メタデータ)に置き換えます。

     書き込みの際、性能に影響を与えない。比較的CPU,メモリ負荷が低い反面、
     一旦重複排除・圧縮前のデータを書き込むための容量が一時的に必要となります。

     (Windows Dedup等)

ほかにもプレプロセス方式(前処理)もありますが、ストレージではなく、
書き込みをするアプリ(バックアップソフト等)で実装されている場合が多い気がします。
事前にサーバ側で重複排除処理を実施しておき、完了した時点でストレージに保存します。

この辺の説明は、企業さんのサイトになりますが、こちらあたりがわかりやすいと思います。

WindowsServerでの重複排除ですが、こちらは、ポストプロセス方式(後処理)タイプの重複排除となります。サーバの負荷が低いアイドル状態や、暇な時間帯に重複排除処理を順次実施するタイプとなります。

なお、重複排除時には、ファイルはメタデータとブロックデータに分かれて保存されますが、ブロックデータ保存時は圧縮をしてから保存されるようです(圧縮除外拡張子指定あり)

比較的CPU,メモリ負荷が低いので、OSに機能として搭載するには現実的なのかもしれません。

こちらはエンタープライズレベルの機能になりますので、クライアントOSには搭載されず、サーバ系OS(WindowsServer2012以降)にのみ搭載されている機能になります。

重複排除に関するドキュメントはMSサイトを確認下さい。
(サーバOSであっても、いろいろ制限等などありますので、リスクを承知の上でお願いします。)

ただし、WindowsServerはクライアントOSとベースが同じですので、WindowsServerの重複排除モジュールを抜き出してクライアントOSに入れた方がおられるようです。
もちろんサポート対象外ですので、完全に自己責任になります。

How to Enable Data Deduplication in Windows 8
 Windows2012のモジュールを導入(NTFSに対応)
 :iInstallModule

Enable Deduplication on your Windows 8.1
 Windows2012R2のモジュールを導入?(NTFSに対応)
 :InstallModule

enabling-deduplication-on-windows-10-tp
 WinSV2016のモジュールを導入(NTFSに対応)
おそらくWin10 2004以前が対象
 :datadedup.zip

Dedupe Packages for Windows 10 Build 19041 (2004)
 2004以降のWin10にWInSV2019のモジュールを導入(NTFS,REFSに対応)
 :dedup-10.0.19041.1.zip

今回は、RefsをマウントしたWin10 21H2 にWinSV2019のモジュールを導入してみたいと思います。(何度も言いますが、自己責任になります。)

取得した、dedup-10.0.19041.1.zip をWin10 21H2上に解凍し、以下のコマンドでモジュールを導入します。(Zip内のinstall_remove_en-US.txtに記載があります。)

cd C:\DATA\dedup-10.0.19041.1\dedup-10.0.19041.1 (解凍したフォルダに移動)

dism /online /add-package /packagepath:Microsoft-Windows-FileServer-ServerCore-Package-amd64-10.0.19041.1.cab /packagepath:Microsoft-Windows-FileServer-ServerCore-Package-amd64-en-US-10.0.19041.1.cab

dism /online /add-package /packagepath:Microsoft-Windows-Dedup-Package-amd64-10.0.19041.1.cab /packagepath:Microsoft-Windows-Dedup-Package-amd64-en-US-10.0.19041.1.cab


dism /online /enable-feature /featurename:Dedup-Core /all

なお、ReFS関連で以下のレジストリキーがあると、WinPEとして起動していると認識されて失敗するので、削除してから実施してください。
HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control\MiniNT\

これでPowerSHell上で重複排除(Dedup)に関するコマンド等が使用できるようになります。
Get-DedupProperties  (まだ有効化していないのでこの段階ではエラーになります)
Get-dedupstatus
Get-dedupjob
Get-DedupVolume
Get-DedupSchedule
・・・

この段階でスケジュールはすでに登録されています。

BackgroundOptimization自動的に重複排除処理(共通したブロックを確認し、インデックス(メタデータ)と置き換える処理)を実行する
(サーバアイドル時に実行)
GarbageCollection定期的にガーべージコレクション(未使用のブロックを確認して削除する機能を実施します)
デフォルトでは、毎週土曜日 2:45-
Scrubbing ディスク障害または不良セクターによるチャンク ストア内の破損を特定します。
デフォルトでは、毎週土曜日 3:45-


では,詳細を表示させてみます。

get-dedupschedule | select Enabled,Name,Type,Priority,Full,ScheduledTask,Days,Start,DurationHours,StopWhenSystemBusy,IdleTimeout,SkipReconciliation,ReadOnly,InputOutputThrottleLevel,InputOutputThrottle,AtStartup,FastStart,Cores,Memory,CimClass,CimInstanceProperties,CimSystemProperties,PSComputerName

なお、項目の詳細については、MSドキュメントを参照ください。

ここでスケジュールされたガベージコレクションは、通常のものになります。
この通常の重複排除領域のガベージコレクションはデフォルトでは週1回実施されます。

そのジョブの4回に一度、Fullのガーベージコレクション(深くブロックの使用状況をチェックしてより多くのブロックを削除する)が発生するのですが、
このタイミングでVSSが有効になっている場合、VSSがクリアされる場合があるので、場合によっては無効化したい場合があります

その場合、以下のコマンドを実行します。

(設定)
Set-ItemProperty -Path HKLM:\System\CurrentControlSet\Services\ddpsvc\Settings -Name DeepGCInterval -Type DWord -Value 0xFFFFFFFF


(確認)
Get-ItemProperty -Path HKLM:\System\CurrentControlSet\Services\ddpsvc\Settings

これで、インストールは完了になります。
ちなみにサーバOS(WinSV2012以降)であれば、サーバマネージャ(GUI)もしくは、Powershellで以下のコマンドを実行することでインストールできます。

Install-WindowsFeature -Name FS-Data-Deduplication

詳細はMSドキュメントを参照して下さい。


次回は、重複排除の有効化と、設定を実施する予定です。

Windows10でReFSを使う

Microsoft曰く次世代ファイルシステムとなるReFS。
NTFSに代わるファイルシステムとして開発されたのがReFSです。

NTFSからのメリットは、パフォーマンス、回復性、スケーラビリティといったところ。
ほとんど業務的なメリットですね。
Winserver2019以降で、重複排除も使えるようになったので、やっと機能的にはそろってきました。

Win10 1703でReFSでフォーマット出来るようになったのですが、
その後すぐに、Win10 Home/Pro 1709(ビルド16226以降)では、ReFSでフォーマットできなくなりました。
現在、サポート外のWin10では使用は非推奨になっていますが、マウントはリバーブルメディア以外では、今のところできる模様です。

Resilient File System (ReFS) (追加: 2017 年 8 月 17 日)作成機能は、次のエディションでのみで利用可能になります。Windows 10 Enterprise と Windows 10 Pro for Workstations。 作成機能は、その他のすべてのエディションから削除されます。 他のすべてのエディションには、読み取りと書き込みの機能があります。1709

業務用OS(Enterprose,Pro Workstation)やサーバ系OS(2012,2016,2019,2022)では、ReFSのバージョンアップはすすんでおり、2022/6現在のバージョンは3.9のようです。
バージョン詳細

Win10 1703では、以下のコマンドでフォーマット可能なようです。
あらかじめ、ディスクの管理から、初期化とドライブのマウント(D:)まで実施しておきます。
(GUIでは、ディスクの管理管理からは不可。一度ドライブマウントしておけば、ReFSでもエクスプローラからでもフォーマットできる模様です)

format d: /u /fs:refs /i:enable /Q /A:64k

なお某サイトを参考にしましたが、正直 /u の意味が不明ですが、エラーは出ていない模様。
(/Q はクイックフォーマット指定)

ちなみに、互換性のため、ReFS1.2でもフォーマットできるとのことです。

format d: /u /fs:refsv1 /i:enable /Q

なお、1703より前では、以下のレジストリを追加することで、フォーマット機能のロック解除が可能とのことです。(参考:How to disable or enable ReFS or Resilient File System on Windows 11/10)
ただし、以下のレジストリキー[MiniNT]があると、WinPEとして起動している認識になってしまうようで、一部コマンドが失敗するので、不要になったら削除推奨です。
RefsDisableLastAccessUpdateも0に戻しておきましょう

1709以降では、Windows 10 Pro for WorkstationsまたはサーバOSを使うしかないようです。
なんか、Enterpriseでも行けるのかもしれません。
(いろんな記事を探しましたが、レジストリのキーも文字列(Non->No)が違ったりで情報が錯綜しているので、何か情報あれば教えてください。)

[HKEY_LOCAL_MACHINE\System\CurrentControlSet\Control\MiniNT]
AllowRefsFormatOverNonMirrorVolume=dword:00000001


[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\FileSystem]
“RefsDisableLastAccessUpdate”=dword:00000001

ReFSのバージョンは以下のコマンドで、実行できます。
Win10 1703でフォーマットした場合は、3.2になります。(Winserver2016では3.1)

fsutil fsinfo refsinfo d:

ちなみに、この頃のWindowsバージョンだと、サーバOSでも重複排除もサポートしてないです。(もともとクライアントOSでは重複排除は未サポートですが)
WindowsServer 2019(Win10 1803相当)からReFSで、重複排除がサポートされるようになっています。
MS情報

なお、上位のバージョンであれば、ReFSをマウント時にバージョンアップしてくれる模様。
なお、WinServer2022でReFS3.4、Win11相当だと、ReFS3.7だそうです。

その後、Win10 21H2にバージョンアップしてみました。
ReFSバージョンが、自動で3.4になってました。
(ReFSフォーマットするためにMiniNTレジストリキーがあると、OSアップグレードに失敗する場合があるので注意)

なお、21H2にした後は、ReFSフォーマットできなくなってましたが、
レジストリキー追加しても、GUIでもコマンドラインでもダメでした。
期間限定だったんでしょうか・・・・


なぜ、今頃ReFS試しているかっていうと、某バックアップソフトの合成バックアップ時にReFSのブロッククローン機能使って、一時的にフルバックアップ再構築時に高速化とDisk使用分の増加抑制が見込めるらしい(そのソフトではfast cloneというらしいが)と研修で聞いたので。

ReFSのブロッククローンと重複排除を同時に使えればバックアップ保存先として最強かよ・・・
といろいろ調べてみたが、併用するとブロッククローンが働かないらしい(同時利用時の設定はレジストリにあるようなんだけどね)。
そのへんも、いろいろ試してみたいと思います。

追記
Win10 21H2環境でReFS 3.4でフォーマットしたドライブについて、Block Clone(Fast Clone)は、ちゃんと動作しました。
NTFSだと某バックアップソフトウェアの合成バックアップが1時間以上かかっていたのが1分ぐらいで終わりました。
仕様上、ReFSで重複排除をしているとBlock Cloneは無理らしいですが、クローン時にDisk容量をほぼ消費しないので、実質的に2ファイル間の重複排除が出来ているのと同意味の気がします。(一時的ではありますが、重複排除率50%?)
あと、この速度は魅力的ですね。合成バックアップのペナルティが実質なくなってます。
ベストプラクティス扱いされてるのもわかりますわ。