突然死したZ800の復旧(Z820へのリプレース)

突然死したZ800ですが、交換用のZ820が到着しました。

到着したのは、
HP Z820 水冷モデル
CPU :E5-2687W @3.10 x 2
MEM:32GB(RDIMM 1600メモリ 8GB x4)
GPU :Quadro K2000

とりあえず故障したのZ800からパーツを移植
・メモリ192GB (RIMM 16GB x12)
・Quadro4000 x1
・Intel CT NIC x1
・ストレージ系(SSD 960 x2,SDD 128 x1,4TB SATA HDD x3,300GB SAS HDD x4)

特にZ820サポート外のDDR3 RIMM 1333メモリを搭載したけど、普通に認識してメモリチェックもOK
メモリはZ820についていた32GBも追加して、現状224GBという中途半端な容量に。

ただ、Quadro4000とIntel CT NICを搭載したらBIOSのメモリオーバーエラーがでてしまったのでBIOSでbootに必要な誘うなNIC系のBIOSを切る必要がありました。

とりあえず、既存のSSDに入っていたESXiは普通に起動

ただ、SATA 6ポートのうち、6Gbpsのポート2つに挿したSSD2つは認識してVMFS領域もマウントできたけど、
残りの4ポート(3Gbps)が、ブロックSCSI扱いではなく、SCSI扱いになっていて、認識はするけどVMFS領域マウントせず。
どうやらvCenterに昔のVMFS領域のシグネーチャが残っていて、
接続がブロックSCSIからSCSI扱いに変わっている影響で同じシグネーチャでも、違うものとして認識しまったのに、すでに同じVMFS領域名が登録されているため、マウントできない模様

とりあえず以下をしたら、マウントできました。
・vCenterに残っているVMFS領域の名前を変更
・既存のVMFS領域のシグネーチャを更新してマウント
ただ、VMFS領域においてあった仮想マシン&VMDKは再登録する羽目になりましたが(仮想マシン2つ&VMDK6個だけでしたが)。

なお、vCenterに昔のVMFS領域が残っていたのは、その領域を使用している仮想マシン&VMDKが登録されていたためだったようで、それを消したら、昔のVMFS領域は消えました。

もしかしたら、以下の手順のほうが簡単に復帰できたかも知れず・・・
・昔のVMFS領域を使用している仮想マシンをvCenterのインベントリから削除
・DISKを再マウント
・インベントリから削除した想マシンの再登録

とりあえず、これでストレージ系の復旧は完了。データ欠損なし。

あとはNICのMACアドレスが変わっているので念のため以下のコマンドを実行
# esxcfg-advcfg -s 1 /Net/FollowHardwareMac
(ESXは、ESXのインストールを実施したときにvmk0のNICのMACアドレスをシステムに登録してしまって、NICが変更されても依存のMACアドレスで通信するため)
ただ、コレをやると、該当サーバで仮想マシンを最初に立ち上げるときに「移動」したか、「コピー」したかを聞かれてしまうので、ハード交換をしないのであれば、しなくてもいいかも。
https://kb.vmware.com/s/article/1031111?lang=ja

とりあえず、暫定復旧は完了。
あとは、ちょっとしたグレードアップとして
流用したRIMM 8GBメモリx4を、追加購入予定の16Gメモリx4に変更して合計メモリを256GBにするのと、
SAS 300GBx4を、SATA 8TBx4に置き換えを計画するくらいですかね。RAIDは5にするか10にするかは迷っていますが。

カテゴリー: 未分類 | コメントする

メインのESXサーバ故障中

うちのメインのESXサーバが壊れて、電源が入らなくなってしまった。

Xeon X5690 Dual + メモリ192GB な HP Z800 水冷タイプなのですが、
昼に電源が落ちたらしく、家に戻ったときには電源が落ちていて、電源ボタン押しても、ビープ音が4回なるだけで起動せず。

すべてのPCIボード、メモリをはずしても同じ状況なので、ほぼ故障箇所はマザーボードっぽいのだがさてどうするか・・・・

とりあえず、管理基盤(AD,DHCP,vCenter,監視,)、ファイルサーバ、ネットワークサービス(http,mail,Webストレージ)、SSL-VPN
とかの最小限は、他の2台のESXで稼動させて縮退運用できたけど、
動いているESXはメモリが32GBのサーバが2台しかないので、これまでが限界。

シンクライアントアクセス先基盤と、動画エンコード環境、検証環境系は全滅状態。
やはり、メモリ192GBがいきなりなくなると痛い。

いまのところ回復案として検討中なのが以下の3種類。

・マザーボードだけ購入して、交換
推定予算50K
マザー以外が壊れている可能性があるのと、マザー到着が4/24以降っぽい
あとマザー交換がメンテナンス資料見た限りだとすごい大変そう。

・中古のZ800買ってきて、CPU,メモリ,水冷ユニット,PCIボード,ストレージ系その他もろもろ移植した共食い修理
推定予算100K
ただ、古いリビジョンのマザーだと、X5690乗らないらしいので、その辺の確認しないとだめそう。

・後継機種のZ820調達して、メモリ,PCIボード,ストレージを移植する
推定予算210K
Z800の残念ポイントであるストレージ3GBps制限やジャンボフレーム制限が解除できそうなのと、
CPU世代がWestmere EPからivyBridgeにあげられるのがメリット。
今使っているメモリのクロックが1333なので、うまく動くかは賭けだけど、
早ければ、来週早々には到着しそう。

一番現実的なのは、中古のZ800用意しての共食い修理なんだろうけど。
やはりZ820ルートも捨てがたい。
Z840まで行くと、メモリの流用ができないのと5インチベイ1個少ないからそのまま移植できないし・・・

カテゴリー: 未分類 | コメントする

CPUのセキュリティ修正による性能低下を確認、回避する方法

CPUのセキュリティ修正による性能低下を確認、回避する方法

2018/1に報道されたMeltdown & Spectreの脆弱性のパッチが出ています。
・Meltdown (CVE-2017-5754)
・Spectre (CVE-2017-5753 / CVE-2017-5715)

Windows 7/8.1/10 は既定で緩和策が有効化され、Windows Server はレジストリの設定で有効化されるようです。

 

MSの公式
https://support.microsoft.com/ja-jp/help/4073119/protect-against-speculative-execution-side-channel-vulnerabilities-in

 

Win10での実際の作業は下のURLがわかりやすい

https://vr-maniacs.com/entry/disable-meltdown-fix-to-keep-performance/

 

カテゴリー: 未分類 | コメントする