自宅環境紹介

2019/08/25 23:00

top

そういえば、自宅環境の紹介をしていなかったなと思い、急遽書きました。サーバラックサーバラックの様子をどん。上からまだラッキングしてないサーバがは横に転がってます。ちなみにLANケーブルは半分ぐらい自作です。 ストレージネットワークは10GbEで構成。ネットワーク構成はこんな感じ。知り合いとVPNを張っていて、その経路交換をBGPで行っています。スペックコアになってるProxmoxサーバのスペックはサービスホストしているものを軽く紹介。監視環境とかサービスの死活監視をZabbixにて行い、リソースの可視化をGrafanaで行っています。個人でそこまでする必要があるのかは分かりませんけどね。まとめ何も知らないところ、サブネットマスクもわからないところから約1年、個人でここまでできたのは我ながら驚いています。やはり、自分が好きに触れる物理環境があれば、何でもまず”試してみる”ことができるので良いですね。その過程で色々なノウハウも得ることができました。

top

突然ですがサーバが燃えました。中央付近、メモリのVRM回路と思われる部分が焼損していることがおわかりいただけると思います。状況とある日の夜22時ごろ、突然室内の音が変わった気がして、サーバを確認すると、うち1台が停止しており、FaultのLEDが点灯しておりました。HPのサーバでしたので、iLO4からログを確認すると、電源系のエラーが出ておりました。(スクショ忘れた)PSU以上かと思った主は、PSU#1が接続された状態でPSU#2を接続してからPSU#1を交換するという方法を取り、サーバの電源を喪失することなくPSUの交換を行いました。しかしながら、電源ボタンを押しても電源が入ることはなく、電源ケーブルを接続し直すことにしました。電源ケーブルの再接続を終え、電源ボタンを押すと…燃えたはい、燃えました。といっても目視で確認できていないですが、花火に火をつけたような音やスパークの飛ぶ音が1.5秒ほど続き、一瞬にして室内には半導体の燃える匂いでいっぱいに。ヒートシンクがマザーボードを外さずに撤去することができなかったので直視できていませんが、半導体チップが溶けてぐちゃぐちゃになっていました。チップ、半田ゴテとか当てても溶けませんから、相当の温度になっていたのでしょう。原因は?完全な原因究明には至っておりません。考えられることとしては、前日に行ったUPSのマウント作業の際、レールのかみ合わせが悪く、スライドさせるたびにカンナで削ったような金属片が散乱してしまっていましたので、それを運悪くサーバが吸い込んでショートした、ということぐらいでしょうか。 そして、ショートを検知して電源が落ちたものの、主が一度電源を喪失させたためにエラーのステートが消え、エラーをディテクトする前にサーバの電源が入ってしまって燃えた、というところでしょうか。だとすると、勝手に燃えることは無いはずです。おそらく、燃える前に止まるでしょうから。被害?まず、このサーバ、コアサーバだったのですが当然死亡しました。(というか燃えてから電源入れてない)稼働1ヶ月ほどでしたので、かなりダメージが大きいものです。あと、燃えたVRM回路から電源供給を受けていたと思われるメモリが死亡しておりました。これは廃棄。 まとめ?5万ちょっとぐらいの被害は出ましたが、家が燃えなくてよかったです。自宅でサーバ類を運用している方、

About

インフラエンジニア
主に作業ログ

About Me

Archives