サーバ障害再び・・・今度はCPUコアがオーバーヒートしてダウン?!
2011/02/14■2011/02/07 [サーバディスク障害 - 故障時の状況や復旧状況の補足について
サーバディスク障害 - 故障時の状況や復旧状況の補足について]
先日大規模なサーバディスク障害が発生したばかりでありますが、
昨日2/16 18:00~24:00頃にも「コミックダッシュ!」をはじめ
各種サービスに 不安定な時間帯 が発生いたしました。ユーザの皆さまに
度重なるご迷惑をお掛け致しまして誠に申し訳ございません m(;_ _)m
私自身も頭を抱えるところなのですが、今回の症状は前回とは
全く違うものでした。なんと、CPUのオーバーヒート です。
xxxxx kernel: CPU7: Temperature above threshold, cpu clock throttled
xxxxx mcelog: Processor xxxxxxxxx heated above trip temperature. Throttling enabled.
xxxxx mcelog: Please check your system cooling. Performance will be impacted
/var/log/messages にはこんなエラーが次々と並んでいきました。
特に1行目、CPUコアの温度が閾値を超えた というメッセージは
コンソールにも割り込んで表示されてくるくらいの 緊急事態扱い なのですね。
1つ、また1つとコアがパフォーマンスダウンしていき、
最後にはハングアップして沈黙してしまいました。
さらにその引き金になっている要因を探してみると、どうやらbingbotを
主力とする 検索エンジンのクロウラー が大量に襲来してきたことが
原因であることがわかりましたが、それにしてもCPU使用率を見ると
そこまで酷い状態が続いていたようには見えませんのでいまいち
納得のいかないところがあります。
ひとまずリセットして再起動したのですが、その後ちょっとした
ケアレスミスによって不安定な時間帯が引き伸ばされてしまいました。
というのも、前回の障害時の移行作業を突貫で進めたため、
環境変数やデーモン起動設定 などを手作業で行って間に合わせた部分が
いくつかあったのですが、再起動時にそれらが再現されるようになって
いない箇所が何箇所もあり、慌てふためいてしまった、というのが真相です。
コミックダッシュ!についても、表示はできるものの所有コミックを追加
できなかったり、半分くらいの割合で500エラーが出てしまったりする時間帯が
続いていました。この間ご利用頂きました皆さまに深くお詫び申し上げます。
この件でまず頭が痛かったのは、肝心の CPU温度を外から把握 する
ことができないということでした。CPU温度をlinux上から測るものとして
lm_sensors や OpenIPMI といったツールが有名ですが、とりあえず試して
みたところどちらも現在使用中のマシンでは情報を拾うことができませんでした。
(これは後日解決します。そのお話は別の機会に・・・)
で、まず何はなくともCPUファンが止まっていたりしないかどうかを確認しましたが、
これは確かにちゃんと回っています。あとはどうしようかと思いつつ、
ケースファン を大量に買ってきたりしたのですが(パニくってるな・・・)、
その前にまず、ケースを 開けっ放し にして様子を見るというのと、
BIOS設定をいじってCPUファンの回転数コントロールを無効 (常に最大速) に
することで様子をみようということになりました。
それが効果があったのか、あるいはたまたま前述のようなボット襲来に
見舞われていないだけなのかはわかりませんが、また平穏な状態が
戻ってはきたようです。とりあえずこのまま様子を見てみます。
ただ、折角のパワーのあるマシンも自分の熱にやられて即ダウンして
しまうようでは本末転倒です。まして、いまはまだ真冬であるわけで、
真夏も耐えられる ようにしないことには枕を高くして眠れません。
ここはもう少し真剣に対策を考えなければいけません。
ということで、まず何としてもCPU温度の把握をしようということになりました。
次記事では、一度失敗した lm_sensors の導入に再チャレンジしていきます。
2011/02/14 [updated : 2011/02/17 21:45]
ブログ「デジモノに埋もれる日々」「アニメレーダー」「コミックダッシュ!」管理人。デジモノ、アニメ、ゲーム等の雑多な情報をツイートします。
@ckom をフォローする
« いよいよお目見え"モバギロイド"? こと「LifeTouch NOTE」は3/10発売 | トップに戻る | サーバのCPU温度計測に四苦八苦、lm_sensors(ELRepo)でセンサーを認識 » |
▼ はてなブックマークのコメント ▼
関連記事
ピックアップタグ
- アニメ(440)
- GSR(319)
- ライブ(79)
- イベント(207)
- コラボカフェ(35)
- VTuber(25)
- アニメ吐き出しメモ(10)
- ウマ娘(50)
- 舞台挨拶(45)
- 先行上映会(19)
- トークショー(20)
- バンドリ!(51)
- ガールズ&パンツァー(59)
- 少女☆歌劇レヴュースタァライト(60)
- ゾンビランドサガ(9)
- プリンセス・プリンシパル(19)
- スタリラ(31)
- コラム(171)
- ゲームプレイ日記(69)
- ワンフェス(13)
- コメンタリー上映(7)
- 岩浪美和(25)
- 大洗(9)
- 響け!ユーフォニアム(12)
- リズと青い鳥(9)
- RAISE A SUILEN(10)
- 艦これ(23)
- ストライクウィッチーズ(23)
- メイドインアビス(8)
- BLAME!(8)
- ヤマノススメ(7)
- ラブライブ!サンシャイン!!(11)
- HELLO WORLD(6)
- 宇宙よりも遠い場所(5)
- ヴァイオレット・エヴァーガーデン(8)
- 私に天使が舞い降りた!(9)
✔ サーバ障害再び・・・今度はCPUコアがオーバーヒートしてダウン?!
コメントしましょう