サーバ障害再び・・・今度はCPUコアがオーバーヒートしてダウン?!

2011/02/14

■2011/02/07 [サーバディスク障害 - 故障時の状況や復旧状況の補足について
サーバディスク障害 - 故障時の状況や復旧状況の補足について]
 
先日大規模なサーバディスク障害が発生したばかりでありますが、
昨日2/16 18:00~24:00頃にも「コミックダッシュ!」をはじめ
各種サービスに 不安定な時間帯 が発生いたしました。ユーザの皆さまに
度重なるご迷惑をお掛け致しまして誠に申し訳ございません m(;_ _)m
 
私自身も頭を抱えるところなのですが、今回の症状は前回とは
全く違うものでした。なんと、CPUのオーバーヒート です。
 

xxxxx kernel: CPU7: Temperature above threshold, cpu clock throttled
xxxxx mcelog: Processor xxxxxxxxx heated above trip temperature. Throttling enabled.
xxxxx mcelog: Please check your system cooling. Performance will be impacted

 
/var/log/messages にはこんなエラーが次々と並んでいきました。
特に1行目、CPUコアの温度が閾値を超えた というメッセージは
コンソールにも割り込んで表示されてくるくらいの 緊急事態扱い なのですね。
1つ、また1つとコアがパフォーマンスダウンしていき、
最後にはハングアップして沈黙してしまいました。
 
さらにその引き金になっている要因を探してみると、どうやらbingbotを
主力とする 検索エンジンのクロウラー が大量に襲来してきたことが
原因であることがわかりましたが、それにしてもCPU使用率を見ると
そこまで酷い状態が続いていたようには見えませんのでいまいち
納得のいかないところがあります。
 
ひとまずリセットして再起動したのですが、その後ちょっとした
ケアレスミスによって不安定な時間帯が引き伸ばされてしまいました。
というのも、前回の障害時の移行作業を突貫で進めたため、
環境変数やデーモン起動設定 などを手作業で行って間に合わせた部分が
いくつかあったのですが、再起動時にそれらが再現されるようになって
いない箇所が何箇所もあり、慌てふためいてしまった、というのが真相です。
 
コミックダッシュ!についても、表示はできるものの所有コミックを追加
できなかったり、半分くらいの割合で500エラーが出てしまったりする時間帯が
続いていました。この間ご利用頂きました皆さまに深くお詫び申し上げます。
 

 
この件でまず頭が痛かったのは、肝心の CPU温度を外から把握 する
ことができないということでした。CPU温度をlinux上から測るものとして
lm_sensorsOpenIPMI といったツールが有名ですが、とりあえず試して
みたところどちらも現在使用中のマシンでは情報を拾うことができませんでした。
(これは後日解決します。そのお話は別の機会に・・・)
 
で、まず何はなくともCPUファンが止まっていたりしないかどうかを確認しましたが、
これは確かにちゃんと回っています。あとはどうしようかと思いつつ、
 

 
ケースファン を大量に買ってきたりしたのですが(パニくってるな・・・)、
その前にまず、ケースを 開けっ放し にして様子を見るというのと、
BIOS設定をいじってCPUファンの回転数コントロールを無効 (常に最大速)
することで様子をみようということになりました。
 
それが効果があったのか、あるいはたまたま前述のようなボット襲来に
見舞われていないだけなのかはわかりませんが、また平穏な状態が
戻ってはきたようです。とりあえずこのまま様子を見てみます。
 
ただ、折角のパワーのあるマシンも自分の熱にやられて即ダウンして
しまうようでは本末転倒です。まして、いまはまだ真冬であるわけで、
真夏も耐えられる ようにしないことには枕を高くして眠れません。
ここはもう少し真剣に対策を考えなければいけません。
 
ということで、まず何としてもCPU温度の把握をしようということになりました。
次記事では、一度失敗した lm_sensors の導入に再チャレンジしていきます。


2011/02/14 [updated : 2011/02/17 21:45]


この記事を書いたのは・・・。
CK@デジモノに埋もれる日々 @ckom
ブログ「デジモノに埋もれる日々」「アニメレーダー」「コミックダッシュ!」管理人。デジモノ、アニメ、ゲーム等の雑多な情報をツイートします。




« いよいよお目見え"モバギロイド"? こと「LifeTouch NOTE」は3/10発売

トップに戻る

サーバのCPU温度計測に四苦八苦、lm_sensors(ELRepo)でセンサーを認識 »


▼ はてなブックマークのコメント ▼

Donca 2011/02/17
✔ サーバ障害再び・・・今度はCPUコアがオーバーヒートしてダウン?!
はてなブックマークで
コメントしましょう


2024年のご挨拶


全力Vの1年:2023年振り返り~2023年も大変お世話になりました。2024年も宜しくお願いいたします。


2023年あけましておめでとうございます。デジモノに埋もれる様子をお届けできない日々


"V"にハマった1年:2022年振り返り~2022年も大変お世話になりました。2023年も宜しくお願いいたします。


(状況のご報告)Twitterアカウントの状況について ※2022.11.08追記あり


連投メモ:「ツイートで『ブログ』を書く」お話と、ガジェット系からイベントレポ系に遷移していった時のお話


2022年あけましておめでとうございます。よろず話はカーナビの「ジャイロ」ご乱心のお話


2021年も大変お世話になりました。2022年も宜しくお願いいたします。


2021年あけましておめでとうございます。よろず話はレンタカーと「一脚」テスト。


2020年も大変お世話になりました。2021年も宜しくお願いいたします。


2020年あけましておめでとうございます。今年はちゃんと歯を磨きます。。。


2019年も大変お世話になりました。2020年も宜しくお願いいたします。

ピックアップタグ




ブログ内検索



▼ コメント ▼


★コミックダッシュ! 10,000人突破ありがとうキャンペーン!(9/18~10/23)
 
デジモノに埋もれる日々 : (C) CKWorks