Amazon商品の価格変動チェック「あまとも」
コミックダッシュ!は初音ミクGTプロジェクトを応援しています
個人ニュースサイトを巡回する「メガとんトラック」
全ての記事 携プレMP3 デジカメ レコーダ ゲーム メモリ デジモノ コラム 雑談 ブログ あまとも コミックダッシュ!
前の記事次の記事
2011/02/17 21:45 - 2011/02/14

サーバ障害再び・・・今度はCPUコアがオーバーヒートしてダウン?!

カテゴリ : ブログ タグ :

    ■2011/02/07 [サーバディスク障害 - 故障時の状況や復旧状況の補足について]
     
    先日大規模なサーバディスク障害が発生したばかりでありますが、
    昨日2/16 18:00~24:00頃にも「コミックダッシュ!」をはじめ
    各種サービスに 不安定な時間帯 が発生いたしました。ユーザの皆さまに
    度重なるご迷惑をお掛け致しまして誠に申し訳ございません m(;_ _)m
     
    私自身も頭を抱えるところなのですが、今回の症状は前回とは
    全く違うものでした。なんと、CPUのオーバーヒート です。
     

    xxxxx kernel: CPU7: Temperature above threshold, cpu clock throttled
    xxxxx mcelog: Processor xxxxxxxxx heated above trip temperature. Throttling enabled.
    xxxxx mcelog: Please check your system cooling. Performance will be impacted

     
    /var/log/messages にはこんなエラーが次々と並んでいきました。
    特に1行目、CPUコアの温度が閾値を超えた というメッセージは
    コンソールにも割り込んで表示されてくるくらいの 緊急事態扱い なのですね。
    1つ、また1つとコアがパフォーマンスダウンしていき、
    最後にはハングアップして沈黙してしまいました。
     
    さらにその引き金になっている要因を探してみると、どうやらbingbotを
    主力とする 検索エンジンのクロウラー が大量に襲来してきたことが
    原因であることがわかりましたが、それにしてもCPU使用率を見ると
    そこまで酷い状態が続いていたようには見えませんのでいまいち
    納得のいかないところがあります。
     
    ひとまずリセットして再起動したのですが、その後ちょっとした
    ケアレスミスによって不安定な時間帯が引き伸ばされてしまいました。
    というのも、前回の障害時の移行作業を突貫で進めたため、
    環境変数やデーモン起動設定 などを手作業で行って間に合わせた部分が
    いくつかあったのですが、再起動時にそれらが再現されるようになって
    いない箇所が何箇所もあり、慌てふためいてしまった、というのが真相です。
     
    コミックダッシュ!についても、表示はできるものの所有コミックを追加
    できなかったり、半分くらいの割合で500エラーが出てしまったりする時間帯が
    続いていました。この間ご利用頂きました皆さまに深くお詫び申し上げます。
     

     
    この件でまず頭が痛かったのは、肝心の CPU温度を外から把握 する
    ことができないということでした。CPU温度をlinux上から測るものとして
    lm_sensorsOpenIPMI といったツールが有名ですが、とりあえず試して
    みたところどちらも現在使用中のマシンでは情報を拾うことができませんでした。
    (これは後日解決します。そのお話は別の機会に・・・)
     
    で、まず何はなくともCPUファンが止まっていたりしないかどうかを確認しましたが、
    これは確かにちゃんと回っています。あとはどうしようかと思いつつ、
     

     
    ケースファン を大量に買ってきたりしたのですが(パニくってるな・・・)、
    その前にまず、ケースを 開けっ放し にして様子を見るというのと、
    BIOS設定をいじってCPUファンの回転数コントロールを無効 (常に最大速)
    することで様子をみようということになりました。
     
    それが効果があったのか、あるいはたまたま前述のようなボット襲来に
    見舞われていないだけなのかはわかりませんが、また平穏な状態が
    戻ってはきたようです。とりあえずこのまま様子を見てみます。
     
    ただ、折角のパワーのあるマシンも自分の熱にやられて即ダウンして
    しまうようでは本末転倒です。まして、いまはまだ真冬であるわけで、
    真夏も耐えられる ようにしないことには枕を高くして眠れません。
    ここはもう少し真剣に対策を考えなければいけません。
     
    ということで、まず何としてもCPU温度の把握をしようということになりました。
    次記事では、一度失敗した lm_sensors の導入に再チャレンジしていきます。

    CK@デジモノに埋もれる日々 @ckom
    ブログ「デジモノに埋もれる日々」「アニメレーダー」「コミックダッシュ!」管理人。デジモノ、アニメ、ゲーム等の雑多な情報をツイートします。



    投稿者 CK : 記事URL | ブログ | | 2011/02/17 21:45


    « いよいよお目見え"モバギロイド"? こと「LifeTouch NOTE」は3/10発売

    トップに戻る

    サーバのCPU温度計測に四苦八苦、lm_sensors(ELRepo)でセンサーを認識 »



    ▼ コメント ▼

    ご自由にコメントください(=゜ω゜)ノ  ▼ コメント入力欄を開く ▼
    ※管理人は多忙のためお返事はほとんどできません(スミマセン)。
    スパムおよび本文と無関係なコメントは削除対象になる可能性があります。


    ▼ はてなブックマークのコメント ▼


    ▼ トラックバック ▼

    このエントリーのトラックバックURL:

    ★コミックダッシュ! 10,000人突破ありがとうキャンペーン!(9/18~10/23)
     
    デジモノに埋もれる日々 : (C) CKWorks