Amazon商品の価格変動チェック「あまとも」
コミックダッシュ!は初音ミクGTプロジェクトを応援しています
個人ニュースサイトを巡回する「メガとんトラック」
全ての記事 携プレMP3 デジカメ レコーダ ゲーム メモリ デジモノ コラム 雑談 ブログ あまとも コミックダッシュ!
前の記事次の記事
2011/02/18 08:30 - 2011/02/15

サーバのCPU温度計測に四苦八苦、lm_sensors(ELRepo)でセンサーを認識

カテゴリ : ブログ タグ :

    ■2011/02/14 [サーバ障害再び・・・今度はCPUコアがオーバーヒートしてダウン?!]
     

    この件でまず頭が痛かったのは、肝心の CPU温度を外から把握 することができないということでした。CPU温度をlinux上から測るものとしてlm_sensorsOpenIPMI といったツールが有名ですが、とりあえず試してみたところどちらも現在使用中のマシンでは情報を拾うことができませんでした。
    昨日の CPUオーバーヒート のトラブルの続きです。

     
    CPUの温度を測定できないと、冷却系をパワーアップするにしても
    どれをどのくらい頑張らないといけないのかすら把握できませんし、
    交換しても 効果を測る ことすらできません。ということで、
    何はなくとも、CPUの温度を把握することから始めます。
     
    linux の世界では lm_sensors というセンサー情報を得るツールが
    有名なのですが、まずここで躓きました。インストールはすんなり
    できるのですが、そのあとセンサーデバイス検出ツールである
    sensors-detect を動かすと、
     
    Sorry, no sensors were detected.
     
    という無碍なお言葉を吐いて止まってしまいます。新しめのM/Bなどで
    使われているデバイスでは検出に対応していないことも多いそうで、
    こういう場合は公式でも「次のバージョンに期待してください・・」
    という感じのFAQになっていました。
     
    ここで一度 lm_sensors 以外の手段はないかと思い、OpenIPMI という
    ツールにも手を出してみたのですが、こちらも同じくデバイスが対応
    していないために動かない、という結果に終わりました。
     
    もう一度 lm_sensors に戻ってきて、再挑戦します。
    こちらの情報を参考にさせて頂きました。
     
    ■linuxでコマンドラインから温度をモニタする
    http://blog.cles.jp/item/3785
    センサーが上手く認識されない場合には、下記のようにサイトから最新のsensors-detectを拾ってきて使うと改善する場合があります。
    # wget http://dl.lm-sensors.org/lm-sensors/files/sensors-detect
    # chmod 755 sensors-detect
    # ./sensors-detect

    まず 最新の sensors-detect を落としてきて試してみましたが
    こちらを使っても残念ながら状況は改善しません。
     
    次に、
     
    また、それでもダメな場合には「CentOS 5 で認識されないハードウェアを使うとき ELRepo がべんり - daily dayflower」で紹介されているようにELRepoに登録されているlm_sensorsを使うと認識できるようになる場合もあります。
    # rpm -Uvh http://elrepo.org/elrepo-release-0.1-1.el5.elrepo.noarch.rpm
    # yum --disablerepo=base --disablerepo=updates --enablerepo=elrepo install kmod-coretemp lm_sensors

    こちらを試してみます。ELRepo というハードウェア特化のリポジトリがあって、
    そちらにあるツールのほうが最新デバイスへの対応が進んでいる場合があるそうです。
     
    インストール済みの lm_sensors を一度アンインストールして、
    上記にあるとおり lm_sensors と kmod-coretemp だけをこのELRepoから
    取得してインストールしてみます。そのまま sensors-detect を動かすと、
    ・・・残念ながらこの段階ではNGだったのですが、ここでさらに前述の
    「最新版のsensors-detect」のほうを動かしてみると見事に認識しました!
     

     
    とれたー!
     
    まずはCPU温度だけですが、これでも大きな進歩です! ツール作成者の
    皆さま、分かりやすい解説をしてくださっている皆さまに感謝感謝です。
     
    これで取得した結果文字列を加工すれば、定期的に温度をチェックして
    高すぎたら アラーム を出すこともできそうです。そして何より、
    冷却系の改善をしようと思ったときに、その効果の有無をちゃんと
    数字で比べることができるようになります。
     
    ところで、せっかくデータが取れたのだから、muninのグラフ として
    表示してみようと思い立ちました。こちらに詳しい解説があるのですが、
    対munin用のチェックスクリプトって結構簡単に自作できるのですね。
     
    ■Munin の Plugin を作成する - Enjoi Blog
    http://blog.enjoitech.jp/article/85
     
    こうして出来たのがこちらです。
     

     
    上は標準のCPU使用率グラフ、下が今回自分でスクリプトを書いて
    muninに記録させているCPU温度グラフです。
    物理コアは4個 ありますので一応グラフも4種類出てきますが、
    実際にはどれも同じような上下をするものになっています。
     
    結果を見てみると、やはりちょっと危うい感じがこの時点でも出ています。
    平常時に40度ちょっと の位置をウロウロしているのは良いとして、
    バッチプログラムが1つ走り始めて1コアが100%を続けるような状態になると
    そのレベルでも温度は 60度を超えてくる ことがあります。
     
    この様子だと確かに、論理8コア全てが回るような時間帯が続いたら
    危険水域に達するかもしれないという感じがします。いずれにせよ
    数字として計測できる土台は整いましたので、これを基準にして
    冷却系をじっくり見直していこうと思っています。

    CK@デジモノに埋もれる日々 @ckom
    ブログ「デジモノに埋もれる日々」「アニメレーダー」「コミックダッシュ!」管理人。デジモノ、アニメ、ゲーム等の雑多な情報をツイートします。



    投稿者 CK : 記事URL | ブログ | | 2011/02/18 08:30


    « サーバ障害再び・・・今度はCPUコアがオーバーヒートしてダウン?!

    トップに戻る

    CPUオーバーヒート問題、負荷実験をしてみると楽々90度超えに・・・。 »


    ▼ このブログの新着記事 ▼



    ▼ コメント ▼

    No.30369   投稿者 : 匿名   2011年2月18日 08:53

    日付、合っています?
    なんかずれているような気が…。


    No.30371   投稿者 : とし   2011年2月18日 13:32

    CPUクーラーの設置確認なんかも・・家のは、負荷が上がるとなんか温度がすぐ上がるなあ?なんて思ってたら外れかけてたのが原因でした。(固定ピンが2つぐらいロックしてなかった。


    ご自由にコメントください(=゜ω゜)ノ
    ※管理人は多忙のためお返事はほとんどできません(スミマセン)。
    スパムおよび本文と無関係なコメントは削除対象になる可能性があります。


    保存しますか?



    ▼ はてなブックマークのコメント ▼


    ▼ トラックバック ▼

    このエントリーのトラックバックURL:

    ★コミックダッシュ! 10,000人突破ありがとうキャンペーン!(9/18~10/23)
     
    デジモノに埋もれる日々 : (C) CKWorks