サーバのCPU温度計測に四苦八苦、lm_sensors(ELRepo)でセンサーを認識
2011/02/15■2011/02/14 [サーバ障害再び・・・今度はCPUコアがオーバーヒートしてダウン?!サーバ障害再び・・・今度はCPUコアがオーバーヒートしてダウン?!]
この件でまず頭が痛かったのは、肝心の CPU温度を外から把握 することができないということでした。CPU温度をlinux上から測るものとしてlm_sensors や OpenIPMI といったツールが有名ですが、とりあえず試してみたところどちらも現在使用中のマシンでは情報を拾うことができませんでした。
昨日の CPUオーバーヒート のトラブルの続きです。
CPUの温度を測定できないと、冷却系をパワーアップするにしても
どれをどのくらい頑張らないといけないのかすら把握できませんし、
交換しても 効果を測る ことすらできません。ということで、
何はなくとも、CPUの温度を把握することから始めます。
linux の世界では lm_sensors というセンサー情報を得るツールが
有名なのですが、まずここで躓きました。インストールはすんなり
できるのですが、そのあとセンサーデバイス検出ツールである
sensors-detect を動かすと、
Sorry, no sensors were detected.
という無碍なお言葉を吐いて止まってしまいます。新しめのM/Bなどで
使われているデバイスでは検出に対応していないことも多いそうで、
こういう場合は公式でも「次のバージョンに期待してください・・」
という感じのFAQになっていました。
ここで一度 lm_sensors 以外の手段はないかと思い、OpenIPMI という
ツールにも手を出してみたのですが、こちらも同じくデバイスが対応
していないために動かない、という結果に終わりました。
もう一度 lm_sensors に戻ってきて、再挑戦します。
こちらの情報を参考にさせて頂きました。
■linuxでコマンドラインから温度をモニタする
http://blog.cles.jp/item/3785
センサーが上手く認識されない場合には、下記のようにサイトから最新のsensors-detectを拾ってきて使うと改善する場合があります。
# wget http://dl.lm-sensors.org/lm-sensors/files/sensors-detect
# chmod 755 sensors-detect
# ./sensors-detect
まず 最新の sensors-detect を落としてきて試してみましたが
こちらを使っても残念ながら状況は改善しません。
次に、
また、それでもダメな場合には「CentOS 5 で認識されないハードウェアを使うとき ELRepo がべんり - daily dayflower」で紹介されているようにELRepoに登録されているlm_sensorsを使うと認識できるようになる場合もあります。
# rpm -Uvh http://elrepo.org/elrepo-release-0.1-1.el5.elrepo.noarch.rpm
# yum --disablerepo=base --disablerepo=updates --enablerepo=elrepo install kmod-coretemp lm_sensors
こちらを試してみます。ELRepo というハードウェア特化のリポジトリがあって、
そちらにあるツールのほうが最新デバイスへの対応が進んでいる場合があるそうです。
インストール済みの lm_sensors を一度アンインストールして、
上記にあるとおり lm_sensors と kmod-coretemp だけをこのELRepoから
取得してインストールしてみます。そのまま sensors-detect を動かすと、
・・・残念ながらこの段階ではNGだったのですが、ここでさらに前述の
「最新版のsensors-detect」のほうを動かしてみると見事に認識しました!
とれたー!
まずはCPU温度だけですが、これでも大きな進歩です! ツール作成者の
皆さま、分かりやすい解説をしてくださっている皆さまに感謝感謝です。
これで取得した結果文字列を加工すれば、定期的に温度をチェックして
高すぎたら アラーム を出すこともできそうです。そして何より、
冷却系の改善をしようと思ったときに、その効果の有無をちゃんと
数字で比べることができるようになります。
ところで、せっかくデータが取れたのだから、muninのグラフ として
表示してみようと思い立ちました。こちらに詳しい解説があるのですが、
対munin用のチェックスクリプトって結構簡単に自作できるのですね。
■Munin の Plugin を作成する - Enjoi Blog
http://blog.enjoitech.jp/article/85
こうして出来たのがこちらです。
上は標準のCPU使用率グラフ、下が今回自分でスクリプトを書いて
muninに記録させているCPU温度グラフです。
物理コアは4個 ありますので一応グラフも4種類出てきますが、
実際にはどれも同じような上下をするものになっています。
結果を見てみると、やはりちょっと危うい感じがこの時点でも出ています。
平常時に40度ちょっと の位置をウロウロしているのは良いとして、
バッチプログラムが1つ走り始めて1コアが100%を続けるような状態になると
そのレベルでも温度は 60度を超えてくる ことがあります。
この様子だと確かに、論理8コア全てが回るような時間帯が続いたら
危険水域に達するかもしれないという感じがします。いずれにせよ
数字として計測できる土台は整いましたので、これを基準にして
冷却系をじっくり見直していこうと思っています。
2011/02/15 [updated : 2011/02/18 08:30]

ブログ「デジモノに埋もれる日々」「アニメレーダー」「コミックダッシュ!」管理人。デジモノ、アニメ、ゲーム等の雑多な情報をツイートします。
@ckom をフォローする
![]() « サーバ障害再び・・・今度はCPUコアがオーバーヒートしてダウン?! | ![]() トップに戻る | ![]() CPUオーバーヒート問題、負荷実験をしてみると楽々90度超えに・・・。 » |
▼ はてなブックマークのコメント ▼
関連記事
ピックアップタグ
- アニメ(392)
- GSR(287)
- ウマ娘(34)
- ライブ(51)
- イベント(159)
- コラボカフェ(28)
- 舞台挨拶(41)
- 先行上映会(19)
- トークショー(15)
- アニメ吐き出しメモ(10)
- バンドリ!(42)
- ガールズ&パンツァー(58)
- 少女☆歌劇レヴュースタァライト(47)
- ゾンビランドサガ(8)
- プリンセス・プリンシパル(15)
- スタリラ(24)
- コラム(168)
- ゲームプレイ日記(55)
- ワンフェス(11)
- コメンタリー上映(4)
- 岩浪美和(25)
- 大洗(9)
- 響け!ユーフォニアム(11)
- リズと青い鳥(8)
- RAISE A SUILEN(8)
- 艦これ(23)
- ストライクウィッチーズ(23)
- メイドインアビス(8)
- BLAME!(8)
- ヤマノススメ(6)
- ラブライブ!サンシャイン!!(10)
- HELLO WORLD(6)
- 宇宙よりも遠い場所(5)
- ヴァイオレット・エヴァーガーデン(8)
ブログ内検索
▼ コメント ▼
No.30369 投稿者 : 匿名 2011年2月18日 08:53
日付、合っています?
なんかずれているような気が…。
No.30371 投稿者 : とし 2011年2月18日 13:32
CPUクーラーの設置確認なんかも・・家のは、負荷が上がるとなんか温度がすぐ上がるなあ?なんて思ってたら外れかけてたのが原因でした。(固定ピンが2つぐらいロックしてなかった。
ご自由にコメントください(=゜ω゜)ノ
※管理人は多忙のためお返事はほとんどできません(スミマセン)。
スパムおよび本文と無関係なコメントは削除対象になる可能性があります。
コメントしましょう