タグ

failureに関するkanbayashiのブックマーク (2)

  • EDAC Project

    EDAC Project Overview EDAC (Error Detection and Correction) is a set of Linux kernel modules for handling hardware-related errors. Its major focus has been ECC memory error handling, however it also detects and reports PCI bus parity errors. Support handling of other types of errors (cache, dma, fabric switch, thermal throttling, hypertransport, etc.) can be accomplished with the 'edac_device' cla

  • そのメモリ、捨てる前に 〜EDACでECCエラーをキャッチ〜 : DSAS開発者の部屋

    かたちあるものいつかは壊れます。メモリモジュールも例外じゃありません。 DSAS はサーバが200台近くあり、複数枚メモリを積んでいるサーバもあるのでメモリの数はそれ以上です。これだけメモリがあると、どれかが壊れる確率はそれなりに・・・・ 前回のパクリはこのくらいにしてですね(^^;、ディスクは壊れると非常にわかりやすいログを吐いてくれたり、 SMART で簡単に状態をチェックできたりしますが、メモリが壊れた場合はちとやっかいです。いきなり固まったり電源が落ちたり挙動不審になったりと、全く予測不能な症状を引き起こしてしまいます。このような場合、メモリ不良を疑って BIOS でログを確認するとか、長時間かけて診断ツールかけたりしないとなかなか原因の特定に至らないので、原因不明なまま眠れない日々が続いてしまいます。 Linux でメモリエラーを検出するには、「 NMI 関連のログがでたらメモリ

    そのメモリ、捨てる前に 〜EDACでECCエラーをキャッチ〜 : DSAS開発者の部屋
  • 1