Drupal-Stammtisch – WindfluechterNet Blog

Ok, since a few days there is always the same going on on one of the companies (hosted) servers: the RAID1 syncs in a loop because a medium error always happen during the rebuild progress:

May 5 21:55:28 spion29 kernel: [2339524.778339] md: md2: recovery done.
May 5 21:55:28 spion29 mdadm: RebuildFinished event detected on md device /dev/md2, component device mismatches found: 512
May 5 21:55:30 spion29 kernel: [2339526.287680] RAID1 conf printout:
May 5 21:55:30 spion29 kernel: [2339526.287702] — wd:1 rd:2
May 5 21:55:30 spion29 kernel: [2339526.287712] disk 0, wo:1, o:1, dev:sda3
May 5 21:55:30 spion29 kernel: [2339526.287721] disk 1, wo:0, o:1, dev:sdb3
May 5 21:55:30 spion29 mdadm: RebuildStarted event detected on md device /dev/md2
May 5 21:55:30 spion29 kernel: [2339526.295476] RAID1 conf printout:
May 5 21:55:30 spion29 kernel: [2339526.295487] — wd:1 rd:2
May 5 21:55:30 spion29 kernel: [2339526.295497] disk 1, wo:0, o:1, dev:sdb3
May 5 21:55:30 spion29 kernel: [2339526.295515] RAID1 conf printout:
May 5 21:55:30 spion29 kernel: [2339526.295523] — wd:1 rd:2
May 5 21:55:30 spion29 kernel: [2339526.295531] disk 0, wo:1, o:1, dev:sda3
May 5 21:55:30 spion29 kernel: [2339526.295541] disk 1, wo:0, o:1, dev:sdb3
May 5 21:55:30 spion29 kernel: [2339526.295589] md: recovery of RAID array md2
May 5 21:55:30 spion29 kernel: [2339526.295598] md: minimum _guaranteed_ speed: 1000 KB/sec/disk.
May 5 21:55:30 spion29 kernel: [2339526.295608] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
May 5 21:55:30 spion29 kernel: [2339526.295625] md: using 128k window, over a total of 390628416 blocks.
May 5 22:11:52 spion29 kernel: [2340506.396514] ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
May 5 22:11:52 spion29 kernel: [2340506.396539] ata3.00: irq_stat 0x40000001
May 5 22:11:52 spion29 kernel: [2340506.396552] ata3.00: cmd 25/00:00:a2:20:ed/00:04:0e:00:00/e0 tag 0 dma 524288 in
May 5 22:11:52 spion29 kernel: [2340506.396553] res 51/40:00:c9:21:ed/18:00:0e:00:00/e0 Emask 0x9 (media error)
May 5 22:11:52 spion29 kernel: [2340506.396601] ata3.00: status: { DRDY ERR }
May 5 22:11:52 spion29 kernel: [2340506.396611] ata3.00: error: { UNC }
May 5 22:11:54 spion29 kernel: [2340507.733453] ata3.00: configured for UDMA/133
May 5 22:11:54 spion29 kernel: [2340507.733795] ata3: EH complete
May 5 22:11:54 spion29 kernel: [2340507.844814] sd 2:0:0:0: [sdb] 1465149168 512-byte hardware sectors (750156 MB)
May 5 22:11:54 spion29 kernel: [2340507.851787] sd 2:0:0:0: [sdb] Write Protect is off
May 5 22:11:54 spion29 kernel: [2340507.851809] sd 2:0:0:0: [sdb] Mode Sense: 00 3a 00 00
May 5 22:11:54 spion29 kernel: [2340507.852536] sd 2:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn’t support DPO or FUA

Usually I would wait for the rebuild to be finished and asking the hosting provider to replace the second disk (sdb), but as the medium error causes just another rebuild process, this won’t work for obvious reasons. So, the next plan is to fail the drive sdb and get a replacement disk then. Hopefully the first disk won’t fail as well then… but well, Murphy, Backup, stuff… *sigh*