[gull] lost interrupt, quoi et comment?

Mon Oct 23 20:46:13 CEST 2006

Salut,

moi j'ai mis un script que j'ai appelé chkraid dans mon /etc/cron.hourly
et qui fait la chose suivante:
-------------------------------------------------
#!/bin/bash

if [ ! -f /var/cache/chkraid/state ]
then
  mkdir -p /var/cache/chkraid

  touch /var/cache/chkraid/state
fi

LIST="$(cat /proc/mdstat \
        | tr "\n" "-" \
        | sed "s/-\([^[:space:]]\)/\n\1/g;s/-/ /g;s/ \+/ /g" \
        | sort \
        | grep "^md" \
        | grep -v "\[U\+\]")"

DIFF="$(echo "$LIST" \
        | diff /var/cache/chkraid/state -)"

if [ $(echo "$DIFF" | wc -w) -ne 0 ]
then
  echo "$DIFF" \
  | sed -n "s/>/problem on/p;s/</solved problem on/p" \
  | grep "md"
  echo "$LIST" > /var/cache/chkraid/state
fi
-------------------------------------------------

Il marche assez bien et normalement il détecte si un disque change de
status (passe de U à _), le crontab se charge d'envoyer le mail à root
(qui est redirigé sur mon compte).

Par contre je ne l'ai jamais testé avec autre chose que des raid1, mais
ça marche bien même si la machine en a beaucoup. :-)

ciao, Leo

Il giorno lun, 23/10/2006 alle 19.50 +0200, Anne Possoz ha scritto:
> Bonjour la liste technique,
> 
> Déménagement implique aussi changment de conditions d'ordinateurs et
> parfois des problèmes...
> 
> Tout s'était bien passé, puis voilà que mon serveur (sans écran) ne
> répond plus. J'ai fini par aller chercher l'écran à la cave et
> ai découvert que mon disque hda me débitait des tas d'erreurs
> incompréhensibles. Mais comme j'ai du raid1, je ne comprenais pas
> pourquoi le hdb n'avait pas fait son travail. Deux disques qui
> lachent en même temps, ce n'est pas très coutumier.
> Au reboot suivant, c'est grub qui m'a lâché. J'avais juste le prompt.
> J'ai pensé au disque qui n'a plus envie de vivre...
> 
> Bien entendu, knoppix pour voir ce qui se passe vraiment.
> Là, je ne vois aucun problème pour monter les partitions ni lire
> les disques. Par contre, je découvre que quelques jours avant
> hdb a rempli /var/log/messages de lignes du style:
> 
> kernel: hdb: lost interrupt
> 
> Il a alors mis le hdb hors service. Et au reboot, il ne l'a plus
> pris en compte car il n'était plus en phase.
> 
> Question 1) C'est normal? Il n'a pas envie de le reconstruire tout
> seul? A vrai dire, je suis plutôt rassurée qu'il ne le fasse pas.
> 
> Question 2) C'est quoi ce "lost interrupt"?
> 
> Google n'est pas très instructif. J'ai juste trouvé ceci:
> « Looking at the kernel source revealed only that this message appears when 
> the kernel gets bored waiting for an interrupt from IDE controller (which 
> takes some time, hence the long delays). »
> 
> Je me suis alors dit que j'avais peut-être les nappes de cables
> des disques qui n'avaient pas aimé le transport. J'ai ouvert,
> appuyé sur les connecteurs, refermé et rebooté.
> 
> Le boot s'est passé sans problème, comme si tout était rentré dnas l'ordre.
> Il a bien entendu fallu remettre en synchro la partition de hdb
> qui n'était plus dans le raid1. En 2 minutes c'était fait et
> je crois avoir un ordinateur stable. Je crois même que les disques
> sont en parfait état. Il y a environ 10 mois, j'avais déjà eu ces
> "lost interrupt" pendant quelques jours, puis cela avait disapru.
> 
> Question 3) Quelqu'un aurait un petit script simple qui teste
> que le raid1 est toujours OK? Quelle est la meilleure façon d'utiliser
> ce script si on n'a pas de mail sortant depuis le serveur?
> 
> En tous cas, je suis heureuse d'avoir du raid1.
> 
> Merci d'avance.
> 					Anne
> 
> 
> 
> _______________________________________________
> gull mailing list
> gull at lists.alphanet.ch
> http://lists.alphanet.ch/mailman/listinfo/gull