Réf. : Re: [gull] lost interrupt, quoi et comment?
johan at terrettaz.ch
johan at terrettaz.ch
Tue Oct 24 09:11:50 CEST 2006
Salut,
pour ma part j'utilise le script à dispo à cette adresse :
http://evms.sourceforge.net/contrib/raidcheck
_________________
Johan Tornay
Terrettaz Informatique
http://www.terrettaz.ch
johan at terrettaz.ch
|---------+-------------------------------->
| | Leopoldo Ghielmetti |
| | <leopoldo.ghielmetti@|
| | a3.epfl.ch> |
| | Envoyé par : |
| | gull-bounces at lists.al|
| | phanet.ch |
| | |
| | |
| | 23.10.2006 20:46 |
| | Veuillez répondre à |
| | "Groupe romand des |
| | Utilisateurs de Linux|
| | et Logiciels Libres |
| | (Liste technique)" |
|---------+-------------------------------->
>-----------------------------------------------------------------------------------------------------------|
| |
| Pour : Groupe romand "des Utilisateurs de Linux et Logiciels Libres (Liste technique)" |
| <gull at lists.alphanet.ch> |
| cc : |
| Objet : Re: [gull] lost interrupt, quoi et comment? |
>-----------------------------------------------------------------------------------------------------------|
Salut,
moi j'ai mis un script que j'ai appelé chkraid dans mon /etc/cron.hourly
et qui fait la chose suivante:
-------------------------------------------------
#!/bin/bash
if [ ! -f /var/cache/chkraid/state ]
then
mkdir -p /var/cache/chkraid
touch /var/cache/chkraid/state
fi
LIST="$(cat /proc/mdstat \
| tr "\n" "-" \
| sed "s/-\([^[:space:]]\)/\n\1/g;s/-/ /g;s/ \+/ /g" \
| sort \
| grep "^md" \
| grep -v "\[U\+\]")"
DIFF="$(echo "$LIST" \
| diff /var/cache/chkraid/state -)"
if [ $(echo "$DIFF" | wc -w) -ne 0 ]
then
echo "$DIFF" \
| sed -n "s/>/problem on/p;s/</solved problem on/p" \
| grep "md"
echo "$LIST" > /var/cache/chkraid/state
fi
-------------------------------------------------
Il marche assez bien et normalement il détecte si un disque change de
status (passe de U à _), le crontab se charge d'envoyer le mail à root
(qui est redirigé sur mon compte).
Par contre je ne l'ai jamais testé avec autre chose que des raid1, mais
ça marche bien même si la machine en a beaucoup. :-)
ciao, Leo
Il giorno lun, 23/10/2006 alle 19.50 +0200, Anne Possoz ha scritto:
> Bonjour la liste technique,
>
> Déménagement implique aussi changment de conditions d'ordinateurs et
> parfois des problèmes...
>
> Tout s'était bien passé, puis voilà que mon serveur (sans écran) ne
> répond plus. J'ai fini par aller chercher l'écran à la cave et
> ai découvert que mon disque hda me débitait des tas d'erreurs
> incompréhensibles. Mais comme j'ai du raid1, je ne comprenais pas
> pourquoi le hdb n'avait pas fait son travail. Deux disques qui
> lachent en même temps, ce n'est pas très coutumier.
> Au reboot suivant, c'est grub qui m'a lâché. J'avais juste le prompt.
> J'ai pensé au disque qui n'a plus envie de vivre...
>
> Bien entendu, knoppix pour voir ce qui se passe vraiment.
> Là, je ne vois aucun problème pour monter les partitions ni lire
> les disques. Par contre, je découvre que quelques jours avant
> hdb a rempli /var/log/messages de lignes du style:
>
> kernel: hdb: lost interrupt
>
> Il a alors mis le hdb hors service. Et au reboot, il ne l'a plus
> pris en compte car il n'était plus en phase.
>
> Question 1) C'est normal? Il n'a pas envie de le reconstruire tout
> seul? A vrai dire, je suis plutôt rassurée qu'il ne le fasse pas.
>
> Question 2) C'est quoi ce "lost interrupt"?
>
> Google n'est pas très instructif. J'ai juste trouvé ceci:
> « Looking at the kernel source revealed only that this message appears
when
> the kernel gets bored waiting for an interrupt from IDE controller (which
> takes some time, hence the long delays). »
>
> Je me suis alors dit que j'avais peut-être les nappes de cables
> des disques qui n'avaient pas aimé le transport. J'ai ouvert,
> appuyé sur les connecteurs, refermé et rebooté.
>
> Le boot s'est passé sans problème, comme si tout était rentré dnas
l'ordre.
> Il a bien entendu fallu remettre en synchro la partition de hdb
> qui n'était plus dans le raid1. En 2 minutes c'était fait et
> je crois avoir un ordinateur stable. Je crois même que les disques
> sont en parfait état. Il y a environ 10 mois, j'avais déjà eu ces
> "lost interrupt" pendant quelques jours, puis cela avait disapru.
>
> Question 3) Quelqu'un aurait un petit script simple qui teste
> que le raid1 est toujours OK? Quelle est la meilleure façon d'utiliser
> ce script si on n'a pas de mail sortant depuis le serveur?
>
> En tous cas, je suis heureuse d'avoir du raid1.
>
> Merci d'avance.
> Anne
>
>
>
> _______________________________________________
> gull mailing list
> gull at lists.alphanet.ch
> http://lists.alphanet.ch/mailman/listinfo/gull
_______________________________________________
gull mailing list
gull at lists.alphanet.ch
http://lists.alphanet.ch/mailman/listinfo/gull
More information about the gull
mailing list