[gull] Problème RedHat ES5.2 et VMware ESX

Wed Jul 16 11:55:19 CEST 2008

Il giorno mar, 15/07/2008 alle 22.25 +0200, Yves Martin ha scritto:
> On Tue, 2008-07-15 at 11:15 +0200, Leopoldo Ghielmetti wrote:
> 
> > P.S.: Le support Red Hat on l'a via le support Dell pour des raisons de
> > licenses (elles ont été achetées via Dell). Maintenant on a aussi essayé
> > de contacter directement Red Hat pour savoir si quelqu'un pourrait venir
> > pour débogguer le kernel (car tout porte a croire qu'il s'agit d'un bug
> > du noyau).
> 
>  Hello,
> 
> Je suppose que tout cela est configuré dans le but de faire tourner un
> serveur de base de données en cluster.

Exact, mais pas seulement.

> J'ai déjà vu un cluster "partagé" de vrais disques sur un bus commun
> SCSI sans problème - les machines se surveillant par ligne série et les
> montages/démontages de partitions et exécution de services contrôlés par
> heartbeat. Mais dans ce cas, il n'y a qu'un seul bus SCSI.

Je ne sais pas du tout comment il se comporte avec un bus physique. je
sais que j'avais lu que c'était déconseillé de partager un bus SCSI
physique (bien que je ne sache pas trop pourquoi).

> Est-ce que ta configuration fonctionne si les deux VM RH5.2 s'exécutent
> sur le même ESX ? (il y a à priori plus de chances que ça fonctionne)

Peut importe ou elles tournent le problème surgit toujours.

> Quels sont les messages que tu obtiens dans les logs du kernel RedHat,
> dans les logs des VM (les activer au besoin) et dans ceux de l'ESX ?

p.e.:
Jul 15 16:28:51 rac01 kernel: sd 0:0:0:0: reservation conflict 
Jul 15 16:28:51 rac01 kernel: sd 0:0:0:0: SCSI error: return code =
0x00000018 
Jul 15 16:28:51 rac01 kernel: end_request: I/O error, dev sda, sector
14922453 
Jul 15 16:28:51 rac01 kernel: Buffer I/O error on device dm-4, logical
block 217137 
Jul 15 16:28:51 rac01 kernel: lost page write due to I/O error on dm-4 
Jul 15 16:28:51 rac01 kernel: Aborting journal on device dm-4. 
Jul 15 16:28:51 rac01 kernel: journal commit I/O error 
Jul 15 16:28:51 rac01 kernel: ext3_abort called. 
Jul 15 16:28:51 rac01 kernel: EXT3-fs error (device dm-4):
ext3_journal_start_sb: Detected aborted journal 
Jul 15 16:28:51 rac01 kernel: Remounting filesystem read-only 

Dans le fichier vmware.log il n'y a absolument rien qui concerne un
conflit scsi. Peut-être il y a d'autres logs ailleurs qui pourraient
être plus verbeux.
Le SAN quant à lui il ne signale rien d'anormal et les switches fibre
non plus.

> Est-ce que tes VM ne tenteraient pas de monter une même partition chacun
> de son côté en même temps ? Est-ce que des outils de montage de
> partition automatique seraient en route - par exemple avec un interface
> GNOME ouverte ?

Les partitions sont toutes montées en même temps vu que c'est un cluster
RAC avec ASM sur des disques partagés.
Les autres machines par contre partagent les disques via ocfs2.
Mais le problème arrive sur ocfs2 comme sur ext3 ou reiserfs et je
supposes que certains redémarrages aléatoires de la base de données
indiquent que le ASM aussi pourrait souffrir du même problème.

> En espérant ouvrir des pistes

Merci.

ciao, Leo