Cómo encontrar qué máquinas están inactivas en un clúster de muchos nodos

Ejecuto mediciones en un clúster que consta de 32 nodos / máquinas. No necesito todos los nodos, solo 4, por ejemplo. El problema es la mayor parte del time, los nodos están ocupados con otras personas que ejecutan su trabajo pesado en ellos. Entonces, para encontrar nodos inactivos para get buenos resultados, ejecuto el command top en cada máquina comenzando desde el primero hasta que encuentre 4 gratuitos.

¿Hay alguna manera de probar la carga / utilización de la CPU en varias máquinas a la vez y, si es posible, enumerar las máquinas que están less ocupadas?

Si bien la respuesta de @ wnoise es una solución más agradable, es posible que no pueda implementarla (es decir, ¿administra el clúster?) … así que, ¿por qué no echarle un vistazo?

  1. una de las soluciones de 'clúster SSH' @Chaleb mencionada aquí (pssh, pdsh, clusterssh, clusterit) o
  2. Tela ( también mencionado en este hilo, por @Crankyadmin )

para recostackr statistics de uso.

Agregue un poco de secuencias de commands para evaluar las statistics que recopiló en cada host y debería estar listo para continuar.

( a ) Dependiendo de sus preferences, una u otra de las herramientas mencionadas podría ser más útil, es decir, Fabric es un framework de Python, por lo que si desea hacer la evaluación en Python, podría ser adecuado (mientras que cualquier Perl / Bash / cualquier lenguaje de scripting es igual de bueno).

El command rup del package rstatclient sondeará todas las máquinas de su subnetworking para get información, incluidos sus promedios de carga. Las máquinas deben estar en ejecución para proporcionar esa información, y me gustaría que solo responda a sus escritorios de administrador. También puede especificar máquinas individuales para recostackr datos. Con rstatd ejecutándose en las máquinas remotas, también puede xmeter el xmeter para monitorear visualmente su promedio de carga histórica.

Hay muchos "sistemas por lotes" que están diseñados para manejar este tipo de problema. Uno específicamente diseñado para manejar el "robo de ciclo" de sistemas que de otro modo estarían desocupados es cóndor , un proyecto de investigación de larga ejecución en la Universidad de Wisconsin.

Si se está ejecutando SNMPD, puede consultar los valores de carga de estas máquinas con un simple snmpget. Si usted script que puede orderar estos con el valor de carga y la salida de los cuatro más bajos …

debe usar el command mdiag -n para verificar si los nodos están inactivos u ocupados.