heuristically encontrar cuán diferente es un set de files

Tengo una gran cantidad de files de salida producidos por ejecuciones repetidas de un set de testings y me gustaría ver, aproximadamente, qué tan diferentes son. Idealmente, todos deberían ser idénticos (lo que indica una testing totalmente reproducible) o casi idénticos (por ejemplo, si hay marcas de time presentes). Así que estoy buscando un script como:

show-greatest-diff /path/to/files/*.out 

Por lo tanto, si hay 100 * .out files, la secuencia de commands debe diff entre sí y quizás producir el número máximo de líneas / caracteres que cualquier par difiere entre ellos (y tal vez identificar el par más diferente) o simplemente imprimir la salida diff del par que difiere más o produce algún otro resultado heurísticamente útil.

La solución sugerida aquí no es apropiada para mi caso de uso debido a la gran cantidad de files.

¿Qué tal algo así como

 mostdifs=-1; for f1 in path/to/files/*.out; do for f2 in path/to/files/*.out; do difs=$(diff "$f1" "$f2" | wc -l); [ "$difs" -gt "$mostdifs" ] && mostdifs=$difs && mostdif="$f1 : $f2"; done done echo "$mostdif" 

Esto es muy simplist, puedes mejorar comprobando si $f1 es el mismo file que $f2 y otros ajustes, pero si estamos hablando de unos cientos de files de text, se ejecutará en segundos, por lo que la complejidad adicional podría no valer la pena.

La idea es ejecutar diff en cada par de files y observar el número de líneas devueltas. Si ese número es mayor que el máximo actual, guarde los nombres de los files.