Compara todos los files de text en un directory y ordera por similitud

En Unix, ¿hay alguna manera de comparar cada file de text en un directory con cualquier otro file de text en el directory, y luego orderar cada par de files por similitud (usando la utilidad diff )? Ya hay algunos progtwigs Unix de command-line (como fdupes) que pueden encontrar files duplicates en un directory, pero me pregunto si también es posible encontrar files similares usando un script de shell.

Creo que esta pregunta es demasiado amplia en muchos niveles. La "diferencia" de términos depende del tipo de datos y su contenedor: txt, mp3, avi, jpg. Para cada uno de ellos, debe ejecutar sus propios methods de procesamiento. Por ejemplo, los files de text o de código fuente pueden requerir solo la utilidad diff . Los files de música, video e image requieren lógica difusa y algorithms de aprendizaje informático.