Tempo di Lettura: 2 minuti
Nonostante, per gli usi quotidiani, tutti noi siamo soliti usare uno o due tool di compressione come, per esempio Zip o Rar, in realtà esistono numerosi altri tool (7zip, UHARC, KGB…) in grado di eccellere nella compressione di particolari formati di file piuttosto che altri. Questo significa che, ad ogni nuova release di questi programmi, nasce una vera e propria sfida a chi comprime di più e più velocemente. In queste gare “virtuali”, è possibile stabilire in diversi metodi il tasso di compressione, ma, normalmente, siccome il tasso di compressione può variare a seconda del formato di file usato (che sia un file ascii o binario, che sia una bitmap o un jpeg) di solito si usano dei file di test creati appositamente per tenere in considerazione più aspetti.
Il più famoso è sicuramente il Calgary Corpus, una collezione di testo e dati binari creato da Ian Witten e Tim Bell (due ricercatori dell’Università di Calgary in Nuova Zelanda) nel 1980 e comunemente usato dal 1990 sino al 1997, anno in cui è stato sostituito dal Canterbury Corpus, una collezione di dati creata dall’Università di Canterbury in Nuova Zelanda, creata appunto per migliorare e sostituire il precedente in modo da realizzare migliori benchmark sugli algoritmi di compressione dati di tipo lossless.
Attualmente, però, il Calgary Corpus è ancora molto usato per i test di comparazione tra programmi di archiviazione e compressione.
Se volete sperimentare voi stessi il tasso di compressione dei programmi che usate, da qui è possibile scaricare, via anonymous ftp, il Calgary Corpus, dove è possibile trovare diverse tipologie di file (sempre in lingua inglese) a seconda se si voglia eseguire test su codice sorgente, pacchetti compilati, libri, articoli di giornali, bibliografie, immagini etc: bib, book1, book2, geo, news, obj1, obj2,
paper1, paper2, paper3, paper4, paper5, paper6, pic, progc, progl, progp.
Ultimamente è stato realizzata una nuova homepage per il Calgary Corpus dove è possibile scaricare anche tutto il pacchetto completo del Calgary Corpus, ma, per completezza, è possibile scaricare anche altre collezioni di testo, come il The Canterbury Corpus, The Artificial Corpus, The Large Corpus, The Miscellaneous Corpus.
Non mi resta che augurarvi buon divertimento!