Op zoek naar grote tekstbestanden voor het testen van compressie in alle maten

Ik ben op zoek naar grote tekstbestanden voor het testen van de compressie en decompressie in alle maten van 1KB tot 100 MB. Kan iemand me alsjeblieft verwijzen naar het downloaden van een link?


Antwoord 1, Autoriteit 100%

en vergeet niet de verzameling Corpus

The Canterbury Corpus
The Artificial Corpus
The Large Corpus
The Miscellaneous Corpus
The Calgary Corpus
The Canterbury Corpus

Zie: http://corpus.cietbury.ac.nz/descriptions/

Er is een downloadkoppelingen voor de beschikbare bestanden voor elke set


Antwoord 2, Autoriteit 82%

U kunt ENWIK8 en ENWIK9 downloaden van hier . Het zijn respectievelijk 100.000.000 en 1.000.000.000 bytes van tekst voor compressiebenchmarks. U kunt altijd subsets van die voor kleinere tests trekken.


Antwoord 3, Autoriteit 29%

*** Linux-gebruikers alleen ***

Arbitary grote tekstbestanden kunnen op Linux worden gegenereerd met de volgende opdracht:

tr -dc "A-Za-z 0-9" < /dev/urandom | fold -w100|head -n 100000 > bigfile.txt

Deze opdracht genereert een tekstbestand dat 100.000 regels willekeurige tekst bevat en er als volgt uitzien:

NsQlhbisDW5JVlLSaZVtCLSUUrkBijbkc5f9gFFscDkoGnN0J6GgIFqdCLyhbdWLHxRVY8IwDCrWF555JeY0yD0GtgH21NotZAEe
iWJR1A4 bxqq9VKKAzMJ0tW7TCOqNtMzVtPB6NrtCIg8NSmhrO7QjNcOzi4N b VGc0HB5HMNXdyEoWroU464ChM5R Lqdsm3iPo
1mz0cPKqobhjDYkvRs5LZO8n92GxEKGeCtt oX53Qu6T7O2E9nJLKoUeJI6Ul7keLsNGI2BC55qs7fhqW8eFDsGsLPaImF7kFJiz
...
...

Op mijn ubuntu 18 is het formaat het ongeveer 10 MB. Het aantal lijnen stoten en daardoor de grootte tegenkomen, is het eenvoudig. Verhoog gewoon de head -n 100000deel. Dus, zeg, dit commando:

tr -dc "A-Za-z 0-9" < /dev/urandom | fold -w100|head -n 1000000 > bigfile.txt

genereert een bestand met 1.000.000 van willekeurige lijnen van tekst en ongeveer 100 MB. Op mijn commodity-hardware duurt het laatste opdracht ongeveer 3 seconden om te voltooien.

Other episodes