Algunos de vosotros os podéis
preguntar por qué se ha seleccionado el formato TomeRaider
3 (lo llamaremos en adelante TR3) para un contenido
gratuito como es Wikipedia, en vez de usar un formato gratuito
como es Plucker
o tal vez un formato más conocido como iSilo.
Las ventajas de TR3 frente
a las otras dos enumeradas se pueden resumir en: capacidad para
trabajar con ficheros de gran tamaño, alto ratio de compresión
y extrema velocidad al realizar búsquedas.
Trabajar con
ficheros de gran tamaño y compresión
No existe un formato alternativo
al TR3 debido al tamaño de la Wikipedia.
Plucker, por ejemplo, no
permite tamaños de archivo aprox. superiores a 200 Mb. Además,
debido al formato interno de los datos, la compresión no es muy
eficiente. Algunos ejemplos de esto:
- Nuestro compañero PaTx consiguió
descargar con iSiloX (que no es gratuito) la versión
en español sin imágenes después de varios días conectado a Internet.
El fichero final fue de 120 Mb, es decir más del doble de lo
que entonces ocupaba la misma compilación en formato TR3
(en aquellos días, 50Mb).
- La descarga del archivo SQL que contenía sólo
el texto de la Wikipedia en junio de 2005, era de unos 170 Mb,
que sumado a las imágenes a 260x260 era de más o menos 1,3 Gb.
¿En cuánto podía quedar el archivo en iSilo (no gratuito)
o Plucker? No lo sabemos porque ambos programas no
son capaces de manejar esos tamaños. En formato TR3
esa versión (la de septiembre de 2005, que contiene más datos)
ocupa unos 225 Mb.
- La versión en inglés sin imágenes de Wikpedia
ocupaba 737 Mb en formato TR3. ¿Sabes cuánto ocupaba el fichero
SQL? ¡¡¡Más de 3,5 Gb!!!
Búsquedas
muy rápidas
Además hay otra cualidad de TR3
que no se encuentra en ninguno otro programa: absolutamente
todas las palabras que existen en la base de datos están indexadas,
por lo que las búsquedas son rapidísimas.
Aquí no me refiero a localizar
la entrada de una palabra en un índice (que TR3 lo hace
muy bien) sino en buscar una palabra determinada en todo el texto.
Haz la prueba tú mismo: busca la palabra que se te ocurra en la
versión de sólo texto (127 Mb) y busca cualquier palabra en
todo el documento (insisto en esto porque es importante) en
un documento de 10 Mb en formato Plucker y verás qué es
lo que quiero decir.
Nota
Algunos habréis visto por ahí
una versión de la Wikipedia en inglés llamada encycloPlucker,
que como su nombre indica, está en formato Plucker. Sin
embargo, el creador de esta versión la vende, es decir, no es
una versión gratuita a pesar de que el formato de archivo sí lo
sea (formato Plucker).
Esto es así debido al tiempo que
le ha costado a esta persona generar los ficheros finales. Y sí,
hablo de "ficheros finales" porque, como he comentado antes, Plucker
no permite tamaños de fichero mayores de 200 Mb lo que, unido
a la peor compresión que tiene ese formato, hace que los ficheros
ocupen una barbaridad. Por ese motivo el autor la va a distribuir
en soporte DVD.
Por xusco