La Enciclopedia Libre Universal en Español dispone de una lista de distribución pública, enciclo@listas.us.es
Enciclopedia:Discusión sobre la estadística de la portada
Artículo de la Enciclopedia Libre Universal en Español.
Romero, Willy y yo estamos discutiendo si no sería conveniente poner en la portada, en vez del número de artículos de la enciclopedia, el número total de Mb que ocupa, o el número de caracteres que tienen los artículos.
Para entrar un poco en materia, para los que no han seguido la discusión en las páginas de usuario, resumo cómo empezó la cosa, y luego pongo los últimos comentarios. Resulta que ahora sabemos cómo contar el número de caracteres de los artículos, usando órdenes mysql (eliminando de la cuenta los artículos de discusión, enciclopedia:, etc.), para mejorar la estadística. Pero ese número de caracteres no es del todo exacto. Los caracteres en formato utf-8 (unicode), por ejemplo los caracteres chinos y japoneses, los caracteres matemáticos, algunos símbolos especiales, ... aparecen en las cajas de edición de los artículos como &#nnnnn, y se contarían como 7 caracteres, en vez de 1 (bueno, mejor 2, ya que no es lo mismo contar un carácter Unicode (que tiene más de 100.000 caracteres) que contar un carácter Latín-1(que tiene 255)). Además, también se cuentan los caracteres de las órdenes wiki y html. Aparte de eso, el número total de artículos no da ninguna información sobre la calidad de esos artículos. Bueno, pues aquí siguen los comentarios tal cual:
Me acaba de mandar un mensaje M.Romero, y sugiere eliminar del conteo el número de páginas y sustuirlo por el del peso global de la base de datos en Mb. Bueno ya se discutirá. Por cierto, cuenta el número de caracteres de las cajas de edición o de las páginas que se muestran al usuario, es decir, ¿se cuentan todos los table, sup, etc?, lo siento si es muy tonta la pregunta. Willy, viernes, 23 enero 2004
- Estoy casi seguro que se cuenta el número de caracteres de las cajas de edición, por haber experimentado sobre un artículo que contenía muchas tablas. M.Romero Schmidtke.
- Sí, también se cuentan. El contenido de cur_text es texto, no un archivo html. Y visto lo que pasa con las cajas de edición, creo que ese texto está en latín-1. PHP (para entender los comandos wiki) y Apache (para entender los comandos html) convierten ese texto en una página html. Yo creo que los comandos no se deberían excluir del conteo. Pienso que la maquetación, las tablas, etc. también son parte del artículo, contienen información (no sé cuántos Megas), y contribuyen a aumentar la calidad de la enciclopedia. Igual que las imágenes. Asi que estoy de acuerdo con Romero, en que deberíamos poner el número de Megas. Pero quizás (no sé cómo) habría que quitar de alguna forma el contenido no enciclopédico (páginas de discusión, etc.). Para eso ya tendría que entender el programa wiki. De momento sólo he estudiado mysql. A lo mejor Barravar sabe cómo hacerlo. Aunque pienso que debería incluirse también el número de caracteres, aunque no fuera tan representativo, ya que es muy fácil «engordar» una enciclopedia con fotos y plantillas. Se podría poner algo como «esta enciclopedia tiene x caracteres (o palabras) y ocupa x megas», y un enlace a la página de la estadística. Abu
El contador ideal, creo yo, seria el número de palabras, porque lo de caracteres es un poco 'abstracto', o sea dice pero no dice (no sé si se me entiende); si no fuera posible contarlas, podríamos hacer el cálculo nosotros; analizados 16 documentos de mi PC de diferentes longitudes y autores, la longitud media de las palabras es de 5,70239726 con una desviación típica de 0,02409972; Así que dividiendo el número de caracteres entre 5,7 tendríamos un buen contador de palabras. Si teneís algún documento en castellano por ahí podrías hacer la cuenta a ver si sale lo mismo (la verdad es que yo me he quedado alucinado, por eso no he seguido con más). Las tablas y el lenguaje wiki, al igual que los wikienlaces [así|asó] podrían descontarse del global aplicando una corrección considerando la longitud media de las palabras algo mayor; con 6, por ejemplo estaríamos descontando el 5% del número de palabras calculadas. las estadísticas hoy serían:
- Caracteres: 28771892, palabras: 4 960 671 ( 4 795 315).
- Longitud media de los artículos: 1350.7296 caracteres; 237 palabras (225).
Claro que véte a saber cómo se programa ésto para que aparezca automáticamente en la página de la portada. Willy, viernes, 23 enero 2004
- Y que lo digas (lo de programarlo). He estado mirando el manual de MySQL para ver cómo contar las &#, y no hay manera de hacerlo. Se necesita la última versión de MySQL (la 5.0 alfa, y probablemente estamos usando la 3.23, ja) y por otra parte, hacerlo como lo hacemos ahora, en la página de estadística, con los pocos «poderes» que tienen los administradores es imposible, tendría que hacerlo Juanan. Lo mejor sería reescribir el programa wiki. Lo de pasar de 5,7 a 6 me parece muy arbitrario. Es mejor contar exactamente las palabras que nos interesan (aunque yo sigo pensando que los enlaces y demás son importantes). Por cierto, yo también alucino con tus cálculos; no me lo esperaba...
- Contar las palabras no debería de ser más difícil que contar los &#, simplemente hay que contar los espacios en blanco y los saltos de línea.
- Abu
- Pero que soy de ciencias, oye!... si es que cuando me pongo con la regla de cálculo no hay quien me pare ... Willy
- Jajaj No, yo lo decía porque te dé una desviación tan pequeña... (o a lo mejor no lo es tanto, no lo sé :p lo mío son los dibujos, no los números...) Abu
Creo que, en todo caso, debería mantenerse el número de palabras o artículos (con o sin otro medidor), porque es un parámetro clásico, incluido en casi todas las enciclopedias y diccionarios, tanto en papel como en sistema informático. Es un parámetro más comprensible para cualquiera que, como yo, sea un indocumentado en informática o computación. - AFLastra, domingo, 25 enero 2004
Volver a discusiones abiertas.