domingo, 5 de junio de 2011

La Library of Congress preservará los contenidos de Twitter

Se ha publicado recientemente la noticia de que la Biblioteca del Congreso de EEUU (Library of Congress, LC) — que es el equivalente en ese país a una Biblioteca Nacional — ha adquirido el archivo de Twitter y va a hacerse responsable de la preservación de los mensajes generados, los cuales de otro modo desaparecerían al cabo de poco tiempo.

Esta iniciativa puede plantear algunas dudas y, de hecho, desde que se publicó la noticia, es un tema que ha generado cierta polémica, como puede verse en los comentarios dejados en el blog de la LC:

http://blogs.loc.gov/loc/2010/04/how-tweet-it-is-library-acquires-entire-twitter-archive/

En este post voy a tratar de dar mi visión personal sobre algunos de estos aspectos.


1. ¿Realmente merece la pena preservar los mensajes enviados a través de Twitter?

En mi opinión, la respuesta debería ser afirmativa. Ha habido acontecimientos muy importantes y que serán objeto de estudio por historiadores y sociólogos durante mucho tiempo, en cuyo desarrollo Twitter ha jugado un papel muy relevante.

Quizás el primer ejemplo de la importancia que empezaba a tener Twitter fue su uso por el equipo de Barack Obama durante su campaña electoral, y los movimientos populares que se iniciaron hace unos meses en Egipto y otros países árabes han venido a confirmar esta tendencia.


2. La mayoría de los tweets son absolutamente banales. ¿Deberían ser conservados todos ellos, o más bien hacer una selección previa?

Es cierto que sólo una pequeña parte de los tweets van a ser realmente interesantes para investigaciones futuras: la mayoría son pura conversación sin trascendencia, envío de enlaces cuyo interés es efímero, etc.

Sin embargo, encuentro muy arriesgado realizar una selección previa, dado que no podemos saber cuáles serán los temas que al cabo de los años podrán ser objeto de estudio por los investigadores. Por supuesto, hay temas, como los que he mencionado al principio, cuyo interés es obvio incluso ahora; pero puede haber otros muchos que los responsables de la LC los consideren banales y que sin embargo sean relevantes para determinadas investigaciones.

Por ejemplo, la pura charla sobre series de TV, sobre cantantes o deportistas famosos, etc., que puede parecer que no tiene ningún interés a largo plazo, podría servir como base para estudios estadísticos sobre los modelos de ocio en el siglo XXI, sobre cómo se configuraba la cultura popular, etc.

Y esto sin contar con que cualquier expurgo debería basarse en una serie de búsquedas por palabras clave o por hashtags, y eso también es muy arriesgado: una búsqueda mal realizada puede hacer que se pierda para siempre información relevante.

Por ello, en la medida de lo posible, creo que lo ideal sería preservar el archivo completo.

Una cuestión lateral al respecto podría ser si hay que conservar también los retweets, dado que constituyen mensajes duplicados. De ser posible, yo sí vería preferible conservarlos también, por dos razones:

a) El número de retweets es también un indicador de cuáles son los temas candentes en un momento dado, cuáles son los usuarios más influyentes, etc.

b) Hacer un retweet no implica necesariamente enviar una copia exacta del mensaje original: podemos modificar parcialmente el contenido, añadir o quitar hashtags, etc.



3. ¿Conservar estos mensajes no viola la privacidad de los usuarios que los enviaron?

Hay que tener en cuenta que estamos hablando de mensajes que fueron enviados a través de un canal público y que podían ser leídos, copiados y conservados por cualquier usuario de Internet; con la excepción, por supuesto, de los usuarios que configuren su perfil como privado, y entiendo que esos mensajes no se van a conservar, o no deberían conservarse.

Pero en cuanto al resto de los tweets, una vez que se han enviado por un canal público, no creo que pueda alegarse ninguna violación de privacidad por el hecho de conservarlos.

Es cierto, sin embargo, que muchos usuarios no son quizás plenamente conscientes de este hecho, y que han enviado muchos mensajes que ellos consideraban efímeros y que no les gustaría que fuesen consultados por cualquier persona al cabo de los años.

En este sentido, incluso aunque no creo que pueda hablarse de una verdadera invasión de la privacidad, sí sería exigible una mayor información a los usuarios del carácter público de sus mensajes y del hecho de que éstos van a ser conservados y se ofrecerán para consulta pública. Estas condiciones deberían indicarse a los usuarios de Twitter de un modo absolutamente explícito, no en un pliego de condiciones largo y farragoso que la mayoría no llega a leer.

Otra cuestión relacionada podría ser: ¿qué pasa si un usuario tenía un perfil público y después decide hacerlo privado? La respuesta que yo daría a este supuesto es muy simple: los tweets que se enviaron bajo un perfil público pueden ser archivados y conservados, pero los que se envíen con un perfil privado no. Me parece el criterio más razonable y que mejor equilibra la privacidad de los usuarios con el carácter público de la mayoría de los envíos.


4. ¿Está justificada la inversión que supone este proyecto, especialmente en un momento de crisis económica?

Este es, en mi opinión, el argumento más fuerte contra esta iniciativa, y no tengo una respuesta clara al respecto.

El volumen de tweets generado cada día es inmenso (más de 50 millones de tweets diarios, según el blog de la LC), así que su preservación exigirá unos recursos materiales y humanos importantes y un plan de preservación muy bien diseñado.

A pesar de que esta información me parece importante de cara a posibles investigaciones futuras, no tengo claro al 100% si es el destino óptimo para esos recursos o podrían dedicarse a otros proyectos más importantes. En definitiva, es una cuestión de establecer prioridades, y tampoco me atrevería a afirmar tajantemente que la preservación de los contenidos de Twitter sea prioritaria hasta ese punto.

Sin embargo, creo que para la LC no es una cuestión sólo de preservar la información, sino también de imagen: una de las razones de esta iniciativa es probablemente presentarse ante el público como una institución muy implicada con las nuevas tecnologías y alejada de la imagen tradicional de las bibliotecas.


5. Si se conserva el archivo de Twitter, ¿no deberían conservarse también otras fuentes similares, como los mensajes de otras redes sociales?

Es cierto. Facebook puede haber sido tan importante en determinados movimientos como Twitter o incluso más, y también lo son la infinidad de blogs en los que los usuarios expresan sus opiniones (tanto en las entradas como en los comentarios), los foros, etc.

Si se deseara hacer en el futuro una investigación completa, lo ideal sería disponer de todas estas fuentes. Pero nuevamente, es una cuestión de recursos: Twitter es una fuente importante y es la más fácil de preservar, al basarse en mensajes de texto de un máximo de 140 caracteres.

Conservar otras fuentes sería muy deseable, pero es probable que supusiera una inversión imposible de asumir. La preservación del archivo de Twitter puede ser un término medio aceptable.

En relación con esto, está también el debate sobre si además de los tweets, no deberían conservarse las páginas web y blogs a los cuales ellos enlazan, para permitir que la información esté completa. El argumento es el mismo: sería lo óptimo, en efecto, pero ya estamos hablando de un proyecto mucho más complejo y que es de temer que consumiría unos recursos excesivos. Aquí sí que puede ser inevitable realizar una selección previa y conservar sólo las páginas web más destacadas.

4 comentarios:

  1. Sobre este último punto, ¿qué sentido entonces tiene almacenar tweets vacíos? Al tratarse de un SNS en el que, básicamente, se comparten enlaces, en muchas ocasiones, al desligar esos tweets de sus vínculos, por no conservarlos, perderán todo el sentido. Sí, es un proyecto mucho más complejo, pero, si hay que ponerse, lo mejor es hacerlo bien, ¿no?

    ResponderEliminar
  2. Como ya sabéis, coincido completamente con la idea de que un tweet con una url que no apunta hacia ningún contenido pierde su coherencia y por lo tanto, de poco puede servir en una futura investigación.
    Pensemos por un momento qué pasaría con la gran cantidad de tweets que hemos generado desde #websoc11 (y que en casi todos ellos aparece una url) si de repente no pudiéramos acceder a la información de los enlaces, ¿qué sentido tendrían?

    Un proyecto de preservación debería estar orientado a una posterior recuperación de información ¿no?

    Un saludo

    ResponderEliminar
  3. Tenéis razón en que eso sería lo óptimo, pero dese luego no parece que estén haciéndolo por el momento.

    De hecho, el último artículo sobre este tema que nos ha mandado Isa indica que el problema que están teniendo ahora es para mapear las URLs acortadas:

    http://radar.oreilly.com/2011/06/library-of-congress-twitter-archive.html

    "many tweets contain shortened URLs, and the Library of Congress is in discussions with many of these providers as well as with the Internet Archive and its 301works project to help resolve and map the links."

    Si ya las URLs acortadas les están suponiendo un problema añadido, guardar las páginas enteras ya ni te cuento. Para mí está claro que eso sí que es multiplicar el proyecto por 100, por 1000 o por 10.0000, y no se van a meter en eso. Almacenarán páginas seleccionadas, pero hasta ahí.

    Supongo que también están jugando con que las páginas web no desaparecen tan rápido como los tweets, y que la mayoría seguirán ahí durante años. Pero claro, si se piensa en un proyecto que realmente sea útil al cabo de varias décadas, una de dos: o guardan las páginas destino, o hay que limitar cualquier investigación al texto contenido dentro de los propios tweets.

    ResponderEliminar
  4. Por lo que estamos viendo en Digitalización (y que tu viste el año pasado), la obsolescencia está a la orden del día, por lo que sí, se puede esperar que por lo menos pasen diez años para que desaparezcan esas páginas, pero si no se empieza a hacer simultáneamente no se hará, y si no se hace pierde bastante sentido. Pero bueno, no se puede pedir más, suficiente que se hayan lanzado a esta ardua tarea. ¡Veremos qué pasa!

    ResponderEliminar