A menudo, uno se imagina a Internet como una biblioteca universal con una cantidad infinita de encastres y divisiones. Y aunque la mayoría confía en que sus conexiones se mantendrán por siempre, muchas veces, estos enlacen desaparecen sin dejar rastro.
El crepúsculo de la Internet moderna se desató gracias a un estudio de Pew Research Center quien descubrió que, una cuarta parte de las paginas indexadas en la última década (entre 2013 y 2023) ya no estaban activas.
Este porcentaje del 25% se ve afectado por dos tipos de fallos muy habituales. El 16% de las páginas son inaccesibles, aunque dependen de un dominio que todavía está activo. Lo que implica que se podría corregir. Mientras que en el 9% restante, el sitio dejó de estar online y son irrecuperables.
Lo que demuestran que tanto los documentos digitales como los analógicos están sujetos a las mismas leyes de la caducidad. Lo que representa una pérdida progresiva de información considerada valiosa.
La lenta extinción de la red
Varios formas de mostrar el Error 404, de página desconocida.“Hemos examinado los enlaces que aparecen en sitios web gubernamentales y de noticias, así como en algunas citas en Wikipedia y los resultados fueron sorprendentes”, indican los expertos.
El 23% de los sitios de noticias contienen al menos un enlace roto. Esto afecta por igual a quienes tienen un alto nivel de tráfico y los que reciben pocos visitantes.Las páginas de las administraciones gubernamentales son especialmente propensas a tener enlaces fantasmas. Sólo en los Estados Unidos -sobre una muestra de 500.000 páginas- el 21% quedaron truncadas.Mientras que 54% de las páginas de Wikipedia contienen al menos un link en su sección Referencias (citas ubicadas al pie) que apunta a una página que ya no existe.Para llevar adelante este análisis, se recogió una muestra aleatoria de un millón de páginas web al año de los archivos de Common Crawl, un servicio que recopila instantáneas de la web.
“Las instantáneas más antiguas de nuestra colección tuvieran la mayor proporción de enlaces rotos. De las páginas recogidas en la instantánea de 2013, el 38% ya no son accesibles en la actualidad”.
Pero incluso en el caso de las que fueron recogidas en la instantánea de 2021, una de cada cinco ya no estaba habilitada tan solo dos años después.
Caminos sin retorno
El problema de los enlaces que no conducen a ningun sitio.La pérdida de enlaces también causa estragos entre las filas del periodismo, historiadores y académicos que intentan citar material que ya perdió su punto de referencia.
Un análisis de la Universidad de Harvard determinó que, el 70% de las páginas web estudiadas en las revistas jurídicas no enlazan con sus fuentes originales.
Cerca de la mitad de los links de las opiniones del Tribunal Supremo de Estados Unidos estaban vacíos. Y tres cuartas partes de los vínculos examinados por los investigadores conducían a versiones distintos de los que citaban.
MIentras que el 6% de las páginas web consideradas como seguras (que empieza con https://) desembocan en un archivo estático, como un documento PDF. Y el 16% envía a una URL distinta de la que apuntaba originalmente.
Las razones detrás de esta decadencia son diversas. Una causa común es la eliminación deliberada por parte del propietario del sitio. Esto puede ocurrir cuando el contenido ya no es relevante o se considera obsoleto.
Otro motivo es la reestructuración general, donde se eliminan o cambian direcciones deliberadamente. A su vez, algunos dominios dejan de estar activos porque los propietarios no renuevan sus registros o las empresas cerraron operaciones.
Según el análisis realizado por Pew Research Center, este tipo de “desaparición” afecta tanto a páginas individuales como a dominios completos.
En el listado están también los fallos técnicos en los servidores y problemas con el hosting, algo que contribuye a la pérdida de datos. En muchas ocasiones, estos problemas aparecen como “errores 404” que indican que la página ya no está.
El ocaso también llega a X
X sujeta a los mismos fallos de las páginas web. EFEEn las redes sociales se está produciendo un efecto muy similar. Una quinta parte de los post, según Pew Research Center, desaparecen de X a los pocos meses de ser publicados.
Así, uno de cada cinco posteos ya no son visibles pocos meses después de haber sido lanzados. De este total, el 1% se eliminan en menos de una hora, 3% en un día, 10% en una semana y 15% en un mes.
Lo que implica que la mitad de los que fueron eliminados de la plataforma no están disponibles en los seis primeros días desde su aparición. Y el 90% de estos tweets ya no están disponibles en 46 días.
Entre las razones, en el 60% de los casos, la cuenta que lo publicó se hizo privada, se suspendió o se eliminó por completo. En el 40% restante, el titular eliminó el tuit, pero la cuenta seguía existiendo.
“También observamos que los tweets eliminados o borrados solían proceder de cuentas nuevas con relativamente pocos seguidores y una actividad modesta”.
Para esta comparación, se realizó un seguimiento de unos 5 millones de posteos, mediante la recopilando de unos 3.000 tuits públicos cada 30 minutos en tiempo real.
“Al finalizar el periodo de observación, descubrimos que el 18% de los tuits de nuestra ventana de recopilación inicial ya no eran visibles públicamente en el sitio”.
Cómo preservar la memoria digital
En vistas de este goteo permanente, varias organizaciones y entidades sin ánimo de lucro se dedican a archivar datos revelantes de la red.CLOCKSS es una comunidad de editores, académicos y bibliotecas de investigación de todo el mundo que trabajan para ofrecer un archivo en línea sostenible.
El público puede cargar y descargar libremente datos de su colección. También guarda páginas web antiguas ya desaparecidas, unos 56 millones de artículos periodísticos y permite a cualquiera acceder a ellas a través de su navegador, Wayback Machine.
Funciona junto a una extensión para Google Chrome que detecta los códigos de error 404, 408, 410, 451, 500, 502, 503, 504, 509, 520, 521, 523, 524, 525 y 526, para buscar si existe una versión archivada en sus registros.
En el ámbito jurídico, Perma.cc es el servicio de archivo subvencionado por la Biblioteca de la Facultad de Derecho de Harvard en colaboración con bibliotecas legislativas universitarias
Para utilizarlo es necesario crear una cuenta gratuita. Al ingresar el enlace, Perma.cc descarga el material de esa URL y devuelve un «enlace Perma.cc» que puede insertarse en un documento, artículo, blog o lo que el autor necesite.
SL