Resulta que la web es un lugar frágil. Compañías, gobiernos, instituciones educativas, individuos y organizaciones instalan y desarman sitios todo el tiempo. El problema es que la web se ha convertido en un sistema de registro, y cuando los enlaces no funcionan porque las páginas ya no existen, el registro está incompleto.
Con la ayuda de voluntarios de Internet Archive, Wikipedia ha podido recuperar 9 millones de enlaces rotos y ayudar a resolver ese problema para al menos una base de conocimiento.
Internet Archive captura una copia de tantos sitios web como sea posible para crear un archivo de la web. Si sabe lo que está buscando, puede buscar en su archivo Wayback Machine de más de 338 mil millones de páginas web, que se remonta a los primeros días de la World Wide Web. El problema es que debes saber lo que estás buscando, y eso puede ser problemático.
Un colaborador de Wikipedia llamado Maximilian Doerr puso el poder del software en el problema. Construyó un programa llamado IAbot, abreviatura de Internet Archive bot. Internet Archive también da crédito a Stephen Balbach, quien trabajó con Doerr e Internet Archive, rastreando y verificando archivos de Wikipedia y escribiendo programas para corregir errores de datos.
En primer lugar, IAbot identificó los enlaces rotos, las páginas que devolvieron un error 404 o “página no encontrada”. Una vez que el bot identificó un enlace roto, buscó en el Internet Archive la página correspondiente, y cuando encontró una copia, se vinculó a ese, conservando así el enlace al contenido, aunque la página original o el sitio web ya no estuviera disponible.
Durante un período de tres años, ese software ayudó a reparar 6 millones de enlaces en 22 sitios de Wikipedia. Los voluntarios de Wikipedia arreglaron 3 millones de enlaces adicionales al vincularlos manualmente a la página correcta de Internet Archive, una cantidad asombrosa de trabajo de preservación y uno que ayuda a mantener la integridad de la web y proporciona un registro de auditoría donde faltaba uno.
En una publicación de blog que anunciaba los resultados del proyecto, Internet Archive informó que después de estudiar el comportamiento de los usuarios de Wikipedia con un clic de enlace en un período reciente de 10 días, descubrieron que la gran mayoría de los enlaces iban a páginas de Internet Archive, mostrando el El poder de este proyecto para arreglar enlaces rotos en Wikipedia.
Graph: Internet Archive
Hace unos años, escribí un artículo en el que lamentaba que Internet estaba fallando en la prueba de conservación del sitio web. Concluí: “Si podemos enviar bots para indexar Internet, parece que deberíamos poder encontrar una solución tecnológica automatizada para preservar el contenido para las generaciones futuras. Por lo menos, tenemos el deber de intentarlo “.
Si este es verdaderamente nuestro sistema de registro para el gobierno y la sociedad, entonces necesitamos más proyectos como este para preservar la integridad del sistema para las generaciones futuras. El proyecto Internet Archive / Wikipedia es ciertamente un paso positivo en esa dirección. Además, la organización planea desarrollar este trabajo en Wikipedia y otros sitios, al mismo tiempo que trabaja con editores o escritores que desean enlazar a páginas archivadas cuando ya no existen las páginas en vivo.