Un lenguaje universal para Wikipedia

octubre 23, 2024

Un lenguaje universal para Wikipedia

No es noticia para la mayoría, pero por si no lo sabes, Wikipedia es la enciclopedia más grande del planeta. Su contenido está disponible en línea y cuenta con una gran amplia gama de idiomas que hacen de esta, una enciclopedia que además cuenta con la ventaja de ser colaborativa y mantenida exclusivamente por voluntarios alrededor del globo.

No hay una sola Wikipedia

Cada uno de los más de 300 idiomas que componen la red de enciclopedias virtuales de Wikipedia, tiene una serie única de artículos que no son traducciones de otras versiones. Cada Wiki es una colección independiente de conocimiento construido y curado por miles de integrantes que velan por una Wikipedia sana y saludable para todos.

Diagrama en donde se ve la cantidad de artículos entre diferentes Wikipedias, podemos ignorar para ciertos efectos al Cebuano, cuya gran mayoría de entradas de dudosa calidad están escritas por un bot.

Para recalcar: cada Wikipedia, sabiendo que se separan por idiomas; está compuesta por una comunidad independiente que decide sobre los direccionamientos y estrategias con cierta autonomía.

Conocimiento que se pierde entre una versión y otra

Ahora bien, se podría creer que al ser la Wikipedia en Inglés la más grande, la mayoría de los artículos de las demás estén basados o inspirados en gran parte por su contenido. Pero ya vimos que no podríamos estar más equivocados, porque por ejemplo si comparamos las dos wikis más grandes, notamos que la diferencia entre las dos es muy notoria:

Comparativa entre artículos compartidos de Wikipedias en Alemán e Inglés a 2023.

Existen para este ejemplo, más de un millón de artículos en la Wikipedia en Alemán que no existen en la versión de Inglés; y agregando a esta situación de oscuridad por parte de todos los que no leemos Alemán, también hay un sinfín de artículos en el resto de la red de Wikipedias que están en idiomas que no entendemos (incluso si se es bilingüe o se dominan varios idiomas). Hay una suerte de tesoros ocultos, que no solo nos esperan en la oscuridad, sino que también contienen cartas que no podemos leer.

Ahora, la misión de Wikipedia es la de poder llevar conocimiento a todas las personas en el planeta, ¿cómo lograr esto si hay una gran porción de ese conocimiento en idiomas muy separados los unos de los otros?, ¿cómo facilitar este acceso?

Y sé lo que estás pensando…

No Machine Learning ni Google Translate ni GPT ni nada de eso

¿Cuál es el problema con la traducción usando machine learning y derivados? → La calidad de los resultados va a depender como todo modelo de aprendizaje, de la naturaleza y calidad de los datos de entrada con que se alimenta ese modelo (en este caso, un traductor), y si queremos por ejemplo poder leer toda la Wikipedia (sus artículos globales), en un idioma que a duras penas tendrá presencia online (como el wayú), ¿cómo entrenar un modelo de machine learning para aprender de algo de lo que no tiene suficiente información?, y además… aún si se pudiese, ¿cómo se garantiza que sean traducciones confiables?

El sueño del lenguaje universal

Desde la Ilustración, muchos han intentado formalizar el lenguaje de tal forma que se pueda representar la información definida en cualquier idioma mediante una serie única de datos. Originalmente, la intención detrás de esto en escolares del siglo XVII entre los que se incluyen buenos conocidos como Leibniz, Newton, Descartes, Voltaire, entre otros; era la de encontrar el lenguaje que se creía hablaban las personas antes de los acontecimientos de la torre de Babel mencionados en la mitología judeocristiana.

Estos lenguajes son referidos también como lenguaje filosófico.

¿Qué tal un enfoque de programación y datos?

Ahora bien, ¿qué tal si se retoman aquellos anhelos de la Ilustración, para que junto con la tecnología que hemos empezado a crear como especie, poder concretar aquel ideal?

Article(
    content: [
        Ranking(
            subject: Spanish (Q1321),
            rank: 4,
            object: Language (Q34770),
            by: number of speakers (Q23892516),
            local_constraint: World (Q2),
            after: [
                English (Q1860),
                Mandarin (Q9192),
                Hindi (Q1568)
            ]
        ),
        Ranking(
            subject: Spanish (Q1321),
            rank: 2,
            object: Language (Q34770),
            by: Object_with_of(
                    object: quantity (Q309314),
                    of: native speakers (Q924130)
                ),
            local_constraint: World (Q2),
            after: [
                Mandarin (Q9192)
            ]
        )
    ]
)

La anterior estructura de información correlacionada (cuya definición se adapta a partir del ejemplo aquí en este artículo definiendo la Wikipedia Abstracta) podría traducirse a nuestro idioma como:

El español es el cuarto lenguaje más hablado en el mundo después del inglés, mandarín e hindi. Es además el segundo con mayor cantidad de parlantes después del mandarín.

De igual manera, es un contenido que a pesar de guardarse como estructura en inglés (meramente por conveniencia), podría renderizarse a cualquier lenguaje soportado por la Wikipedia Abstracta, sirviendo como base para una enciclopedia pluri-lenguaje que pueda ser consumida por cualquier persona siempre y cuando su lengua se encuentre dentro del ecosistema.

Esta renderización, podría entenderse como a partir de la definición de ideas y conceptos con sus respectivas interrelaciones, compilar esa definición ideal a un idioma dado.

Vale la pena mencionar, que ya como he escrito, cada Wikipedia es independiente y tiene sus artículos curados por su comunidad, este proyecto de internacionalización de la enciclopedia no tiene como intención reemplazar artículos actuales, sino servir como un apoyo para acceder a contenidos en otros idiomas.

Plus: Wikidata

Como pudiste notar, en el ejemplo anterior tenemos referencias entre paréntesis a valores con “Q” e identificadores numéricos; que en caso de no estar familiarizado con Wikidata, no sabrás a qué hacen referencia.

Miremos la primera aparición, Q1321 que si sigues el enlace, encontrarás que es un sitio especial en donde se almacenan metadatos relacionados con el español (o castellano) como concepto, que sirven de soporte para el funcionamiento de Wikipedia y otros proyectos.

Wikidata en breve: Enlace en Wikimedia

Wikipedia Abstracta es una aplicación más de Wikidata, donde como podrás suponer, si se espera que exista algo como un lenguaje universal; es menester tener acceso a un repositorio de conceptos que puedan compartirse entre todas las lenguas del mundo; aquí entra Wikidata en acción.

Funciones renderizadoras y Wikifunctions

Para poder convertir la estructura de datos a cualquier idioma, se necesitan elementos que “calculen”, la respectiva traducción, elementos llamados funciones. Esta acción se denomina renderización, y para efectuarla, Wikimedia lanzó el año pasado (2023) su primer nuevo proyecto en muchos años: Wikifunciones.

A su vez, Wikifunciones servirá también como repositorio libre sobre funciones de todo tipo, que permitan a sus usuarios el poder jugar con ellas, observarlas, ejecutarlas, probarlas, etc…

Observaciones finales.

Esta es una apuesta del movimiento Wikimedia para formalizar texto multilenguaje, y el reto consiste en llegar a realizar esta tarea con un elemento del conocimiento humano que se toma por algo tan caótico y sin reglas que puedan definirse universalmente. Sin embargo, avances en procesamiento de lenguaje natural y su integración novedosa en Wikifunctions nos irán dando detalles sobre el futuro de este particular.

Opinión personal: No deja de ser entretenido el pensar que un aspecto tan cotidiano para nosotros como lo es el lenguaje, pueda modelarse por medio de relaciones matemáticas; tirando por borda aquel creencia de algunas personas de que las lenguas están separadas de las matemáticas. A la larga, todo en nuestro universo podría verse como una aplicación de estas.

Buscar este blog

Blog de jon85p

Un lenguaje universal para Wikipedia

No hay una sola Wikipedia

Conocimiento que se pierde entre una versión y otra

No Machine Learning ni Google Translate ni GPT ni nada de eso

El sueño del lenguaje universal

¿Qué tal un enfoque de programación y datos?

Plus: Wikidata

Funciones renderizadoras y Wikifunctions

Observaciones finales.

Comentarios

Publicar un comentario

Entradas populares

La IA quizás está salvando mi relación con la programación

Tareas asíncronas simples en Django [sin Celery, Redis ni más sobreingeniería]