jueves, 23 de febrero de 2017

Datos salvajes.

La razón por la que el sistema de traducción de Google funciona bien no es porque disponga de un algoritmo más inteligente. Funciona bien porque sus creadores, como hicieron Banko y Brill en Microsoft, lo abastecieron de más datos, y no sólo de alta calidad. Google fue capaz de usar un conjunto de datos decenas de miles de veces mayor que el del Candide de IBM porque aceptó la confusión. El corpus de un billón de palabras que Google dio a conocer en 2006 se recopiló a partir de todo el aluvión de contenido de internet; “datos salvajes”, por así decir. Ese fue el “conjunto de datos de entrenamiento” mediante el cual el sistema pudo calcular la probabilidad, por ejemplo, de que una palabra siguiese a otra en inglés. Era muy distinto de su abuelo en este campo, el célebre corpus de Brown de la década de 1960, que suponía un total de un millón de palabras inglesas. 

Peter Norvig
El usar el conjunto de datos más amplio permitió grandes avances en el procesamiento de lenguajes naturales, sobre el que se basan los sistemas para tareas como el reconocimiento de voz y la traducción por ordenador. “Los modelos simples y con un montón de datos vencen a los sistemas más elaborados basados en menos datos”, escribió Peter Norvig, gurú de la inteligencia artificial de Google, junto con unos colaboradores en un artículo titulado “La efectividad irrazonable de los datos”. Como explicaron Norvig y sus coautores, la clave estaba en la confusión: “De alguna forma, este corpus supone un paso atrás respecto al corpus de Brown: procede de páginas web sin depurar, por lo que contiene oraciones truncadas, errores ortográficos, gramaticales y de todo tipo. No se ha anotado, etiquetado ni corregido cuidadosamente a mano las distintas partes de la oración. Aun así, el hecho de ser un millón de veces más amplio que el corpus de Brown compensa.

No hay comentarios:

Publicar un comentario