Avances en el procesamiento automático del lenguaje

Varias tecnologías han surgido en el procesamiento del lenguaje a partir de finales de 2018. BERT, Representaciones Bidireccionales de Encodificador de Transformadores o Bidirectional Encoder Representations from Transformators, comenzó este desarrollo.

Una de las ideas que explotan estas tecnologías es el uso de modelos de lenguaje generales en base a enormes cantidades de datos de entrenamiento como base para modelos específicos. Básicamente lo que distingue el lenguage de un dominio se va perfilando mejor cuando se tiene una gran cantidad de información sobre cómo es el modelo de un lenguaje en promedio. Aquí presentamos sencillamente algunas referencias sobre los últimos desarrollos en este campo.

BERT	Github
RoBERTa	Github	más datos, sin NSP, tasas de entrenamiento más altas que BERT
XLNet	Github	modelo de permutación del lenguaje