Autores:
(1) Martyna Wiącek, Instituto de Ciencias de la Computación, Academia Polaca de Ciencias;
(2) Piotr Rybak, Instituto de Ciencias de la Computación, Academia Polaca de Ciencias;
(3) Łukasz Pszenny, Instituto de Ciencias de la Computación, Academia Polaca de Ciencias;
(4) Alina Wróblewska, Instituto de Ciencias de la Computación, Academia Polaca de Ciencias.
Nota del editor: Esta es la primera parte de diez de un estudio sobre cómo mejorar la evaluación y comparación de herramientas utilizadas en el preprocesamiento del lenguaje natural. Lea el resto a continuación.
Resumen y 1. Introducción y trabajos relacionados
2.1. Concepto de investigación
2.2. Sistema de evaluación comparativa en línea
Con los avances de las arquitecturas basadas en transformadores, observamos el auge de las herramientas de preprocesamiento del lenguaje natural (NLPre) capaces de resolver tareas preliminares de NLP (por ejemplo, tokenización, etiquetado de partes del discurso, análisis de dependencias o análisis morfológico) sin ninguna guía lingüística externa. Es arduo comparar soluciones novedosas con kits de herramientas de preprocesamiento bien arraigados, que se basan en analizadores morfológicos o diccionarios basados en reglas. Conscientes de las deficiencias de los enfoques de evaluación de NLPre existentes, investigamos un nuevo método de evaluación y presentación de informes de rendimiento confiables y justos. Inspirado en el punto de referencia GLUE, el sistema de evaluación comparativa centrado en el lenguaje propuesto permite una evaluación continua integral de múltiples herramientas de NLPre, al tiempo que realiza un seguimiento creíble de su rendimiento. La aplicación prototipo está configurada para polaco e integrada con el punto de referencia NLPre-PL completamente ensamblado. Con base en este punto de referencia, realizamos una evaluación exhaustiva de una variedad de sistemas de NLPre polacos. Para facilitar la construcción de entornos de evaluación comparativa para otros idiomas, por ejemplo, NLPre-GA para irlandés o NLPre-ZH para chino, garantizamos la personalización completa del código fuente publicado públicamente del sistema de evaluación comparativa. Los enlaces a todos los recursos (plataformas implementadas, código fuente, modelos entrenados, conjuntos de datos, etc.) se pueden encontrar en el sitio web del proyecto: https://sites.google.com/view/nlpre-benchmark.
Palabras clave : evaluación comparativa, clasificación, segmentación, etiquetado POS, análisis de dependencias, polaco
Las características morfosintácticas predichas por los etiquetadores de partes del discurso (POS) y los analizadores sintácticos de dependencias sustentan varias tareas posteriores, que incluyen, entre otras, el análisis de sentimientos (Sun et al., 2019), la extracción de relaciones (Zhang et al., 2018; Vashishth et al., 2018; Guo et al., 2019), el etiquetado de roles semánticos (Wang et al., 2019; Kasai et al., 2019), la respuesta a preguntas (Khashabi et al., 2018) o la traducción automática (Chen et al., 2017; Zhang et al., 2019). Por lo tanto, estas tareas subyacentes pueden denominarse tareas de preprocesamiento del lenguaje natural (NLPre), ya que preceden a las tareas avanzadas de NLP. Dado que la calidad de las predicciones morfosintácticas tiene un impacto crucial en el desempeño de las tareas posteriores (Sachan et al., 2021), es prudente emplear las mejores herramientas NLPre existentes para predecir las características lingüísticas adecuadas. Contamos con varios métodos NLPre, que van desde herramientas basadas en reglas con gramáticas elaboradas a mano (por ejemplo, Crouch et al., 2011), pasando por sistemas estadísticos (por ejemplo, Nivre, 2009; McDonald et al., 2005; Straka et al., 2016), sistemas neuronales respaldados por modelos de lenguaje preentrenados (por ejemplo, Qi et al., 2020; Nguyen et al., 2021a) hasta grandes modelos de lenguaje (LLM Ouyang et al., 2022).
En el contexto de la evaluación intrínseca de las herramientas de NLPre y la presentación de informes sobre su rendimiento, se han propuesto diversos enfoques, por ejemplo, tareas compartidas, tablas de rendimiento y repositorios de progreso. El objetivo principal de una tarea compartida es evaluar exhaustivamente los sistemas participantes en los conjuntos de datos publicados utilizando la metodología de evaluación cuidadosamente definida. Hasta ahora se han organizado numerosas tareas compartidas de NLPre (por ejemplo, Buchholz y Marsi, 2006; Seddah et al., 2013; Zeman et al., 2017, 2018), y sin duda impulsaron el desarrollo de NLPre. Si bien son ampliamente favorecidas, las tareas compartidas son cuestionables como una fuente completa y actualizada de conocimiento sobre el progreso de NLPre. En primer lugar, solo examinan las soluciones propuestas en el concurso actual y no incluyen los sistemas que participan en las ediciones anteriores o posibles futuras. En segundo lugar, como las tareas compartidas se organizan esporádicamente, sus resultados no se revisan y pueden quedar obsoletos rápidamente. Sin duda, los conjuntos de datos publicados para tareas compartidas pueden reutilizarse en experimentos que impliquen herramientas novedosas. Los resultados de dichos experimentos pueden publicarse en publicaciones científicas independientes. No obstante, estas publicaciones están muy dispersas y carecen de una plataforma centralizada para realizar un seguimiento sistemático del progreso continuo de la NLPre con respecto a un idioma en particular.
Los resultados de una herramienta NLPre nueva o actualizada se suelen informar en tablas de rendimiento (por ejemplo, Stanza[1] o Trankit[2]). Estas tablas proporcionan información sobre la calidad de la herramienta en el preprocesamiento de un conjunto de lenguajes. Sin embargo, las tablas de rendimiento a menudo carecen de comparación con otros sistemas entrenados para estos lenguajes en particular. Además, como los sistemas NL Pre pueden entrenarse en diferentes versiones de conjuntos de datos (por ejemplo, de dependencias universales), la comparación de sus tablas de rendimiento no es concluyente.
La información sobre tendencias y avances en la investigación de PNL se suele recopilar en repositorios públicos como Papers with Code[3] o NLP-progress[4]. Estos repositorios contienen un repertorio de conjuntos de datos para tareas comunes de PNL, por ejemplo, análisis de dependencias y etiquetado POS, y clasificaciones de modelos entrenados y probados en estos conjuntos de datos. Están abiertos a contribuir con nuevos conjuntos de datos y resultados que, para garantizar su credibilidad, se originen en artículos científicos publicados y vinculados. Sin embargo, los resultados de vanguardia aún no publicados de un sistema NLPre nuevo o actualizado no son elegibles para informar. Las tareas de NLPre están acompañadas de conjuntos de datos principalmente en inglés, lo que plantea el problema de la falta de representación del idioma de los repositorios. Por último, pero no menos importante, el repositorio Papers with Code es propenso al abuso. Después de iniciar sesión, uno puede agregar nuevos resultados y vincularlos con artículos irrelevantes, así como editar los resultados existentes. Los resultados fraudulentos se publican de inmediato.
A pesar de brindar información valiosa sobre el progreso en NLPre, los enfoques de evaluación mencionados también revelan deficiencias, por ejemplo, resultados obsoletos e incompletos, falta de comparación entre sistemas, no tener en cuenta algunos sistemas, riesgo de manipulación de resultados y ausencia de una perspectiva centrada en el lenguaje.
Siguiendo los procedimientos estándar en la investigación de PNL, proponemos evaluar de manera sólida y justa las herramientas de PNLPre utilizando el método de evaluación comparativa que permite la evaluación del desempeño y el progreso de los modelos de PNL. Los puntos de referencia de PNL se combinan con tablas de clasificación que informan y actualizan el desempeño del modelo en las tareas de referencia, por ejemplo, GLUE (Wang et al., 2018), XTREME (Hu et al., 2020), GEM (Gehrmann et al., 2021). El enfoque de evaluación comparativa convencional se puede mejorar dinámicamente, ejemplificado por la plataforma Dynabench (Kiela et al., 2021), que permite a los usuarios aumentar los datos de referencia ingresando ejemplos personalizados. Este escenario de evaluación comparativa de humanos y modelos en el bucle parece prometedor para las tareas de PNL. Sin embargo, puede que no sea efectivo en el caso de NLPre, ya que anotar ejemplos creíbles de árboles sintácticos o características morfológicas requiere conocimientos expertos. Encontrar múltiples expertos entre usuarios ocasionales puede ser un serio obstáculo, por lo que implementamos nuestro sistema en sintonía con el método de evaluación comparativa estándar.
Hasta donde sabemos, no se ha utilizado la evaluación comparativa para clasificar los sistemas NLPre, aunque sea valiosa y deseada por la comunidad que crea bancos de datos o diseña canales avanzados de PNL. Nuestro enfoque de evaluación comparativa de NLPre llena este vacío. El sistema de evaluación comparativa en línea propuesto evalúa automáticamente las predicciones enviadas de los sistemas NLPre y publica su clasificación de desempeño en un tablero de indicadores público (consulte la Sección 2.2). El sistema está centrado en el lenguaje y es independiente del conjunto de etiquetas, permite una evaluación integral y creíble y constituye una fuente de información actualizada sobre el progreso de NLPre para un lenguaje en particular. A diferencia de plataformas similares, por ejemplo, Codalab (Pavao et al., 2022), el sistema de evaluación comparativa de NLPre es completamente configurable y fácil de instalar, lo que permite a los usuarios establecer un entorno de evaluación para cualquier lenguaje. Además, puede alojarse en servidores propios, lo que hace que sea conveniente para los desarrolladores e investigadores que trabajan con un lenguaje en particular tenerlo accesible en un servidor local.
Para justificar el uso de la técnica de evaluación comparativa para las tareas de NLPre, llevamos a cabo una investigación empírica en un escenario desafiante con el polaco como idioma de ejemplo. En el caso del polaco, surge un obstáculo dominante: las discrepancias entre los diferentes conjuntos de etiquetas, esquemas de anotación y conjuntos de datos utilizados para entrenar sistemas dispares impiden su comparación directa. Por lo tanto, estandarizamos el entrenamiento y la evaluación de los sistemas NLPre en un nuevo punto de referencia de rendimiento para polaco, en adelante NLPre-PL (ver Sección 3). Consiste en un conjunto predefinido de tareas NLPre y versiones reformuladas de conjuntos de datos polacos existentes. La Sección 4 describe nuestra evaluación sólida y confiable de los sistemas NLPre seleccionados en el punto de referencia NLPre-PL. Según nuestro conocimiento, no se han llevado a cabo experimentos de evaluación en polaco para comparar el rendimiento de los LLM listos para usar, los sistemas NLPre neuronales y los desambiguadores de etiquetado establecidos debido a la falta de un entorno de evaluación coherente.
Este trabajo realiza una contribución tripartita que abarca novedad, investigación y desarrollo respaldados por un espíritu de código abierto. (1) Proponemos un nuevo enfoque de evaluación comparativa orientado al lenguaje para evaluar y clasificar los sistemas NLPre. (2) Realizamos una evaluación científica del enfoque propuesto en el escenario del idioma polaco no trivial en el punto de referencia NLPre-PL ensamblado. (3) Publicamos plataformas de evaluación comparativa en línea para tres idiomas distintos: polaco[5], chino[6] e irlandés[7], y publicamos el código fuente del sistema de evaluación comparativa como código abierto.
Este artículo está disponible en arxiv bajo la licencia CC BY-NC-SA 4.0 DEED.
[1] https://stanfordnlp.github.io/stanza/performance.html (UD v2.8)
[2] https://trankit.readthedocs.io/en/latest/performance.html#universal-dependencies-v2-5 (UD v2.5)
[3] https://paperswithcode.com
[4] http://nlpprogress.com
[5] https://nlpre-pl.clarin-pl.eu
[6] https://nlpre-zh.clarin-pl.eu
[7] https://nlpre-ga.clarin-pl.eu