paint-brush
Calificación automatizada de ensayos mediante modelos lingüísticos ampliospor@junaidsyed
Nueva Historia

Calificación automatizada de ensayos mediante modelos lingüísticos amplios

por Junaid Syed15m2024/10/12
Read on Terminal Reader

Demasiado Largo; Para Leer

Este artículo aborda los desafíos de la calificación automatizada de ensayos (AES), haciendo hincapié en la dificultad de calificar ensayos debido a características subjetivas como la cohesión, la gramática y la relevancia. El estudio se centra en seis métricas analíticas y propone mejoras con respecto a los métodos actuales mediante el uso de aprendizaje multitarea, redes de autocodificadores y modelos avanzados como Longformer para manejar ensayos más largos. A pesar de los avances significativos con modelos como BERT, persisten problemas como las restricciones de longitud de tokens y la falta de comprensión contextual. El artículo explora soluciones, incluidas las codificaciones de documentos, para mejorar la precisión y la imparcialidad de AES.
featured image - Calificación automatizada de ensayos mediante modelos lingüísticos amplios
Junaid Syed HackerNoon profile picture
0-item

Autores:

  • Junaid Syed, Instituto Tecnológico de Georgia
  • Sai Shanbhag, Instituto Tecnológico de Georgia
  • Vamsi Krishna Chakravarthy, Instituto de Tecnología de Georgia


La calificación automatizada de ensayos (AES, por sus siglas en inglés) es una tarea clásica de PNL que se ha estudiado durante muchas décadas. AES tiene mucha relevancia práctica y un potencial económico masivo: AES es la piedra angular de los grandes exámenes competitivos (por ejemplo, SAT, GRE) y también del floreciente mercado del aprendizaje en línea. Varias organizaciones filantrópicas y sin fines de lucro, como la Fundación Bill y Melinda Gates y la Iniciativa Zuckerberg-Chan, han financiado múltiples competencias de Kaggle sobre AES [6, 7, 8]. Sin embargo, a pesar de estos esfuerzos, el problema está lejos de resolverse debido a las dificultades fundamentales con la calificación de ensayos. Evaluar un ensayo es altamente subjetivo e involucra factores abstractos como la cohesión, la gramática, la relevancia, etc., que son difíciles de calcular. Como resultado, obtener etiquetas para los datos de entrenamiento con una calificación granular de un ensayo en características como la gramática, la coherencia, etc. es bastante costoso. En consecuencia, el conjunto de datos de entrenamiento es bastante limitado en comparación con otras tareas de PNL, como los modelos de lenguaje (enmascarados), NER, etiquetado POS, traducción automática, etc. Además, proporcionar una puntuación general simple proporciona poca o ninguna retroalimentación al estudiante y no lo ayuda en su progreso. Por lo tanto, los esfuerzos actuales se centran en evaluar el ensayo en los aspectos granulares en lugar de una sola puntuación. Esto también ayuda a evitar el sobreajuste porque el modelo de predicción ahora tiene que funcionar bien en todas las métricas y no solo en una métrica; esencialmente, uno puede pensar en esto como un modelo multitarea. En el estudio actual, nos centramos en seis métricas: cohesión, sintaxis, vocabulario, fraseología, gramática y convenciones.


1.1 Estudio de la literatura

Antes de la década de 2010, la mayoría de los modelos AES dependían de características diseñadas a mano por lingüistas computacionales [10, 4]. Sin embargo, estos modelos generalmente estaban sesgados hacia ciertas características (por ejemplo, la extensión del ensayo) y no podían generalizarse entre temas y métricas. El sesgo hacia las características hechas a mano se abordó reemplazándolas con incrustaciones de palabras aprendidas por modelos de lenguaje como Word2Vec y GloVe. Con base en estas incrustaciones de palabras, las puntuaciones del ensayo se predijeron como tareas de regresión y clasificación agregando una red neuronal aguas abajo de las incrustaciones de palabras. Al usar incrustaciones entrenadas en un corpus grande, se observa una mejora significativa en la puntuación del ensayo para todas las métricas, así como en la puntuación general [11]. Sin embargo, las mismas incrustaciones de palabras que fueron cruciales para las mejoras de rendimiento demostraron ser la mayor limitación del modelo. Como las incrustaciones provenían esencialmente del enfoque Bag-of-Words, no podían capturar ninguna información contextual que fuera parcialmente capturada por las características lingüísticas hechas a mano en los modelos anteriores. En lugar de agregar las características hechas a mano y potencialmente reintroducir las deficiencias de los modelos anteriores, el problema de la falta de información contextual se abordó a través del mecanismo de atención utilizando LSTM [13] y arquitecturas de transformadores. El trabajo de Vaswani y Polosukhin [14] desarrolló con éxito el modelo BERT utilizando transformadores. Alentados por el éxito del modelo BERT y las arquitecturas de transformadores, se desarrolló una oleada de modelos de lenguaje basados en la atención. Ahora, en lugar de incrustaciones de palabras, se podría obtener la incrustación a nivel de oración o documento que captura la información contextual. Usando estas incrustaciones profundas, se desarrollan modelos de redes neuronales para predecir las puntuaciones de los ensayos (tanto como tareas de clasificación como de regresión).


1.2 Limitaciones de los enfoques actuales

A pesar de este progreso, existen graves limitaciones en el uso del modelo BERT. Lottridge et al. (2021) [10] demostraron la falta de robustez del modelo para ensayos de juegos, mezcla aleatoria y ensayos de Babel. El rendimiento varía drásticamente entre varias clases y métricas. Para abordar este inconveniente, en esta investigación, modelaremos todas las métricas simultáneamente a través del aprendizaje multitarea. Otra limitación clave del análisis basado en BERT es que la longitud de los tokens está limitada a 512 en el modelo BERT. Buscamos abordar esto mediante el uso de arquitecturas más avanzadas como Longformer que permiten hasta 4096 tokens por documento. Para el conjunto de datos considerado en este estudio (detalles en la Sección 2.1), más del 40% de los documentos tienen más de 512 tokens de longitud. Por lo tanto, truncar el documento a solo 512 tokens con el modelo BERT estándar resultaría en una pérdida sustancial en el contexto. La tercera limitación clave de varios estudios es el conjunto de datos limitado: aunque varios estudios se han centrado en AES, cada uno de esos conjuntos de datos se puntúa de forma diferente y, en consecuencia, los modelos no se pueden entrenar fácilmente en todos los conjuntos de datos. Por lo tanto, en este estudio, investigamos la utilidad de las redes de autocodificadores para entrenar en diferentes conjuntos de datos y usar las codificaciones derivadas de autocodificadores para realizar tareas de AES. En resumen, este estudio investiga el efecto de varias codificaciones de documentos basadas en aprendizaje profundo en la calificación automatizada de ensayos. El conjunto de datos, la metodología, los experimentos y las incrustaciones profundas consideradas en este estudio se presentan en la Sección 2. Además de variar las incrustaciones profundas, analizamos formas de combinar varios conjuntos de datos de AES mediante el entrenamiento de las codificaciones profundas en una red de autocodificadores. Los resultados de todos estos enfoques se presentan en la Sección 3 y las conclusiones, así como las instrucciones para futuras investigaciones, se dan en la Sección 4.

2. Metodología

2.1 Datos

El Learning Agency Lab, la Universidad Estatal de Georgia y la Universidad de Vanderbilt han recopilado una gran cantidad de ensayos de agencias educativas estatales y nacionales, así como de organizaciones sin fines de lucro. A partir de esta colección, han desarrollado el corpus Persuasive Essays for Rating, Selecting, and Understanding Argumentative and Discourse Elements (PERSUADE), que consta de ensayos argumentativos escritos por estudiantes de 6.º a 12.º grado, y el corpus English Language Learner Insight, Proficiency and Skills Evaluation (ELLIPSE), que consta de ensayos escritos por estudiantes de inglés (ELL) de 8.º a 12.º grado.


Corpus ELLIPSE: El corpus ELLIPSE contiene más de 7000 ensayos escritos por estudiantes de inglés de octavo a duodécimo grado. Estos ensayos se escribieron como parte de las evaluaciones de escritura estandarizadas estatales de los años escolares 2018-19 y 2019-20. Los ensayos del corpus ELLIPSE fueron anotados por evaluadores humanos para los niveles de competencia lingüística utilizando una rúbrica de puntuación de cinco puntos que comprendía escalas tanto holísticas como analíticas. La escala holística se centró en el nivel general de competencia lingüística exhibido en los ensayos, mientras que las escalas analíticas incluyeron calificaciones de cohesión, sintaxis, fraseología, vocabulario, gramática y convenciones. La puntuación para cada medida analítica varía de 1,0 a 5,0 en incrementos de 0,5; las puntuaciones más altas corresponden a una mayor competencia en esa medida.


Corpus PERSUADE: El corpus PERSUADE contiene más de 25 000 ensayos argumentativos escritos por estudiantes estadounidenses de 6.º a 12.º grado. Estos ensayos se escribieron como parte de evaluaciones de escritura estandarizadas a nivel nacional y estatal entre 2010 y 2020. Cada ensayo del corpus PERSUADE fue anotado por evaluadores humanos para elementos argumentativos y discursivos, así como para relaciones jerárquicas entre elementos argumentativos. La rúbrica de anotación se desarrolló para identificar y evaluar elementos discursivos que se encuentran comúnmente en la escritura argumentativa.


Para este proyecto, utilizamos el corpus ELLIPSE y, al mismo tiempo, predecimos la puntuación de las seis medidas analíticas: cohesión, sintaxis, vocabulario, fraseología, gramática y convenciones. Además, intentamos mejorar la precisión de nuestra predicción utilizando un codificador automático. La idea es entrenar un codificador automático utilizando el corpus ELLIPSE y PERSUADE. A través de este proceso, el vector de características comprimido del codificador automático podría capturar características de los ensayos esenciales para la puntuación que las características del modelo de lenguaje entrenado previamente podrían pasar por alto.

2.2 Enfoque

Como se indicó anteriormente, el objetivo de este proyecto es predecir la puntuación de seis medidas analíticas: cohesión, sintaxis, vocabulario, fraseología, gramática y convenciones en ensayos argumentativos escritos por estudiantes de inglés de 8.º a 12.º grado. Para esta tarea, primero desarrollamos una línea de base y luego utilizamos varios modelos entrenados previamente para mejorar la línea de base.


Línea base : la línea base se desarrolla utilizando incrustaciones de GloVe y una red LSTM bidireccional. Para el modelo de línea base, primero realizamos la limpieza de datos, es decir, eliminación de puntuación, eliminación de espacios en blanco, etc. utilizando la biblioteca de expresiones regulares y luego, utilizamos el tokenizador de palabras de NLTK para tokenizar los ensayos. Se entrena una red LSTM en las codificaciones de GloVe de los ensayos para generar un vector de longitud 6 que representa la puntuación de cada una de las seis medidas analíticas anteriores. Usamos la pérdida de error cuadrático medio (MSELoss) para entrenar la red neuronal.


DistilBERT : DistilBERT es un modelo de Transformer pequeño, rápido y liviano entrenado mediante la destilación de la base BERT. Tiene un 40 % menos de parámetros que bert-base-uncased y se ejecuta un 60 % más rápido, al tiempo que conserva más del 95 % del rendimiento de BERT, medido en el punto de referencia de comprensión del lenguaje GLUE. BERT utiliza la autoatención para capturar la información contextual de toda la secuencia [2]. Esto mejora la capacidad del modelo para evaluar las muestras de ensayos y proporcionar una puntuación más precisa. Para este modelo, utilizamos un tokenizador automático para tokenizar los ensayos y luego pasamos estos tokens al modelo DistilBERT entrenado previamente para obtener la representación vectorial de los ensayos. Luego, entrenamos una red neuronal de dos capas utilizando MSELoss para devolver un vector de salida de 6 dimensiones que representa las puntuaciones de cada uno de los seis atributos de escritura descritos anteriormente.


T5 : T5 o Text-To-Text Transfer Transformer es un modelo de codificador-descodificador entrenado previamente en una combinación de tareas supervisadas y no supervisadas y para el cual cada tarea se convierte en un formato de texto a texto. Con BERT, que está entrenado previamente en un objetivo de predicción de la siguiente oración y LM enmascarado, necesitamos ajustar por separado diferentes instancias del modelo entrenado previamente en diferentes tareas posteriores, como la clasificación de secuencias. El marco de texto a texto de T5 proporciona una forma sencilla de entrenar un solo modelo en una amplia variedad de tareas de texto utilizando la misma función de pérdida y el mismo procedimiento de decodificación. Este marco de preentrenamiento proporciona al modelo un "conocimiento" de propósito general que mejora su rendimiento en tareas posteriores [12]. Usamos un tokenizador automático para tokenizar los ensayos y luego pasamos estos tokens al modelo T5-Base entrenado previamente para obtener la representación vectorial de los ensayos. Luego entrenamos una red neuronal de dos capas utilizando MSELoss para devolver el vector de salida de 6 dimensiones (similar a DistilBERT).


RoBERTa-base : RoBERTa es otro modelo de lenguaje enmascarado similar a BERT desarrollado por Facebook. En el caso de RoBERTa, se utiliza un enmascaramiento dinámico durante todo el entrenamiento para todas las épocas, mientras que en BERT la máscara es estática. A través de esto, el modelo aprende muchos más tokens que en BERT. Se logra una mejora adicional del rendimiento mediante el entrenamiento en un corpus de datos mucho más grande que BERT (10x) y un conjunto de vocabulario más grande. A través de estos cambios en el entrenamiento, RoBERTa supera a BERT en la mayoría de las tareas GLUE y SQuAD [9].


Longformer : Longformer es un modelo de transformador similar a BERT que evolucionó a partir del punto de control de RoBERTa y se entrenó como un modelo de lenguaje enmascarado (MLM) en documentos largos. Admite secuencias de longitud de hasta 4096 tokens. Por lo general, los modelos basados en transformadores que utilizan un mecanismo de autoatención no pueden procesar secuencias largas porque los requisitos de memoria y computacionales crecen cuadráticamente con la longitud de la secuencia. Esto hace que no sea factible procesar secuencias largas de manera eficiente. Longformers aborda esta limitación clave al introducir un mecanismo de atención que escala linealmente con la longitud de la secuencia [1]. Utiliza un mecanismo de atención de ventana deslizante y ventana deslizante dilatada para capturar el contexto local y global. Para el modelo Longformer, utilizamos un enfoque similar al de DistilBERT. Usamos un autotokenizador para tokenizar los ensayos y luego pasamos estos tokens al modelo Longformer entrenado previamente para obtener la representación vectorial de los ensayos. Luego entrenamos una red neuronal de dos capas utilizando MSELoss para devolver el vector de salida de 6 dimensiones (similar a DistilBERT).


También hemos utilizado la acumulación de gradientes para entrenar nuestros modelos en un tamaño de lote más grande que el que nuestra GPU de tiempo de ejecución de Colab podía almacenar en su memoria. Debido al gran tamaño del modelo Longformer, estábamos limitados a un tamaño de lote de solo dos. Un tamaño de lote tan pequeño daría como resultado cálculos de gradientes inestables. Evitamos esto con la acumulación de gradientes: en lugar de retropropagar la pérdida después de cada iteración, acumulamos la pérdida y retropropagamos el error solo después de una cierta cantidad de lotes para mejorar la estabilidad de las actualizaciones de gradientes [3].

2.3 Evaluación

Para evaluar la precisión de los puntajes previstos de nuestro modelo, utilizaremos el error cuadrático medio de la raíz cuadrada de la media de la columna (MCRMSE) como métrica. La métrica se calcula de la siguiente manera:

2.4 Experimentos

Después de implementar los modelos descritos anteriormente, probamos algunos experimentos para mejorar el error de predicción de estos modelos. Los detalles de estos experimentos son los siguientes:


  • Cuantificación de la salida : en el corpus ELLIPSE, la puntuación de cada medida analítica varía de 1,0 a 5,0 en incrementos de 0,5, y las puntuaciones más altas corresponden a una mayor competencia en esa medida. Hemos modificado nuestra red neuronal de modo que la salida esté restringida entre 1 y 5. Lo hicimos incorporando una capa sigmoidea a través de la cual pasa la salida y luego multiplicamos esta salida por 4 y le sumamos 1. Además, una vez que se generan los resultados a partir de la red neuronal, realizamos una operación matemática score = int[(2 * score + 0,5) / 2] para asegurarnos de que la salida se incremente solo en pasos de 0,5. Esta operación tenía como objetivo replicar el formato de las puntuaciones originales y verificar si dicha modificación mejora la precisión.


  • RMSE ponderado : en el corpus ELLIPSE, la puntuación de cada medida analítica varía de 1,0 a 5,0 en incrementos de 0,5. Sin embargo, la distribución de cada puntuación en el conjunto de datos no es similar. Ciertas puntuaciones, como 2,5, 3 y 3,5, aparecen con mayor frecuencia en nuestro conjunto de datos para cada una de las medidas analíticas, mientras que puntuaciones como 1 y 5 aparecen con poca frecuencia en todo el conjunto de datos. Para tener en cuenta este desequilibrio, utilizamos una función de error cuadrático medio ponderado (WRMSE) en la que se utiliza como ponderación la inversa de la frecuencia de una puntuación en particular y se recorta esta ponderación si resulta ser extremadamente alta en comparación con otras ponderaciones.


  • Arquitectura de múltiples cabezales : como se mencionó en la sección anterior, dado que la distribución de cada puntaje en el conjunto de datos no es similar, experimentamos con una red neuronal final de dos capas específica de la medida para predecir los puntajes. Entonces, en lugar de un solo cabezal de salida que predice 6 valores de puntaje diferentes, implementamos 6 cabezales de salida diferentes para predecir el puntaje de cada medida analítica.


  • Autocodificador : el conjunto de datos proporcionado para la tarea actual de calificación de múltiples clases de un ensayo es de solo 4k muestras. Sin embargo, en el corpus ELLIPSE y PERSUADE juntos, hay más de 180k ensayos para otras tareas de AES, como calificaciones individuales para ensayos completos y partes de ensayos. Por lo tanto, se utilizan autocodificadores para aprovechar esta base de datos más grande y realizar un aprendizaje semisupervisado. En pocas palabras, las codificaciones de modelos de lenguaje como BERT y T5 se pasan a través de una red de autocodificadores entrenada utilizando todas las 180k muestras. Luego, se utilizan la codificación de la capa de cuello de botella o las codificaciones del modelo de lenguaje sin ruido de la parte del decodificador del autocodificador para predecir las calificaciones de múltiples clases utilizando una red neuronal de 2 capas para el cabezal de regresión, similar al escenario completamente supervisado. Por lo tanto, al aprovechar el conjunto más grande de datos no etiquetados para entrenar un autocodificador como preprocesador, buscamos mejorar las predicciones de aprendizaje supervisado. En este estudio, consideramos ambas codificaciones sin ruido basadas en codificaciones DistilBERT.

3. Resultados y discusión

Efecto de las codificaciones preentrenadas : la Tabla 1 resume la métrica de rendimiento obtenida al variar los modelos preentrenados descritos en la Sección 2.2. En estas ejecuciones, las codificaciones de los modelos preentrenados se pasan directamente a través de una red neuronal de 2 capas que se entrena utilizando la pérdida de MSE, y no se implementa ninguna de las mejoras potenciales analizadas en la Sección 2.4. Como se trata de una regresión multiclase, el rendimiento de los modelos para cada métrica de puntuación se muestra en la Tabla 3.


Entre las arquitecturas de transformadores que se enumeran en la Tabla 1, vemos que los modelos de lenguaje enmascarado DistilBERT, RoBERTa y Longformer tienen un mejor rendimiento que el modelo generativo T5, posiblemente porque los modelos enmascarados están más orientados a tareas discriminativas con resultados numéricos. Es necesario realizar más investigaciones para concluir si esto se puede generalizar para varios modelos de lenguaje generativo. En general, RoBERTa tiene el mejor puntaje de predicción entre los diversos modelos, posiblemente debido a su corpus de entrenamiento mucho más grande y su enmascaramiento superior.

Tabla 1: Puntuación general del MCRMSE para varios modelos

Modelo

Métrica MCRMSE

Base

1.36

DestilBERT

0,4934

Base T5

0,5320

Roberta

0,4746

De larga trayectoria

0,4899


Efecto de las mejoras en el cabezal de regresión : anteriormente, exploramos el efecto de variar las entradas al cabezal de regresión (es decir, al variar los modelos preentrenados y las codificaciones en ellos), mientras se mantiene constante el entrenamiento del cabezal de regresión. En esta sección, exploramos el efecto de variar el entrenamiento del cabezal de regresión mientras se mantienen constantes las codificaciones. La Sección 2.4 enumera los diversos cambios en el entrenamiento de regresión que se exploran en este estudio. Tenga en cuenta que a lo largo de esta sección, se utiliza el modelo DistilBERT ya que es el modelo más rápido y tiene menores requisitos de GPU. Los resultados de varios esquemas de entrenamiento/mejoras se muestran en la Tabla 2.

Tabla 2: Puntuación MCRMSE para varios modelos

Experimento

MCRSE

Cuantificación de salida

0,5294

RMSE ponderado

0,5628

Arquitectura MultiHead

0,508

Eliminación de ruido del codificador automático

0,575


Lamentablemente, ninguna de estas variaciones en el entrenamiento del modelo de regresión produce una mejora significativa en la precisión de la predicción en comparación con nuestros modelos originales. De hecho, la métrica de rendimiento del conjunto de validación de la Tabla 2 indica una caída en el rendimiento con estas modificaciones. No está claro por qué se produce esta reducción y es esencial realizar más estudios con un conjunto de datos más grande para verificar que esta reducción en el rendimiento no sea un artefacto.


En todas las variaciones en la codificación de texto y el entrenamiento de regresión, observamos a partir de las puntuaciones de validación del MCRMSE para las medidas individuales que la cohesión y la gramática parecen ser las más difíciles de predecir en todos los modelos (consulte la Tabla 3). Esto podría ser una limitación de los modelos de lenguaje preentrenados utilizados en AES y no de nuestro modelo. Kim et al. (2020) [5] muestran las limitaciones de los modelos de lenguaje actuales en cuanto a estar bien informados desde el punto de vista gramatical y brindan instrucciones para un mayor progreso en los modelos de lenguaje.

Tabla 3: Puntuación MCRMSE para la medida analítica individual

Modelo (o Exp.)

Cohesión

Sintaxis

Vocabulario

Fraseología

Gramática

Convenciones

Base

1.37

1.35

1.32

1.34

1.44

1.36

destilarBERT

0,54

0,51

0,46

0,52

0,57

0,49

Base T5

0,55

0,52

0,48

0,54

0,58

0,53

Roberta

0,51

0,47

0,42

0,47

0,51

0,46

De larga trayectoria

0,54

0,48

0,46

0,49

0,53

0,47

distilBERT + cuantificación de salida

0,55

0,53

0,48

0,53

0,57

0,51

destilarBERT + WRMSE

0,56

0,56

0,55

0,56

0,61

0,53

distilBERT + Arco de cabezal múltiple.

0,53

0,50

0,45

0,51

0,56

0,49

Codificador automático + distilBERT

0,59

0,56

0,52

0,56

0,61

0,55


4. Conclusión

En este trabajo, investigamos el efecto de varias arquitecturas y métodos preentrenados para entrenar el cabezal de regresión en la tarea de Calificación Automática de Ensayos, donde calificamos cada ensayo en una escala de 1 a 5 para seis métricas lingüísticas (por ejemplo, cohesión, gramática, vocabulario, etc.). El conjunto de datos se toma del corpus ELLIPSE, específicamente el subconjunto de los datos enumerados en las competencias de Kaggle. Consideramos cinco arquitecturas de aprendizaje profundo y cinco formas de entrenar el cabezal de regresión y observamos que el uso de RoBERTa-base con una capa simple de avance de 2 capas para predecir las puntuaciones, ya que una salida de múltiples clases dio el mejor resultado.


Como se esperaba, las arquitecturas de transformadores superaron significativamente el modelo de referencia de GloVe+LSTM. Además, dentro de las arquitecturas de transformadores, vemos que los modelos de lenguaje enmascarado (DistilBERT, RoBERTa, Longformer) ofrecen un rendimiento superior en comparación con el modelo de lenguaje generativo T5. Aunque esta observación no se puede generalizar a todos los modelos generativos, intuitivamente el predominio de MLM parece consistente, ya que están entrenados específicamente para salidas numéricas.


Otra observación interesante de este estudio es que la variación del entrenamiento del cabezal de regresión mediante el cambio de las funciones de pérdida, la restricción de las salidas y la reducción de dimensionalidad/eliminación de ruido basada en el autocodificador, junto con el aumento de datos, no mejoró el rendimiento del modelo. Esto es bastante inesperado y no comprendemos completamente las razones detrás de este fenómeno. En un estudio futuro, estos enfoques pueden repetirse con un conjunto de datos más grande; esto ayuda a determinar si estas observaciones sobre el entrenamiento del cabezal de regresión se pueden generalizar.


En resumen, observamos que el uso de codificaciones RoBERTa con una red neuronal de propagación hacia adelante de dos capas para predecir las seis puntuaciones simultáneamente, de manera similar al aprendizaje multitarea, proporciona el mejor rendimiento. En particular, dado el pequeño tamaño del conjunto de datos, se observa que el efecto de usar un modelo preentrenado robusto mejora significativamente el rendimiento predictivo del modelo. Además, el rendimiento en la evaluación de la gramática del ensayo es peor que cualquier otra métrica de evaluación, y esto es inherente al modelo de lenguaje. Por lo tanto, los trabajos futuros deberían centrarse en mejorar los modelos de lenguaje para capturar mejor los aspectos gramaticales del lenguaje.

Referencias

  1. Iz Beltagy, Matthew E Peters y Arman Cohan. 2020. Longformer: El transformador de documentos largos. Preimpresión arXiv arXiv:2004.05150 .
  2. Jacob Devlin, Ming-Wei Chang, Kenton Lee y Kristina Toutanova. 2018. BERT: Preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje. Preimpresión de arXiv arXiv:1810.04805 .
  3. Joeri R Hermans, Gerasimos Spanakis y Rico Möckel. 2017. Normalización de gradiente acumulado. En Asian Conference on Machine Learning , páginas 439–454. PMLR.
  4. Zixuan Ke y Vincent Ng. 2019. Calificación automatizada de ensayos: un estudio del estado del arte. En IJCAI , vol. 19, págs. 6300-6308.
  5. Taeuk Kim, Jihun Choi, Daniel Edmiston y Sang-goo Lee. 2020. ¿Los modelos de lenguaje entrenados previamente son conscientes de las frases? Bases de referencia simples pero sólidas para la inducción gramatical.
  6. The Learning Agency Lab. 2022a. Premio a la retroalimentación: aprendizaje del idioma inglés.
  7. Laboratorio de la Agencia de Aprendizaje. 2022b. Premio de retroalimentación: evaluación de la escritura de los estudiantes.
  8. Laboratorio de la Agencia de Aprendizaje. 2022c. Premio de retroalimentación: predicción de argumentos efectivos.
  9. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer y Veselin Stoyanov. 2019. Roberta: un enfoque de preentrenamiento de BERT optimizado de manera robusta. Preimpresión de arXiv arXiv:1907.11692.
  10. Sue Lottridge, Ben Godek, Amir Jafari y Milan Patel. 2021. Comparación de la solidez de los enfoques de aprendizaje profundo y puntuación automatizada clásica para las estrategias de juego. Informe técnico - Cambium Assessment Inc.
  11. Huyen Nguyen y Lucio Dery. 2016. Redes neuronales para la calificación automatizada de ensayos. CS224d Stanford Reports: 1-11.
  12. Adam Roberts y Colin Raffel. 2020. Exploración del aprendizaje por transferencia con T5: el transformador de transferencia de texto a texto. Consultado en las páginas 23–07.
  13. Kaveh Taghipour y Hwee Tou Ng. 2016. Un enfoque neuronal para la calificación automatizada de ensayos. En Actas de la conferencia de 2016 sobre métodos empíricos en el procesamiento del lenguaje natural, págs. 1882-1891.
  14. Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Łukasz Kaiser Vaswani, Ashish e Illia Polosukhin. 2017. La atención es todo lo que necesitas. Avances en sistemas de procesamiento de información neuronal, 30.