Lessons Learned: Problems, Challenges and Learnings of an Annotator Training Initiative

Lemos, Érica Sofia Sampaio de

http://hdl.handle.net/10362/168480

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Mestrado_Erica_Sampaio_Lemos.pdf		6.41 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Lemos, Érica Sofia Sampaio de

Orientador(es)

Neves, Marco

Sánchez Torrón, Marina

Resumo(s)

Evaluating the quality of translations presents some challenges. Manual processes are said to be the most comprehensive but are not free of problems, like evaluator subjectivity or lack of specialized knowledge. The goal of this report is to explore an annotator training initiative to improve reliability of quality annotations at Unbabel. Due to the introduction of a new error typology in March 2022, Unbabel had found that some annotators were missanotating. In an attempt to address this issue, a hypothesis arose: by creating an annotation training focused on problem areas, the reliability of annotations will improve. To test this hypothesis, we conducted a data-oriented investigation and by analyzing various annotation assignments and relying on specialist internal knowledge it was possible to identify the error types that were causing the most confusion. With the data gathered, a question-based annotation training was developed with the objective of assessing the knowledge annotators had of Unbabel’s annotation guidelines. This training was sent to annotators who were found to be missanotating on a regular basis and, after the completion of the training, an observational study was held in which annotation assignments of six annotators were analyzed before and after taking the training in order to gauge the training's potential effectiveness. Although the results showed that one-off training was insufficient to improve annotation reliability, the work developed did generate ideas on how to make future trainings more effective, as well as ideas on how to incorporate the learning process into actual annotation assignments by making changes to the user interface and, as a result, creating a more integrated learning experience.

A avaliação da qualidade das traduções apresenta certos desafios. Os processos manuais são considerados os mais abrangentes, mas não estão isentos de problemas, como a subjetividade do avaliador ou a falta de conhecimentos especializados. O objetivo desta tese é explorar uma iniciativa de formação para anotadores com a finalidade de melhorar a fiabilidade da qualidade das anotações Unbabel. Devido à introdução de uma nova tipologia de erros em março de 2022, a Unbabel descobriu que alguns anotadores anotavam incorretamente. Numa tentativa de resolver este problema, surgiu uma hipótese: ao criar uma formação para anotadores centrada em áreas problemáticas, a fiabilidade das anotações melhorará. Para testar esta hipótese, realizámos uma investigação orientada para os dados e, ao analisar várias tarefas de anotação e basearmo-nos em conhecimentos internos especializados, foi possível identificar os tipos de erro que causavam mais confusão. Posteriormente à recolha de dados, foi desenvolvida uma formação para anotadores que consiste em perguntas com o objetivo de avaliar o conhecimento que os anotadores tinham das diretrizes de anotação da Unbabel. Esta formação foi enviada a anotadores que anotavam incorretamente com regularidade e, após a conclusão da formação, foi realizado um estudo observacional, no qual foram analisadas as tarefas de anotação de seis anotadores antes e depois de completarem a formação, com o objetivo de avaliar a potencial eficácia da formação. Embora os resultados tenham demonstrado que uma formação pontual não foi suficiente para melhorar a fiabilidade das anotações, o trabalho desenvolvido gerou ideias sobre como tornar futuras formações mais eficazes, bem como ideias sobre como incorporar o processo de aprendizagem em tarefas de anotação reais, fazendo alterações à interface do utilizador e, consequentemente, criando uma experiência de aprendizagem mais integrada.

Palavras-chave

Tradução automática Anotação Formação para anotadores Estudo observacional Processos de qualidade Machine translation Annotation Annotation training Observational study Quality processes

URI

http://hdl.handle.net/10362/168480

Coleções

FCSH: DLCLM - Dissertações de Mestrado

Licença CC

cclicense-by

Ver registo completo