Logo do repositório
 
A carregar...
Miniatura
Publicação

Rich Large-Scale Portuguese Language Models from Large Portuguese Corpora

Utilize este identificador para referenciar este registo.
Nome:Descrição:Tamanho:Formato: 
Lopes_2023.pdf7.41 MBAdobe PDF Ver/Abrir

Orientador(es)

Resumo(s)

Language is one of the most fundamental and important characteristics of human behavior. It enables us to express ourselves and communicate, as it is a powerful and crucial tool that has helped shape our thoughts and knowledge of the world around us, since the dawn of humankind. In specific, the Portuguese language is the sixth most spoken language in the world with over 250 million speakersworldwide. Of those, over 40 million are potential European Portuguese speakers, but despite its widespread use, the development of natural language processing (NLP) tools for PT-PT has lagged behind other languages, like English or French. This is partly due to the lack of large-scale annotated datasets and the lack of computational resources dedicated to this variant of Portuguese. The NLP field has improved greatly in recent years, leading to the development of innovative tools for language analysis and processing boosted by neural language models. This is achieved by training deep, transformed-based large language models that can perform language tasks like machine translation, sentiment analysis, summarization, or even simple reasoning. This thesis aims to address these current problems and contribute to the development of PT-PT NLP tools by presenting our own generative model, GlórIA. It can properly model the intricacies of the Portuguese language and is proficient at multiple natural language tasks. We present training techniques and protocols, following proper evaluation and comparison against other recent Portuguese models on several downstream tasks. Consequently, a PT-PT corpora, composed of different sources of data, was built to train it and is presented in this work to combat the lack of publicly available datasets for this language variant. Parallel to this, a new and small benchmark was also produced to evaluate a model’s generative performance on a language modeling task.
A linguagem humana é uma das características mais importantes e fundamentais do comportamento e relações humanas. Esta permite que o ser humano seja capaz de se expressar e comunicar, fazendo desta uma ferramenta poderosa e crucial que nos tem ajudado e acompanhado desde o início da humanidade. Em concreto, a língua Portuguesa é a sexta língua mais falada em todo o mundo, com mais de 250 milhões de falantes. Destes, estima-se que mais de 40 milhões são potenciais utilizadores do Português Europeu, mas apesar da sua larga utilização, o desenvolvimento de ferramentas de processamento de linguagem natural (NLP) tem perdido algum terreno comparado a outras línguas como o Inglês ou o Francês. Isto deve-se parcialmente à falta de conjuntos de dados anotados de grande escala nesta língua, tal como à ausência de recursos computacionais dedicados a esta. Nos últimos anos, importantes melhorias foram alcançadas nesta área, possibilitando o desenvolvimento de ferramentas inovativas para problemas de linguagem natural. Isto é possível treinando modelos de linguagem de grande escala, capazes de executar tarefas como sumarização, análise sentimental, tradução ou raciocínios simples. Esta tese procura contribuir para o desenvolvimento destas ferramentas, apresentando um novo modelo generativo de 1.3B parâmetros: GlórIA, capaz de modelar as complexidades desta língua e gerar texto robusto. Apresentamos detalhes de treino e protocolos, seguidos de avaliação e comparação com outros modelos em diversas tarefas. Consequentemente, foi produzido um corpora PT-PT composto por várias fontes de texto, utilizado para treinar o modelo. Paralelamente, este trabalho deu origem a um novo benchmark para avaliar as capacidades generativas de um modelo deste tipo.

Descrição

Palavras-chave

Large Language Models Transformers Portuguese Natural Language Processing Datasets

Contexto Educativo

Citação

Projetos de investigação

Unidades organizacionais

Fascículo

Editora

Licença CC