Detecção automática de documentos paralelos

Bernardes, Fátima Alexandra da Silva

Publicação

Detecção automática de documentos paralelos

2009Dissertação de mestrado

dc.contributor.advisor	Lopes, José Gabriel Pereira
dc.contributor.author	Bernardes, Fátima Alexandra da Silva
dc.date.accessioned	2010-04-15T12:57:13Z
dc.date.available	2010-04-15T12:57:13Z
dc.date.issued	2009
dc.description	Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para Obtenção do grau de Mestre em Engenharia Informática	en_US
dc.description.abstract	A internet é uma fonte excelente de textos paralelos, sendo que dois textos são paralelos se um é tradução do outro ou ambos são traduções do mesmo texto fonte. Através da Internet, podem ser obtidos textos em diversas línguas devido ao constante crescimento do número de endereços Web multilingues. Estes textos são especialmente úteis na construção de corpora paralelos, os quais serão indispensáveis para aplicações como a Tradução Automática (baseada em exemplos, contextos ou estatística). O objectivo nesta dissertação é a detecção automática de documentos paralelos, retirados de endereços Web multilingues, através de abordagens independentes da língua. Dos métodos estudados, foram aplicados métodos baseados nos nomes dos documentos e na proporcionalidade dos seus tamanhos, conseguindo valores de precisão entre 95% e 100%, dependendo dos corpora utilizados. De forma inovadora, utilizaram-se cognatos (palavras escritas de forma semelhante e com significado idêntico), existentes nos dois textos a comparar, para suportar a decisão sobre se os textos em análise são ou não paralelos. Ao utilizar cognatos para estudar o seu comportamento e relevância na detecção de pares candidatos de documentos paralelos descobriu-se que, se os cognatos forem usados conjuntamente com métodos baseados em nomes de documentos e na proporcionalidade dos tamanhos dos textos, os cognatos têm um impacto evidente nos valores de precisão conseguidos pelos dois métodos anteriores. Através da identificação de cognatos consegue-se resultados de 99% para a medida f-measure em corpus com uma organização bastante rígida. Por outro lado, corpus menos organizado consegue-se obter valores de f-measure de 95,5%.	en_US
dc.identifier.uri	http://hdl.handle.net/10362/3355
dc.language.iso	por	en_US
dc.publisher	FCT - UNL	en_US
dc.title	Detecção automática de documentos paralelos	en_US
dc.type	master thesis
dspace.entity.type	Publication
rcaap.rights	openAccess	en_US
rcaap.type	masterThesis	en_US

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: Bernardes_2009.pdf
Tamanho:: 1.62 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 432 B
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

FCT: DI - Dissertações de Mestrado