Logo do repositório
 
Publicação

Detecção automática de documentos paralelos

dc.contributor.advisorLopes, José Gabriel Pereira
dc.contributor.authorBernardes, Fátima Alexandra da Silva
dc.date.accessioned2010-04-15T12:57:13Z
dc.date.available2010-04-15T12:57:13Z
dc.date.issued2009
dc.descriptionDissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para Obtenção do grau de Mestre em Engenharia Informáticaen_US
dc.description.abstractA internet é uma fonte excelente de textos paralelos, sendo que dois textos são paralelos se um é tradução do outro ou ambos são traduções do mesmo texto fonte. Através da Internet, podem ser obtidos textos em diversas línguas devido ao constante crescimento do número de endereços Web multilingues. Estes textos são especialmente úteis na construção de corpora paralelos, os quais serão indispensáveis para aplicações como a Tradução Automática (baseada em exemplos, contextos ou estatística). O objectivo nesta dissertação é a detecção automática de documentos paralelos, retirados de endereços Web multilingues, através de abordagens independentes da língua. Dos métodos estudados, foram aplicados métodos baseados nos nomes dos documentos e na proporcionalidade dos seus tamanhos, conseguindo valores de precisão entre 95% e 100%, dependendo dos corpora utilizados. De forma inovadora, utilizaram-se cognatos (palavras escritas de forma semelhante e com significado idêntico), existentes nos dois textos a comparar, para suportar a decisão sobre se os textos em análise são ou não paralelos. Ao utilizar cognatos para estudar o seu comportamento e relevância na detecção de pares candidatos de documentos paralelos descobriu-se que, se os cognatos forem usados conjuntamente com métodos baseados em nomes de documentos e na proporcionalidade dos tamanhos dos textos, os cognatos têm um impacto evidente nos valores de precisão conseguidos pelos dois métodos anteriores. Através da identificação de cognatos consegue-se resultados de 99% para a medida f-measure em corpus com uma organização bastante rígida. Por outro lado, corpus menos organizado consegue-se obter valores de f-measure de 95,5%.en_US
dc.identifier.urihttp://hdl.handle.net/10362/3355
dc.language.isoporen_US
dc.publisherFCT - UNLen_US
dc.titleDetecção automática de documentos paralelosen_US
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccessen_US
rcaap.typemasterThesisen_US

Ficheiros

Principais
A mostrar 1 - 1 de 1
A carregar...
Miniatura
Nome:
Bernardes_2009.pdf
Tamanho:
1.62 MB
Formato:
Adobe Portable Document Format
Licença
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
license.txt
Tamanho:
432 B
Formato:
Item-specific license agreed upon to submission
Descrição: