| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 5.72 MB | Adobe PDF |
Orientador(es)
Resumo(s)
In the modern days, various industries like business and science deal with collecting, processing
and storing massive amounts of data. Conventional CPUs, which are optimised
for sequential performance, struggle to keep up with processing so much data, however
GPUs, designed for parallel computations, are more than up for the task.
Using GPUs for general processing has become more popular in recent years due
to the need for fast parallel processing, but developing programs that execute on the
GPU can be difficult and time consuming. Various high-level APIs that compile into
GPU programs exist, however due to the abstraction of lower level concepts and lack
of algorithm specific optimisations, it may not be possible to reach peak performance.
Optimisation specifically is an interesting problem, optimisation patterns very rarely can
be applied uniformly to different algorithms and manually tuning individual programs
is extremely time consuming.
Machine learning compilation is a concept that has gained some attention in recent
years, with good reason. The idea is to have a model trained using a machine learning
algorithm and have it make an estimate on how to optimise an input program. Predicting
the best optimisations for a program is much faster than doing it manually, in works
making use of this technique, it has shown to also provide even better optimisations.
In this thesis, we will be working with the Marrow framework and develop a CUDA
based backend for it, so that low-level GPU code may be generated. Additionally, we will
be training a machine learning model and use it to automatically optimise the CUDA
code generated from Marrow programs.
Hoje em dia, várias indústrias como negócios e ciência lidam com a coleção, processamento e armazenamento de enormes quantidades de dados. CPUs convencionais, que são otimizados para processarem sequencialmente, têm dificuldade a processar tantos dados eficientemente, no entanto, GPUs que são desenhados para efetuarem computações paralelas, são mais que adequados para a tarefa. Usar GPUs para computações genéricas tem-se tornado mais comum em anos recentes devído à necessidade de processamento paralelo rápido, mas desenvolver programas que executam na GPU pode ser bastante díficil e demorar demasiado tempo. Existem várias APIs de alto nível que compilem para a GPU, mas devído à abstração de conceitos de baixo nível e à falta de otimizações específicas para algoritmos, pode ser impossível obter o máximo de efficiência. É interessante o problema de otimização, pois na maior parte dos casos é impossível aplicar padróes de otimização uniformemente em diferentes algoritmos e encontrar a melhor maneira de otimizar um programa manualmente demora bastante tempo. Compilação usando aprendizagem automática é um conceito que tem ficado mais popular em tempos recentes, e por boas razões. A ideia consiste em ter um modelo treinado através com um algoritmo de aprendizagem automática e usa-lo para ter uma estimativa das melhor otimizações que se podem aplicar a um dado programa. Prever as melhores otimizações com um modelo é muito mais rápido que o processo manual, e trabalhos que usam esta técnica demonstram obter otmizações ainda melhores. Nesta tese, vamos trabalhar com a framework Marrow e desevolver uma backend de CUDA para a mesma, de forma a que esta possa gerar código de baixo nível para a GPU. Para além disso, vamos treinar um modelo de aprendizagem automática e usa-lo para otimizar código CUDA gerado a partir de programas do Marrow automáticamente.
Hoje em dia, várias indústrias como negócios e ciência lidam com a coleção, processamento e armazenamento de enormes quantidades de dados. CPUs convencionais, que são otimizados para processarem sequencialmente, têm dificuldade a processar tantos dados eficientemente, no entanto, GPUs que são desenhados para efetuarem computações paralelas, são mais que adequados para a tarefa. Usar GPUs para computações genéricas tem-se tornado mais comum em anos recentes devído à necessidade de processamento paralelo rápido, mas desenvolver programas que executam na GPU pode ser bastante díficil e demorar demasiado tempo. Existem várias APIs de alto nível que compilem para a GPU, mas devído à abstração de conceitos de baixo nível e à falta de otimizações específicas para algoritmos, pode ser impossível obter o máximo de efficiência. É interessante o problema de otimização, pois na maior parte dos casos é impossível aplicar padróes de otimização uniformemente em diferentes algoritmos e encontrar a melhor maneira de otimizar um programa manualmente demora bastante tempo. Compilação usando aprendizagem automática é um conceito que tem ficado mais popular em tempos recentes, e por boas razões. A ideia consiste em ter um modelo treinado através com um algoritmo de aprendizagem automática e usa-lo para ter uma estimativa das melhor otimizações que se podem aplicar a um dado programa. Prever as melhores otimizações com um modelo é muito mais rápido que o processo manual, e trabalhos que usam esta técnica demonstram obter otmizações ainda melhores. Nesta tese, vamos trabalhar com a framework Marrow e desevolver uma backend de CUDA para a mesma, de forma a que esta possa gerar código de baixo nível para a GPU. Para além disso, vamos treinar um modelo de aprendizagem automática e usa-lo para otimizar código CUDA gerado a partir de programas do Marrow automáticamente.
Descrição
Palavras-chave
code generation Marrow GPU CUDA machine learning compilation
