Ricardo Cruz (CTM)

Ricardo Cruz (CTM)

“A coordenação do CTM nomeia o investigador Ricardo Cruz, pela implementação do sistema de gestão de recursos SLURM na plataforma de computação de alto desempenho do Centro. Esta solução, planeada pelo ex-colaborador CTM Carlos Leocádio, em colaboração com o SAS, vem agilizar a gestão dos recursos de computação (gráficas – GPUs) pelos múltiplos colaboradores do Centro que têm uma necessidade crescente de recorrer a estes recursos no âmbito das suas atividades de I&D. O Ricardo, entre as tarefas de investigação no âmbito do seu doutoramento (incluindo a escrita da tese) e o apoio científico a outros colegas mais jovens no grupo, encontrou a disponibilidade para liderar a implementação desta solução. Apoiado pelo colega Luis Salgado, o Ricardo demonstrou proatividade, desenvoltura e capacidades técnicas muito diversificadas neste projeto de engenharia”.

– Coordenação do CTM

Tendo em conta todo o contexto, que desafios encontrou no decorrer do seu trabalho?

Há duas coisas que dão trabalho ao configurar uma plataforma deste género (que permite a partilha de recursos computacionais – no nosso caso, GPUs entre vários utilizadores). Há a configuração em si e depois, não menos importante, prestar auxílio aos utilizadores, sendo que a maioria dos nossos utilizadores são alunos de mestrado e precisam de mais ajuda do que o habitual. Quanto ao contexto atual, sinto que torna mais difícil perceber o que os colegas estão a fazer e a quem recorrer em certas situações.

Como os superou?

A nossa plataforma de recursos SLURM já se encontra a ser utilizada, mas este esforço inicial foi sobretudo para ter uma prova de conceito que possamos agora escalar, tanto a nível dos utilizadores, como a nível dos recursos dentro do CTM. Nesta fase de amadurecimento da plataforma, tenho contado com a boa ajuda do meu colega Luís Salgado e, durante todo o processo, tive o apoio do nosso coordenador-adjunto Filipe Ribeiro.

Além disso, e sempre que tive problemas que exigiam acesso físico aos servidores, a equipa do SAS do INESC TEC foi incansável e expedita em resolver esses problemas.

Do que mais gosta no seu trabalho? Para si, qual é o fator diferenciador deste projeto? 

O projeto foi inicialmente proposto pelo ex-colega Carlos Leocádio, e eu próprio estava um pouco cético. Tradicionalmente, aquilo que fazíamos era aceder aos vários servidores que temos disponíveis e verificar um-a-um se havia recursos disponíveis. Manualmente, reservávamos os recursos que precisávamos de usar. Ninguém gosta de mudar os seus hábitos de trabalho, mas, compreensivelmente, esta utilização não era escalável, nem aproveitava o total potencial dos nossos servidores – porque, por vezes, a utilização tanto podia ser 0% (fins-de-semana), como 100% e era necessário ficar à espera ou pedir alguém para libertar recursos. Esta plataforma unifica os recursos, o que torna surpreendentemente cómodo para os utilizadores executar os seus trabalhos sem pensar em questões como qual o GPU para reservar – além disso, quando os recursos estão saturados (100%), coloca automaticamente a nova tarefa em fila de espera e executa-a quando possível. É um pouco diferente do método tradicional, mas, para já, os nossos utilizadores conseguem fazer com esta plataforma automática aquilo que faziam manualmente. A única coisa que dá um pouco mais de trabalho é correr o depurador para quem usa o VS Code, mas até isso é possível ao utilizador configurar.

Como comenta esta nomeação?

Fico contente, pois significa que o feedback dos utilizadores tem sido positivo. Apesar de, para já, ser sobretudo uma prova de conceito, apenas um servidor está de momento dedicado a esta plataforma, e parece que existe aqui uma solução que preenche uma lacuna dentro do CTM – e que promete ser escalável. Não menos importante é o apoio do nosso coordenador-adjunto Filipe Ribeiro, do Carlos Leocádio e do Luís Salgado. Além disso, o SAS tem sido um grande apoio, em particular o Jaime Dias. Também importantes são os nossos utilizadores, que têm sido os nossos beta-testers.

PHP Code Snippets Powered By : XYZScripts.com
EnglishPortugal