Trata-se do cientista de dados angolano Arlindo Almada, que durante três dias (de 9 a 12 de Junho) participou de um desafio de programação (hackathon) promovido pelo Massachussets Institute of Technology (MIT, na sigla inglesa), para criar um modelo predictivo baseado em ciência de dados e aprendizagem de máquina que ajudasse a prever a satisfação ou insatisfação dos utentes dos Shinkansen, os comboios de alta velocidade do Japão.
De acordo com Arlindo Almada, que falava em exclusivo ao Portal de T.I neste domingo (18), o desafio foi a parte final do curso de “Data Science and Machine Learning Program”, leccionado durante três meses pelo MIT. O curso esteve dividido em 6 módulos principais e dois complementares, os quais foram concluídos pelo cientista angolano com a distinção “excelente”.
Os módulos do curso em referência foram:
- Foundations of Data Science;
- Making Sense of Unstructured Data;
- Regression and Prediction;
- Classifications and Hypothesis Testing;
- Recommendations Systems;
- Deep Learning Predictive Analytics;
- Networking and Graphical Models;
- Generative IA.
Cada um destes módulos, segundo contou-nos o cientista de dados, subdivide-se em vários outros, aumentando o desafio do programa formativo. Terminada a formação, foi proposto o hackathon, do qual participaram até 41 equipas. Segundo o programa do MIT a que o Portal de T.I teve acesso, cada equipa poderia agregar até 3 membros, mas Arlindo Almada trabalhou sozinho, escolhendo “Angola” como o nome da sua equipa formada apenas por si, como forma de representar o seu país na competição.
“Este hackathon foi a parte final do ‘Data Science and Machine Learning Program’ promovido pelo MIT. Participei da competição enquanto fazia a viagem Luanda a Londres, então praticamente não dormi por quase dois dias. Foram mais de 1.000 linhas de códigos e os outros participantes eram muito competitivos, mas eu também sou uma pessoa muito competitiva, então mesmo estando a viajar o sentimento era do tipo: eu tenho de vencer esta competição” disse.
O cientista de dados partilhou também aquelas que foram as partes mais desafiantes do hackathon, as quais, disse, estiveram relacionadas à identificação dos outlayers, exploratory data analyst e aos hyper parameters of the models.
“As partes mais desafiantes foram essencialmente três: a parte da identificação dos outlayers em cada uma das variáveis dos dados a serem processados para a avaliação final – isso refere-se ao tratamento das respostas extremas dadas pelos inquiridos/utentes dos Shinkansen. Ou seja, um inquirido poderia apenas responder “sim” ou “não” para todas as questões e isso dificultaria o tratamento dos dados. A segunda parte foi a do Exploratory Data Analysis (EDA) – referente ao processamento ou conversão inicial dos dados, e terceira foi a dos Hyperparameter Tuning – em que se reajusta o modelo em função do dataset e procura-se pelas varáveis certas para se encontrar a melhor combinação dos parâmetros do modelo de linguagem,” explicou.
Após vencer a maratona, Arlindo Almada revela que a sensação é de gratidão. O cientista conta também que, mais do que levar o nome do seu país à competição, escolheu o nome Angola para a sua equipa como forma de dizer aos angolanos que “é possível chegar mais longe, que os angolanos não precisam limitar-se apenas às artes, à música e a dança, por exemplo,”.
“Escolhi o nome Angola para o meu team pelo facto de Angola ser vista no resto do mundo principalmente pela dança, música, pelas artes de forma geral, não pela ciência. Faltam-nos referências na ciência, por isso o sentimento é, sobretudo, de gratidão. Isto também transmite uma mensagem aos angolanos de que é possível, é possível chegarmos mais longe e que, para isso não devemos apenas tentar, devemos fazer de facto. Pois, se apenas tentarmos, quando as coisas ficarem realmente difíceis, a tendência será desistir, então façamos,” disse.
Arlindo Almada é doutorado em Data Science e Inteligência Artificial pela London Metropolitan University, sendo especializado em Natural Language Processing (NLP) aplicada à Educação.