115
OpenAI apresentou nesta segunda-feira (13) o GPT-4o, o seu novo modelo de inteligência artificial (IA) que, segundo a empresa, representa um passo em direcção a uma interacção humano-computador muito mais natural, tornando-a praticamente instantânea.
Em comunicado, a OpenAI explica que o GPT-4o aceita como entrada qualquer combinação de texto, áudio e imagem e gera qualquer combinação de saídas nestes formatos. O modelo “pode responder a entradas de áudio em apenas 232 milissegundos, com uma média de 320 milissegundos, o que é semelhante ao tempo de resposta humana em uma conversa”.
A rapidez e naturalidade nas respostas será agora possível, porque o GPT-4o usa um único modelo para processar as informações em texto, imagens e áudio, diferente do GPT-4 Turbo que, até agora, ainda recorre a três modelos em simultâneo para conseguir manter a interacção com o utilizador e gerar as respostas.
Com o GPT-4o, será também possível usar texto, imagem e áudio para interagir na mesma conversa, dando ao utilizador a alternativa de, por exemplo, mostrar uma imagem ao chatbot enquanto este responde, para ajudá-lo a contextualizar o assunto abordado. O utilizador também poderá interromper o chatbot durante uma resposta, para fazer observações ou mostrar uma ilustração, como se de duas pessoas em conversa se tratasse.
Durante a sua apresentação, o GPT-4o conseguiu funcionar como tradutor em tempo real entre duas pessoas com idiomas diferentes, foi capaz de comentar sobre um problema de programação apenas “olhando” para o código disponível e também conseguiu analisar as emoções de um rosto com base em imagens captadas com a câmara do telemóvel.
Segundo a empresa, as novas capacidades do ChatGPT começarão a ser integradas ao chatbot nas próximas semanas e estarão disponíveis para todos os utilizadores, incluindo os que apenas usam a versão gratuita.