A Nvidia está em alta. Depois de lançar seu superchip Blackwell, projetado para treinar modelos de IA mais poderosos, como GPT, Claude e Gemini, ela lançou sua própria ferramenta de IA para converter texto em 3D (consulte nosso guia com as melhores placas gráficas para opções de consumo).
A gigante das placas gráficas encerrou a semana GTC apresentando o LATTE3D, um modelo de IA generativo de texto para 3D que descreve como uma “impressora 3D virtual”. Ele pode converter prompts de texto em representações 3D de objetos e animais em um segundo.
A Nvidia afirma que as formas 3D criadas pelo LATTE3D “podem ser facilmente renderizadas em ambientes virtuais para desenvolvimento de videogames, campanhas publicitárias, projetos de design ou espaços virtuais de treinamento para robôs”. Já vimos ferramentas de conversão de texto em 3D antes, e elogios on-line sugerem que alguns não estão muito impressionados com a qualidade dos resultados do LATTE3Ds. Mas o novo modelo representa um grande avanço, principalmente em termos de velocidade.
A Nvidia diz que produz formas 3D quase instantaneamente ao executar inferência em uma única GPU, como a NVIDIA RTX A6000 usada na demonstração da pesquisa. Isso significa que um criador que inicia um design do zero ou pesquisa em uma biblioteca de recursos 3D pode usar o LATTE3D para criar objetos detalhados tão rapidamente quanto tiver ideias.
O formulário cria diversas opções de formas 3D com base em cada prompt de texto. Os objetos desejados podem ser otimizados para maior qualidade e depois exportados para aplicativos de software gráfico ou plataformas como Nvidia Omniversoque permite Descrição do cenário global (OpenUSD)Fluxos de trabalho e aplicativos baseados em 3D.
“Há um ano, os modelos de IA levariam uma hora para criar imagens 3D desta qualidade – o estado da arte atual é agora de cerca de 10 a 12 segundos”, disse Sanja Fiedler, vice-presidente de pesquisa de IA. Produzindo resultados com muito mais rapidez, tornando a criação de texto 3D quase em tempo real acessível a criativos de todos os setores.
LATTE3D foi desenvolvido pela equipe do AI Lab da Nvidia com sede em Toronto e treinado usando prompts de texto gerados usando ChatGPT para melhorar a capacidade do modelo de lidar com diferentes frases que um usuário pode criar para descrever um determinado objeto 3D. Embora os pesquisadores tenham treinado o LATTE3D em dois conjuntos de dados específicos, animais e objetos do cotidiano, a mesma arquitetura pode ser usada para treinar IA em outros tipos de dados. Continua sendo apenas um projeto de pesquisa e não está disponível para uso público.
escreveu o criador de IA Bilawal Sidhu X: “Este é um grande salto. O DreamFusion por volta de 2022 era lento e de baixa qualidade, mas lançou esta revolução 3D generativa. Esforços como ATT3D (Autized Object Texture to 3D) perseguiram a velocidade em detrimento da qualidade. Agora com LATTE3D de alta qualidade e processos em menos de um segundo! O que significa que você pode duplicar rapidamente um mundo 3D e preenchê-lo com texto ou imagem para transformá-lo em 3D.
Junto com o vídeo, o 3D é a próxima fronteira para a geração de imagens de IA. Esta semana, a Adobe também anunciou a integração de suas primeiras ferramentas baseadas em Firefly AI no Substance 3D.