Imagens mais realistas e precisas: conheça o novo gerador do ChatGPT lançado pela OpenAI

​A OpenAI anunciou recentemente uma atualização significativa no ChatGPT, integrando um novo gerador de imagens que promete resultados mais precisos e realistas. Essa inovação, impulsionada pelo modelo GPT-4o, representa um avanço notável na capacidade de geração de imagens por inteligência artificial.

Avanços na Geração de Imagens com o GPT-4o

O GPT-4o substitui o DALL·E 3 como o modelo padrão de geração de imagens no ChatGPT. Essa mudança é fruto de um ano de colaboração com treinadores humanos, que aprimoraram o modelo por meio de aprendizado por reforço com feedback humano (RLHF). O resultado é uma ferramenta capaz de criar imagens mais realistas, com fundos transparentes e textos coerentes, tornando-se especialmente útil para aplicações comerciais, como a criação de logotipos e apresentações.

Funcionalidades Aprimoradas

Além da melhoria na qualidade das imagens, o GPT-4o apresenta avanços significativos:

  • Renderização de Texto: Capacidade de integrar símbolos precisos às imagens, facilitando a criação de comunicações visuais eficazes.
  • Geração Multi-turno: Possibilidade de refinar imagens por meio de conversas naturais, garantindo consistência em múltiplas interações.
  • Segurança e Conformidade: Implementação de salvaguardas robustas para prevenir usos indevidos, incluindo a incorporação de metadados C2PA para indicar que as imagens foram geradas por IA.

Curiosidades Técnicas do Novo Modelo

Modelo Autoregressivo

Diferentemente de modelos de difusão como o DALL·E, o GPT-4o utiliza uma abordagem autoregressiva para a geração de imagens. Isso significa que as imagens são geradas sequencialmente, pixel por pixel, de cima para baixo e da esquerda para a direita, semelhante à forma como o texto é escrito. Essa técnica permite uma renderização mais precisa de elementos complexos, como texto dentro das imagens.

Capacidade Aprimorada para Texto

Uma das melhorias notáveis é a habilidade aprimorada de renderizar texto dentro das imagens. O GPT-4o pode criar sinais, menus e convites com textos claros e legíveis, superando limitações anteriores de modelos que tinham dificuldades em integrar texto de forma coerente nas imagens.

Geração Multi-turno e Compreensão Contextual

A integração nativa ao ChatGPT permite interação contínua, onde os usuários podem ajustar imagens através de conversas naturais. O GPT-4o utiliza o histórico das conversas e seu vasto banco de dados interno para gerar imagens visualmente precisas e contextualmente relevantes.

Segurança e Conformidade

Todas as imagens geradas incluem metadados C2PA, indicando que foram criadas por IA. Além disso, a OpenAI implementou salvaguardas éticas, prevenindo a geração de conteúdo violento ou explícito, e permitindo que figuras públicas optem por não ter suas imagens geradas pelo modelo.

Disponibilidade

A nova funcionalidade já está disponível para usuários dos planos Plus, Pro, Team e Free do ChatGPT, com expansão prevista em breve para planos Enterprise e Edu. Desenvolvedores também terão acesso à geração de imagens via API nas próximas semanas.

Essa atualização reforça o compromisso da OpenAI em oferecer ferramentas de IA cada vez mais avançadas e acessíveis, abrindo novas possibilidades para a criação de conteúdo visual de alta qualidade.

Fontes: