Modelos OpenAI mais recentes já desenham e reconhecem objetos de forma mais eficiente

Modelos OpenAI mais recentes já desenham e reconhecem objetos de forma mais eficiente. Confira os detalhes e possibilidades da tecnologia.

Pesquisadores da OpenAI desenvolveram duas redes neurais que podem desenhar objetos conforme direcionado pelo usuário em linguagem natural e descrever imagens com alto grau de precisão.

Modelos OpenAI mais recentes já desenham e reconhecem objetos de forma mais eficiente

Modelos OpenAI mais recentes já desenham e reconhecem objetos de forma mais eficiente

Os projetos que foram divulgados há poucos dias ampliam o leque de tarefas às quais a inteligência artificial pode ser aplicada, além de também promover o objetivo da comunidade de pesquisa em IA de criar modelos mais versáteis que requeiram menos ajustes manuais por parte dos engenheiros para produzir resultados precisos.

DALL · E, a primeira nova rede neural, é uma versão miniaturizada do modelo de processamento de linguagem natural GPT-3 que OpenAI estreou em 2020.

GPT-3, uma das redes neurais mais complexas criadas até hoje, pode gerar texto e até mesmo o código do software a partir de descrições simples. O DALL · E aplica a mesma capacidade de desenhar imagens conforme orientado pelo usuário.

A capacidade notável do modelo é que ele pode produzir imagens mesmo em resposta a descrições que encontra pela primeira vez e que normalmente são difíceis de interpretar por uma IA.

Durante os testes realizados pelos pesquisadores da OpenAI eles conseguiram demonstrar que o modelo pode gerar desenhos em resposta a descrições como, além disso, o modelo é capaz de gerar imagens nos mais diversos estilos.

Os pesquisadores decidiram testar exatamente o quão versátil a IA é, fazendo-a enfrentar várias tarefas adicionais de dificuldade variada.

Em uma série de experimentos, o modelo se mostrou altamente eficiente, tendo a capacidade de gerar a mesma imagem de múltiplos ângulos e em diferentes níveis de resolução.

Outro teste de IA também mostrou que o modelo é sofisticado o suficiente para personalizar detalhes individuais da imagem que deve gerar.

“O controle simultâneo de vários objetos, seus atributos e suas relações espaciais apresenta um novo desafio”, escreveram os pesquisadores da OpenAI em um blog.

Por exemplo, considere a frase “um ouriço com um chapéu vermelho, luvas amarelas, uma camisa azul e calças verdes”. Para interpretar corretamente esta frase, DALL E deve não só compor corretamente cada vestimenta com o animal, mas também formar as associações (chapéu, vermelho), (luvas, amarelo), (camisa, azul) e (calça, verde) sem misturá-los.

Outra rede neural recentemente detalhada da OpenAI, Clip, concentra-se no reconhecimento de objetos em imagens existentes, em vez de desenhar novas.

E embora já existam modelos de visão computacional que classificam as imagens dessa forma, é importante notar que a maioria deles consegue identificar apenas um pequeno conjunto de objetos para os quais são especificamente treinados.

Uma IA que classifica animais em fotos da vida selvagem, por exemplo, deve ser treinada em um grande número de fotos da vida selvagem para produzir resultados precisos.

O que distingue o Clip do OpenAI é que ele é capaz de criar uma descrição de um objeto que antes não havia sido encontrado.

A versatilidade do Clip é fruto de uma nova abordagem de treinamento que o laboratório desenvolveu para construir o modelo.

Para o processo de treinamento, o OpenAI não utilizou um conjunto de dados de imagens desenhadas à mão, mas imagens obtidas na web pública e suas legendas anexadas.

As legendas permitiram que Clip construísse um amplo léxico de palavras associadas a diferentes tipos de objetos, associações que ele poderia usar para descrever objetos que não tinha visto antes.

Os investigadores por trás do Clip detalharam que:

“O aprendizado profundo requer uma grande quantidade de dados, e os modelos de visão têm sido tradicionalmente treinados em conjuntos de dados rotulados manualmente que são caros para construir e fornecem supervisão apenas para um número limitado de conceitos visuais predeterminados. Em vez disso, o CLIP aprende com os pares de texto e imagem que já estão disponíveis publicamente na Internet.””,

Por fim, se você quiser saber mais sobre os modelos OpenAI, pode verificar os detalhes no seguinte endereço.

Sair da versão mobile