ChatGPT lançou recursos de voz e imagem

Facebook Tweet Pin LinkedIn

Seguindo a tendência atual de outras IA’s, o ChatGPT lançou recursos de voz e imagem, para tornar essa IA ainda mais completa.

O chatbot favorito de todos agora pode ver, ouvir e falar. Na segunda-feira, a OpenAI anunciou novos recursos multimodais para ChatGPT. Os usuários agora podem ter conversas de voz ou compartilhar imagens com ChatGPT em tempo real.

ChatGPT lançou recursos de voz e imagem

Sim. O ChatGPT lançou recursos de voz e imagem. Os recursos de áudio e multimodais se tornaram a próxima fase na feroz competição de IA generativa.

A Meta lançou recentemente o AudioCraft para gerar música com IA e o Google Bard e o Microsoft Bing implantaram recursos multimodais para suas experiências de bate-papo.

Na semana passada, a Amazon apresentou uma versão renovada do Alexa que será alimentada por seu próprio LLM (modelo de linguagem grande), e até a Apple está experimentando voz gerada por IA, com Voz Pessoal.

Os recursos de voz estarão disponíveis para iOS e Android. Como Alexa ou Siri, você pode tocar para falar com o ChatGPT e ele responderá a você em uma das cinco opções de voz preferidas.

Ao contrário dos assistentes de voz atuais, o ChatGPT é alimentado por LLMs mais avançados, então o que você ouvirá é o mesmo tipo de resposta conversacional e criativa que o GPT-4 e o GPT-3.5 da OpenAI são capazes de criar com texto.

O exemplo que a OpenAI compartilhou no anúncio é a geração de uma história para dormir a partir de um comando de voz. Assim, pais exaustos ao final de um longo dia podem terceirizar sua criatividade para o ChatGPT.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

O reconhecimento multimodal é algo previsto há algum tempo e agora está sendo lançado de forma amigável para ChatGPT.

Quando o GPT-4 foi lançado em março passado, o OpenAI demonstrou sua capacidade de compreender e interpretar imagens e textos manuscritos.

Agora fará parte do uso diário do ChatGPT. Os usuários podem fazer upload de uma imagem de algo e perguntar ao ChatGPT sobre isso – identificando uma nuvem ou fazendo um plano de refeições com base em uma foto do conteúdo da sua geladeira.

Vale ressaltar que o reconhecimento Multimodal estará disponível em todas as plataformas.

Tal como acontece com qualquer avanço de IA generativa, há sérias questões éticas e de privacidade a serem consideradas.

Para mitigar os riscos de deepfakes de áudio, a OpenAI afirma que está usando sua tecnologia de reconhecimento de áudio apenas para o caso específico de “bate-papo por voz”. Além disso, foi criado com dubladores com quem eles “trabalharam diretamente”.

Dito isso, o anúncio não menciona se as vozes dos usuários podem ser usadas para treinar o modelo, quando você opta pelo chat de voz.

Para os recursos multimodais do ChatGPT, a OpenAI afirma que “tomou medidas técnicas para limitar significativamente a capacidade do ChatGPT de analisar e fazer declarações diretas sobre as pessoas, uma vez que o ChatGPT nem sempre é preciso e esses sistemas devem respeitar a privacidade dos indivíduos”.

Mas o verdadeiro teste de usos nefastos não será conhecido até que seja solto na natureza.

Post Views: 381

Facebook Tweet Pin LinkedIn

Linux	Tecnologia
Android	iOS
Segurança	Programação
Hardware	jogos
Apple	Mac
Ubuntu	Debian
Linux Mint	Fedora
openSUSE	Arch Linux
Red Hat	Slackware
Manjaro	Redes

ChatGPT lançou recursos de voz e imagem

Sobre o Edivaldo Brito