Seguindo a tendência atual de outras IA’s, o ChatGPT lançou recursos de voz e imagem, para tornar essa IA ainda mais completa.
O chatbot favorito de todos agora pode ver, ouvir e falar. Na segunda-feira, a OpenAI anunciou novos recursos multimodais para ChatGPT. Os usuários agora podem ter conversas de voz ou compartilhar imagens com ChatGPT em tempo real.
ChatGPT lançou recursos de voz e imagem
Sim. O ChatGPT lançou recursos de voz e imagem. Os recursos de áudio e multimodais se tornaram a próxima fase na feroz competição de IA generativa.
A Meta lançou recentemente o AudioCraft para gerar música com IA e o Google Bard e o Microsoft Bing implantaram recursos multimodais para suas experiências de bate-papo.
Na semana passada, a Amazon apresentou uma versão renovada do Alexa que será alimentada por seu próprio LLM (modelo de linguagem grande), e até a Apple está experimentando voz gerada por IA, com Voz Pessoal.
Os recursos de voz estarão disponíveis para iOS e Android. Como Alexa ou Siri, você pode tocar para falar com o ChatGPT e ele responderá a você em uma das cinco opções de voz preferidas.
Ao contrário dos assistentes de voz atuais, o ChatGPT é alimentado por LLMs mais avançados, então o que você ouvirá é o mesmo tipo de resposta conversacional e criativa que o GPT-4 e o GPT-3.5 da OpenAI são capazes de criar com texto.
O exemplo que a OpenAI compartilhou no anúncio é a geração de uma história para dormir a partir de um comando de voz. Assim, pais exaustos ao final de um longo dia podem terceirizar sua criatividade para o ChatGPT.
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
O reconhecimento multimodal é algo previsto há algum tempo e agora está sendo lançado de forma amigável para ChatGPT.
Quando o GPT-4 foi lançado em março passado, o OpenAI demonstrou sua capacidade de compreender e interpretar imagens e textos manuscritos.
Agora fará parte do uso diário do ChatGPT. Os usuários podem fazer upload de uma imagem de algo e perguntar ao ChatGPT sobre isso – identificando uma nuvem ou fazendo um plano de refeições com base em uma foto do conteúdo da sua geladeira.
Vale ressaltar que o reconhecimento Multimodal estará disponível em todas as plataformas.
Tal como acontece com qualquer avanço de IA generativa, há sérias questões éticas e de privacidade a serem consideradas.
Para mitigar os riscos de deepfakes de áudio, a OpenAI afirma que está usando sua tecnologia de reconhecimento de áudio apenas para o caso específico de “bate-papo por voz”. Além disso, foi criado com dubladores com quem eles “trabalharam diretamente”.
Dito isso, o anúncio não menciona se as vozes dos usuários podem ser usadas para treinar o modelo, quando você opta pelo chat de voz.
Para os recursos multimodais do ChatGPT, a OpenAI afirma que “tomou medidas técnicas para limitar significativamente a capacidade do ChatGPT de analisar e fazer declarações diretas sobre as pessoas, uma vez que o ChatGPT nem sempre é preciso e esses sistemas devem respeitar a privacidade dos indivíduos”.
Mas o verdadeiro teste de usos nefastos não será conhecido até que seja solto na natureza.