O futuro do ChatGPT: escutando, vendo e resolvendo quase tudo

ChatGPT, o modelo de linguagem de inteligência artificial (IA) de OpenAI, expande suas capacidades e agora é capaz de ver suas fotos e ouvir

Publicado 04/10/2023 às 17:30 por Alex Torres

Em notícias que transformam a ficção científica em realidade, o modelo de linguagem de inteligência artificial (IA) da OpenAI, ChatGPT, está prestes a adquirir novas habilidades: reconhecimento de voz e imagem. Essa atualização será implantada para os usuários Plus e Enterprise do ChatGPT nas próximas duas semanas. A configuração de voz estará disponível para iOS e Android, enquanto a resposta de imagem será disponibilizada em todas as plataformas, conforme anunciado pela OpenAI.

Um modelo de linguagem com visão e audição

A adição de reconhecimento de voz e imagem ao ChatGPT traz uma gama de novas possibilidades para a utilização do modelo de linguagem. Imagine tirar uma foto de um monumento durante uma viagem e ter uma conversa ao vivo sobre o que torna esse lugar interessante. Ou, ao voltar para casa, tirar fotos da sua geladeira e despensa para decidir o que fazer para o jantar, com o auxílio da IA para sugerir receitas.

De acordo com a OpenAI, os usuários podem compartilhar uma ou mais imagens com o modelo de linguagem da IA, direcionando o ChatGPT para um elemento específico usando a ferramenta de desenho no aplicativo mobile. Isso é possível com fotografias, capturas de tela e documentos com texto e imagens, tudo alimentado pelas versões GPT-3.5 e GPT-4, mais recentes da OpenAI.

Testes e segurança

O proprietário do ChatGPT declara que o modelo de entrada de imagem foi testado com um conjunto diversificado de testadores alfa e red teamers. Os red teamers são profissionais que imitam ações de hackers para identificar possíveis problemas de segurança ou oportunidades de uso indevido. Esse processo de teste foi valoroso para garantir a segurança e eficácia do modelo de entrada de imagem.

O ChatGPT busca respeitar a privacidade dos indivíduos, evitando analisar ou fazer declarações diretas sobre pessoas, já que nem sempre pode ser preciso nessa análise. Isso é particularmente relevante quando o modelo está interpretando imagens que contêm pessoas ao fundo.

Novas vozes para ChatGPT

a stylized image of a blue and yellow face

Para experimentar a nova função de voz, os usuários devem ir até a opção de Configurações, depois Novos Recursos no aplicativo mobile. Após optarem pela atualização, terão a oportunidade de escolher uma entre cinco vozes. A OpenAI colaborou com atores de voz profissionais para criar cada uma das vozes, mas não está claro até que ponto as vozes estão no produto final e quanto foi construído usando a geração de IA.

Contudo, a OpenAI desencoraja o uso do modelo em casos de alto risco sem a devida verificação. A nova tecnologia de voz é capaz de criar vozes sintéticas realistas a partir de apenas alguns segundos de fala real, apresentando potenciais riscos, como a possibilidade de atores maliciosos imitarem figuras públicas ou cometerem fraudes.

Da fala ao texto

Além disso, o ChatGPT utilizará o sistema de reconhecimento de fala de código aberto da empresa, Whisper, para transcrever palavras faladas em texto, embora muitos produtos já possuam recursos de fala para texto.

Com essas novidades, a OpenAI mostra mais uma vez seu compromisso em avançar a fronteira da inteligência artificial e moldar o futuro da tecnologia.

Inteligência contextual em imagens

A capacidade de analisar imagens pelo ChatGPT não se limita apenas ao reconhecimento visual básico. Com a avançada IA da OpenAI, o modelo é capaz de entender o contexto da imagem e relacioná-lo com bancos de dados e informações preexistentes. Isso significa que, ao apresentar uma imagem de um prato culinário, por exemplo, o ChatGPT pode não apenas identificar o prato, mas também oferecer uma breve história sobre sua origem, ingredientes principais e até mesmo tradições culturais associadas a ele. Esta inteligência contextual transforma a experiência do usuário, tornando a interação com o modelo mais rica e informativa.

Aplicações e intenções futuras

a computer screen with a bunch of words on it

O lançamento dessas novas capacidades sinaliza um futuro promissor para o ChatGPT e para a IA em geral. Enquanto o modelo atual já é revolucionário, a OpenAI já vislumbra aplicações futuras ainda mais avançadas. Em um mundo cada vez mais digitalizado, a possibilidade de integrar o ChatGPT em realidade aumentada (AR) e realidade virtual (VR) pode transformar a maneira como interagimos com o mundo virtual, tornando-o mais imersivo e informativo. Além disso, a empresa planeja expandir sua presença em setores como educação, medicina e design, onde a combinação de linguagem, imagem e voz pode criar soluções inovadoras e revolucionárias.

Empregamos cookies indispensáveis e tecnologias correlatas, conforme nossa Política de Privacidade. Ao prosseguir com a navegação, você expressa seu consentimento com tais termos. Politica de Privacidade