O futuro do ChatGPT: escutando, vendo e resolvendo quase tudo

ChatGPT, o modelo de linguagem de inteligência artificial (IA) de OpenAI, expande suas capacidades e agora é capaz de ver suas fotos e ouvir

Publicado 04/10/2023 às 17:30 por Alex Torres

Continua após a publicidade..

Em notícias que transformam a ficção científica em realidade, o modelo de linguagem de inteligência artificial (IA) da OpenAI, ChatGPT, está prestes a adquirir novas habilidades: reconhecimento de voz e imagem. Essa atualização será implantada para os usuários Plus e Enterprise do ChatGPT nas próximas duas semanas. A configuração de voz estará disponível para iOS e Android, enquanto a resposta de imagem será disponibilizada em todas as plataformas, conforme anunciado pela OpenAI.

Um modelo de linguagem com visão e audição

A adição de reconhecimento de voz e imagem ao ChatGPT traz uma gama de novas possibilidades para a utilização do modelo de linguagem. Imagine tirar uma foto de um monumento durante uma viagem e ter uma conversa ao vivo sobre o que torna esse lugar interessante. Ou, ao voltar para casa, tirar fotos da sua geladeira e despensa para decidir o que fazer para o jantar, com o auxílio da IA para sugerir receitas.

De acordo com a OpenAI, os usu√°rios podem compartilhar uma ou mais imagens com o modelo de linguagem da IA, direcionando o ChatGPT para um elemento espec√≠fico usando a ferramenta de desenho no aplicativo mobile. Isso √© poss√≠vel com fotografias, capturas de tela e documentos com texto e imagens, tudo alimentado pelas vers√Ķes GPT-3.5 e GPT-4, mais recentes da OpenAI.

Continua após a publicidade..

Testes e segurança

O propriet√°rio do ChatGPT declara que o modelo de entrada de imagem foi testado com um conjunto diversificado de testadores alfa e red teamers. Os red teamers s√£o profissionais que imitam a√ß√Ķes de hackers para identificar poss√≠veis problemas de seguran√ßa ou oportunidades de uso indevido. Esse processo de teste foi valoroso para garantir a seguran√ßa e efic√°cia do modelo de entrada de imagem.

O ChatGPT busca respeitar a privacidade dos indiv√≠duos, evitando analisar ou fazer declara√ß√Ķes diretas sobre pessoas, j√° que nem sempre pode ser preciso nessa an√°lise. Isso √© particularmente relevante quando o modelo est√° interpretando imagens que cont√™m pessoas ao fundo.

Novas vozes para ChatGPT

a stylized image of a blue and yellow face

Para experimentar a nova fun√ß√£o de voz, os usu√°rios devem ir at√© a op√ß√£o de Configura√ß√Ķes, depois Novos Recursos no aplicativo mobile. Ap√≥s optarem pela atualiza√ß√£o, ter√£o a oportunidade de escolher uma entre cinco vozes. A OpenAI colaborou com atores de voz profissionais para criar cada uma das vozes, mas n√£o est√° claro at√© que ponto as vozes est√£o no produto final e quanto foi constru√≠do usando a gera√ß√£o de IA.

Contudo, a OpenAI desencoraja o uso do modelo em casos de alto risco sem a devida verifica√ß√£o. A nova tecnologia de voz √© capaz de criar vozes sint√©ticas realistas a partir de apenas alguns segundos de fala real, apresentando potenciais riscos, como a possibilidade de atores maliciosos imitarem figuras p√ļblicas ou cometerem fraudes.

Da fala ao texto

Além disso, o ChatGPT utilizará o sistema de reconhecimento de fala de código aberto da empresa, Whisper, para transcrever palavras faladas em texto, embora muitos produtos já possuam recursos de fala para texto.

Com essas novidades, a OpenAI mostra mais uma vez seu compromisso em avançar a fronteira da inteligência artificial e moldar o futuro da tecnologia.

Inteligência contextual em imagens

A capacidade de analisar imagens pelo ChatGPT n√£o se limita apenas ao reconhecimento visual b√°sico. Com a avan√ßada IA da OpenAI, o modelo √© capaz de entender o contexto da imagem e relacion√°-lo com bancos de dados e informa√ß√Ķes preexistentes. Isso significa que, ao apresentar uma imagem de um prato culin√°rio, por exemplo, o ChatGPT pode n√£o apenas identificar o prato, mas tamb√©m oferecer uma breve hist√≥ria sobre sua origem, ingredientes principais e at√© mesmo tradi√ß√Ķes culturais associadas a ele. Esta intelig√™ncia contextual transforma a experi√™ncia do usu√°rio, tornando a intera√ß√£o com o modelo mais rica e informativa.

Aplica√ß√Ķes e inten√ß√Ķes futuras

a computer screen with a bunch of words on it

O lan√ßamento dessas novas capacidades sinaliza um futuro promissor para o ChatGPT e para a IA em geral. Enquanto o modelo atual j√° √© revolucion√°rio, a OpenAI j√° vislumbra aplica√ß√Ķes futuras ainda mais avan√ßadas. Em um mundo cada vez mais digitalizado, a possibilidade de integrar o ChatGPT em realidade aumentada (AR) e realidade virtual (VR) pode transformar a maneira como interagimos com o mundo virtual, tornando-o mais imersivo e informativo. Al√©m disso, a empresa planeja expandir sua presen√ßa em setores como educa√ß√£o, medicina e design, onde a combina√ß√£o de linguagem, imagem e voz pode criar solu√ß√Ķes inovadoras e revolucion√°rias.

Empregamos cookies indispensáveis e tecnologias correlatas, conforme nossa Política de Privacidade. Ao prosseguir com a navegação, você expressa seu consentimento com tais termos. Politica de Privacidade