Início Notícias Graças ao ditado de voz da IA, mais pessoas estão falando e-mails,...

Graças ao ditado de voz da IA, mais pessoas estão falando e-mails, mensagens e códigos

33
0

Gavin McNamara abandona o teclado e passa o dia conversando em vez de digitar.

Ele fala por horas em seu computador e telefone, enviando e-mails, escrevendo apresentações, postando no LinkedIn e até codificando conversas usando um aplicativo de ditado de IA da startup Wispr Flow, de São Francisco.

A IA mapeia, formata e adapta automaticamente seu envolvimento em duplicatas. McNamara atinge 125 palavras por minuto, o dobro da velocidade de digitação.

“Hoje em dia, tudo o que pode ser feito por escrito, eu faço por meio da fala”, diz o jovem de 32 anos, fundador do serviço de software Why Not Us. “Estou apenas conversando.”

Em 77 aplicativos, ele digitou quase 300 mil palavras nos últimos cinco meses – o equivalente a escrever três romances.

A tecnologia e as startups californianas estão na vanguarda do movimento para usar a IA e os grandes modelos de linguagem que eles constroem para levar as pessoas a interagir com a tecnologia usando a voz em vez dos dedos.

“AI e LLM mudaram a dinâmica”, disse CJ Pais, desenvolvedor do aplicativo de ditado de voz para texto Handy, com sede em San Diego. “Usar sua voz é mais rápido do que digitar.”

Uma mistura de desenvolvedores independentes e startups, incluindo Handy, Wispr Flow e Willow de San Fransico e outros, surgiram para oferecer comunicação de voz verdadeira com inteligência artificial.

Os maiores nomes da tecnologia estão criando novas maneiras para as pessoas trabalharem com IA. Os óculos inteligentes mais recentes da Meta dependem do som. OpenAI e Meta desenvolveram recursos exclusivos para suas conversas por voz. Até mesmo Alexa, da Amazon, e Siri, da Apple, estão passando por atualizações de IA, que a empresa espera que façam com que todos falem mais com sua tecnologia.

Formas gratuitas e pagas de usar processamento de texto computadorizado atraíram milhões de usuários, incluindo programadores, assistentes executivos, advogados, criadores de conteúdo e médicos. Algumas pessoas pensam que o teclado pode estar obsoleto.

“Estou feliz em anunciar que removemos o teclado dos prêmios de TV mais populares do mundo”, disse Allan Guo, fundador da Willow, em um post no LinkedIn, observando que a equipe do Emmy Awards usou a voz de Willow para enviar mensagens do Slack e limpar caixas de entrada mais rapidamente em preparação para a premiação de 2026.

Ao longo dos anos, as principais empresas de tecnologia adaptaram a maioria dos seus produtos para recursos de áudio prioritários – por conveniência. A narração agora é um recurso acessível das ferramentas de produção.

No final de 2022, os desenvolvedores do ChatGPT começaram a fornecer acesso irrestrito a um modelo automatizado de reconhecimento de fala chamado Whisper, treinado em 680.000 horas de dados em vários idiomas. A OpenAI compartilhou a tecnologia para transcrição precisa de áudio, que é um segredo tecnológico bem guardado. Qualquer pessoa pode baixar e executar transcrições de IA de alta qualidade gratuitamente em seu laptop.

A nova onda de aplicativos de ditado de IA usa o Whisper como base e se desenvolve para oferecer ditado ao vivo. Embora exista uma opção gratuita, a assinatura custa entre US$ 8 e US$ 12 por mês.

O ditado baseado em IA está ganhando força entre programadores e usuários regulares – e está fazendo as pessoas falarem em seus laptops. Seja escrevendo e-mails, enviando mensagens de texto, projetando sites ou atribuindo tarefas de IA, os primeiros usuários dizem que o ditado lhes permite trabalhar mais rápido, pensar com mais clareza e ser mais produtivo.

“Os adotantes de voz não vão voltar. Quando você fala 20 horas por semana em seu laptop, digitar é como uma colisão”, diz Naveen Naidu, CEO do aplicativo de ditado de voz Monologue, com sede em Nova York. “Naquilo que considero a cabeça: a voz passa a ser a representante da delegação. Você diz o seu objetivo e tudo acontece”.

Esses novos aplicativos de ditado de IA são desenvolvidos pela Apple chips avançados em iPhones e Macs para ativar o ditado específico do dispositivo.

Geoffrey Huntley, um desenvolvedor de software freelance, tornou-se voz para o trabalho em junho.

Muitas vezes, ele inicia um projeto abrindo uma mensagem de voz e pedindo à IA que o entreviste sobre suas preocupações e requisitos do projeto antes de liberar o código.

“Eu falo com isso como se estivesse tocando em uma banda de jazz, para trás, para frente, para frente, para frente”, disse Huntley. Essa dança vocal ajuda a melhorar a definição, então a IA assume o volante e desenvolve software.

Além da codificação, Huntley usa a voz para “deixar fluir” ao fazer brainstorming de postagens em blogs ou postar mensagens, usando aplicativos como Superwhisper ou Whisper Flow para obter pensamentos do “primeiro rascunho” antes de passar para o teclado para as edições finais.

Cada vez mais desenvolvedores de software no Vale do Silício ditam horas de instrução de código em vez de escrita. A combinação de trabalhadores de IA que avançam rapidamente e que conseguem codificar durante horas, combinada com a entrada de voz que captura pensamentos mais rapidamente do que a digitação, aumentou a sua produtividade.

Autodenominado “codificador de vibração”, McNamara construiu 25 aplicativos da web em questão de meses, uma velocidade de progresso que teria sido impossível sem a orientação por voz.

“Não creio que (escrever), de forma alguma, será tão bem-sucedido ou mesmo tão eficaz quanto chegar lá tão rapidamente quanto consegui ao falar”, disse McNamara.

Ele usou uma conversa tortuosa e algumas horas para fazer com que a IA criasse o Sprout Gifts, um registro de presentes para crianças e um aplicativo para avaliar todos os itens por foto.

É certo que a IA pode cometer erros e o seu trabalho precisa de ser verificado.

Ao mesmo tempo, a adoção trouxe novas dificuldades, já que até mesmo os usuários avançados se sentem desconfortáveis ​​ao falar em seus laptops. Um escritório aberto e lotado não foi projetado para que muitas pessoas conversem em seus computadores ao mesmo tempo.

“Parece amor, mas não no escritório”, disse um usuário do X. “Não gosto de conversar com outras pessoas, faço isso em escritório fechado ou vou trabalhar no meu carro”.

McNamara usa fones de ouvido para que as pessoas pensem que ele está ligando.

“É como meus hacks sociais”, disse ele.

Embora seja muito cedo para saber se os teclados Qwerty podem seguir as fitas cassete e os aparelhos de fax até a obsolescência, o ritmo em direção ao áudio está acelerando, disse Dylan Fox, fundador da Assembly AI, com sede em São Francisco, que oferece modelos de áudio para empresas.

“Certamente estamos no início do que vemos como um aumento de 10 a 100 vezes na demanda por voz, aplicativos de IA e interfaces de usuário”, disse ele.

Para o programador McNamara, conversar mais com chatbots fez dele um amigo melhor.

Ele costumava ser ruim em responder mensagens de texto. Agora ele volta direto para seus amigos.

“Fui muito rápido em responder, tipo ‘Quem é esse cara?’”, Disse ela.

Link da fonte