16 de jul de 2018

Google Duplex: o que é essa nova ferramenta de inteligência artificial?

Udacity Brasil

Foi com grande alvoroço e uma dose de espanto que a plateia da Google I/O 2018, conferência anual do Google para desenvolvedores, recebeu o lançamento do novo sistema de inteligência artificial da empresa. O Google Duplex, cuja principal função é agendar compromissos por telefone por meio de um assistente digital, será associado ao Google Assistant — provavelmente a partir da versão 9.0 do Android, a ser liberada este ano — e deve ser testado já no próximo semestre no hemisfério norte.

Ainda não está claro se esses primeiros testes serão feitos apenas nos EUA ou estendidos para outros países. Algumas análises, no entanto, apostam que mercados grandes e poucos digitalizados, como o Brasil e a Índia, podem ser bons alvos para o novo produto na fase inicial. Isso porque o objetivo do Duplex é facilitar a mediação entre usuários e serviços sem sistema online de reservas, por exemplo.

Durante a apresentação na conferência em maio, o CEO do Google, Sundar Pichai, ressaltou esse propósito. “Nossa visão sobre o assistente é ajudar o usuário a resolver as coisas. Acontece que grande parte das coisas se resolve fazendo ligações”, disse. O que mais chama a atenção do público, porém, é a forma como a ferramenta faz isso: com um sistema de voz e conversa extremamente parecido com a linguagem humana.

CEO do Google apresenta as impressionantes habilidades do Google Duplex na Google I/O 2018

Assista ao webinar: As novidades do evento Google I/O 2018

O processamento da linguagem natural pelo Google Duplex

É claro que o Google Duplex não é a primeira ferramenta do Google a processar a linguagem natural: esse tipo de tecnologia está presente em diversos sistemas desenvolvidos pela empresa, desde corretores automáticos até os comandos de voz do Google Assistant. O crucial, aqui, é o nível de sofisticação e complexidade trazido pelo novo sistema de IA e o que isso significa em termos de avanços nessa área.

Um modelo possível para o processamento da linguagem natural, utilizado pelo Google Duplex (e por outras ferramentas), é o uso de redes neurais. “Elas ‘escutam’ pessoas falando e começam a montar padrões, usando estatística. Esses padrões são utilizados para produzir frases novas e aprender mais padrões. Uma rede neural aprende sozinha”, explica o pesquisador e neurocientista brasileiro André Souza, que já trabalhou para o Google no Vale do Silício.

Nesse sentido, ele compara o aprendizado da máquina ao humano. “Uma criança, quando está aprendendo português, ouve coisas do tipo comer, comeu; correr, correu; morrer, morreu. Ela associa ‘er’ com ‘eu’, percebe esse padrão. É por isso que ela vai falar fazer, fazeu. Uma rede neural produziria o mesmo erro inicialmente, porque ela ‘perceberia’ esse padrão e o reproduziria sempre.” Do mesmo jeito que a criança se corrige com o tempo, aprendendo um novo padrão (fazer, fez), a máquina também forma novas associações.

Por isso, quanto mais a ferramenta “ouve” uma língua, mais material ela tem para alimentar esse aprendizado. “Um sistema virtual como o Google Duplex, assim como o ser humano, fica bom com o tempo e com treino. Como inglês é uma língua muito falada no mundo, os assistentes têm muito insumo, ou seja, ‘escutam’ muito inglês, e assim ficam bons mais rápido. O mesmo não se pode dizer de línguas que não têm muito insumo para o sistema aprender todas as suas nuances, o hindi é uma delas”, diz André.

Diagrama do Google explica: o som de entrada é processador por um sistema de automatic speech recognition, que produz o texto analisado com contexto e outros inputs para produzir um texto que é lido em voz alta pelo sistema text to speech

Mais do que “aprender” a língua natural, um sistema de IA como o Google Duplex também deve reproduzi-la. Aqui, o aperfeiçoamento das ferramentas de text-to-speech também impressionam: a “voz” do Google Duplex soa muito mais natural do que a de outros assistentes virtuais. Isso foi possível graças ao uso de uma tecnologia chamada WaveNet. “De maneira bem simples, esse modelo é uma espécie de máquina copiadora de sons. Ele pega os sons de falas reais das pessoas e copia modelos que imitam as características sonoras dessas falas”, explica André.

O WaveNet modula formas brutas das ondas sonoras da fala, copiando suas vibrações — e pode fazer isso também com outros tipos de onda sonora, como música. “A sofisticação dessa tecnologia está justamente aí: ela consegue modelar as características sonoras da nossa fala de maneira tão perfeita que nosso cérebro não consegue diferenciar a cópia do real, parece uma pessoa de verdade falando. E quanto mais a tecnologia se aperfeiçoar, mais natural vai ser conversar com uma máquina”, defende o pesquisador.

Leia: Tutorial de TensorFlow para iniciantes: aprenda a processar imagens

A naturalidade diante de situações “imprevistas”

Além de soar com muito mais naturalidade que outras “vozes” digitais, o Google Duplex também foi “treinado” para reproduzir uma série de domínios da comunicação humana e lidar com situações complexas de reação ao interlocutor, como hesitações, falhas no telefone, dificuldades de compreensão e rumos inesperados que a conversa pode tomar.

Talvez seja nessas novas capacidades que resida a grande contribuição desse sistema ao processamento de linguagem natural. “O uso desses recursos por uma máquina representa um avanço importante, já que sinaliza que computadores podem agora prestar atenção em fatores interacionais e sociais da comunicação. Um computador não só ‘processa’ o que você diz, mas processa também pistas implícitas [da conversa], o que faz com que a interação pareça mais natural”, diz André.

Vídeo do canal ColdFusion, especializado em tecnologia, explica como o Google Duplex funciona

Ele menciona pausas, hesitações e filtragem de barulhos desnecessários durante a fala como exemplos de pistas que não necessariamente transmitem significado durante uma conversa, mas têm um papel social importante para as situações de interação. “É interessante que o nosso cérebro percebe essas pistas como indicadores de proficiência linguística. Por isso, para o nosso sistema cognitivo, quando ouvimos o Google Duplex parece que estamos falando com uma pessoa.”

Chegar a um mecanismo que processe tudo isso, porém, não é simples. Como mostra o áudio de lançamento do Google Duplex, a ferramenta parece preparada para lidar com situações de uso da língua com as quais os assistentes virtuais normalmente não estão acostumados, como omissão de palavras ou sílabas, truncamentos, interrupções de raciocínio.

Segundo André, é muito complexo programar, em máquinas, as inferências pragmáticas — ou seja, o uso de pistas não necessariamente linguísticas para a compreensão do significado em uma conversa — , porque elas são muito dependentes do contexto. “Às vezes omitimos uma palavra porque ela está óbvia no contexto, mas às vezes a omitimos porque ela é óbvia na relação específica entre os interlocutores. E saber qual situação é qual não é uma tarefa facilmente reproduzível.”

Leia: 6 inovações da DARPA, a misteriosa agência de pesquisa avançada dos EUA

O dilema ético da IA no Google Duplex

Apesar (ou por causa) de toda a sofisticação e complexidade, o Google Duplex parece desempenhar muito bem todas essas tarefas de processamento de linguagem natural — e bem ao ponto de as pessoas que foram contatadas pelo assistente não perceberem que não se tratava de uma pessoa. Isso acabou gerando polêmicas e fez com que Google se pronunciasse, prometendo que o sistema vai deixar claro que aquela voz se trata de uma máquina e não de um ser humano.

Para André, essa questão ética tem mais a ver com as expectativas que guiam o comportamento linguístico do que com a perfeição alcançada no modelamento da língua natural. “Na minha opinião, o problema está relacionado, primeiro, aos potenciais usos inapropriados de uma tecnologia dessa natureza e, segundo, às incertezas que temos de como é interagir com uma máquina”, defende.

Ele explica que quando interagimos com outra pessoa, criamos implicitamente uma gama de expectativas que direcionam o que falamos e como falamos. “As pessoas ainda estão formando essas expectativas sobre o que é conversar com um computador. Quando eu digo alguma coisa pra alguém, essa pessoa associa a minha fala, entonação, sotaque, a uma intenção que é minha, humana. Mas sabemos que máquinas não tem ‘intenção’. Então como associar tudo isso a uma máquina?”

O pesquisador também alerta para os usos antiéticos de sistemas tão sofisticados de inteligência artificial, já que eles podem facilmente se passar por uma pessoa e ser programados para isso. Ainda assim, André é otimista com relação ao futuro da nossa interação com esse tipo de tecnologia.

“A perfeição do modelamento linguístico é de fato um grande avanço e que precisa ser reconhecido”, diz. “E imagino que quanto mais as pessoas utilizarem esses tipos de assistentes, mais elas saberão que tipo de expectativas criar acerca dessas interações.”

Leia também:

Udacity Brasil