1 de mar de 2018

De Siri à Alexa, entenda do que assistentes de voz virtuais são capazes

Udacity Brasil

Siri, Cortana, Alexa, Home... As assistentes pessoais virtuais controladas por voz representam uma progressão tecnológica vertiginosa que utiliza meios como processamento de linguagem natural e reconhecimento de voz, entre outras, para transformar o jeito que seres humanos e máquinas se comunicam.

Seu sistema de aprendizagem e classificação é baseado nas redes neurais artificiais, uma classe de algoritmos de machine learning, que por sua vez é um ramo de inteligência artificial.

Formadas por múltiplas camadas de unidades de processamento, as redes neurais são mais "profundas" e ganharam o nome de deep learning, ou aprendizado profundo.

Como um tipo de machine learning, as redes neurais são programadas para evoluir mediante exemplos. Ou seja, podem ser continuamente treinadas para associar os recursos de entrada e a classificação desejada – e assim se aprimoram sozinhas, sem parar.

De acordo com Christopher Manning, professor de ciência da computação da Stanford University, os saltos já são evidentes: a precisão do reconhecimento de palavras pulou de 80% em 2009 para 95% em 2014.

Hoje, assistentes virtuais conseguem até se acostumar com sotaques fortes e outros fatores particulares da fala de cada um.

Leia: 4 motivos para começar a aprender machine learning hoje

O futuro das assistentes virtuais

O alto poder computacional de uma rede neural permite que elas trabalhem uma enorme gama de fatores, como sequência de palavras proferidas, enunciados de fala e localização, que são então utilizados para buscar e oferecer a resposta correta.

É possível, por exemplo, programar assistentes virtuais para que acendam as luzes quando você está na esquina (elas têm acesso à sua localização pelo celular), liguem a máquina de lavar às 17h, leiam uma receita ou calculem quanto tempo a fila de um museu está levando naquele momento. Tudo utilizando comandos de voz.

As "habilidades" dessas assistentes – como são conhecidos os aplicativos que podem ser acessados por elas para cumprir tarefas diversas – são numerosas. Só a Alexa, que pertence à Amazon, tem mais de 30 mil. O Google Home é capaz de mais de um milhão de ações.

Num mercado de players competitivos em busca de clientes, é possível vislumbrar um futuro em que assistentes virtuais de diferentes companhias possam interagir entre si, como pedir que a Siri, da Apple, contate a Cortana, da Microsoft, para ler um e-mail no Microsoft Outlook.

Os efeitos de um mundo em que as assistentes virtuais estão presentes no cotidiano vão além de uma pergunta sobre tempo de trajeto ou previsão de tempo.

No futuro, elas poderão, por exemplo, antecipar as necessidades de cada usuário em uma casa e se integrarem a outros aparelhos, como carros, para planejar o trajeto e ligar o ar-condicionado.

A diferença também será sentida, literalmente, no bolso: em um ambiente interconectado por assistentes virtuais, a tendência é que o manuseio de celulares diminua. Será preciso apenas falar.

Leia: AI, ML, DL... Entenda as siglas por trás da revolução tecnológica

O que precisa melhorar

É importante, porém, situar-se de maneira realista dentro desse cenário.

Como toda tecnologia, elas têm uma longa lista de melhorias pela frente, que vão de microfones com feixes concentrados (que focam em um usuário específico num grupo, por exemplo) à aplicação de dados biométricos para torná-las mais seguras.

E há outras discussões relacionadas à privacidade e à segurança que precisarão ser respondidas.

Se essas máquinas estão escutando o tempo todo em busca de ordens, como ter certeza que esses dados estão sendo tratados da maneira correta? E se estão em uso em um carro, por exemplo, como evitar que hackers se aproveitem do cenário para sabotar um motorista?

Antes de lidar com preocupações como estas, ainda é preciso ensinar as assistentes a fazer algo que parece básico: bater papo.

Em uma entrevista à Time, Alan Black, professor do Instituto de Linguagem da Escola de Ciência da Computação da Carnegie Mellon, explicou que elas ainda não têm capacidade de manter conversas longas e naturais com um ser humano, um ponto essencial para outro salto.

"Praticamente não há diálogo, interação de longo prazo", explicou. "Esta é uma questão em aberto."

Se depender do grupo de gigantes envolvidas – que agora incluem abertamente Samsung e Facebook –, a resposta pode surgir sem aviso, na próxima atualização do seu celular.

Leia: Machine Learning: entenda a aplicação em diferentes mercados

Sobre o autor
Udacity Brasil

A Udacity, conhecida como a "Universidade do Vale do Silício", é uma plataforma online e global que conecta educação e mercado para ensinar as habilidades do futuro – de data science e marketing digital à inteligência artificial e desenvolvimento. Hoje, há mais de 7 mil alunos ativos no país e 50 mil pelo mundo.