27 de ago de 2018

Inteligência artificial no Brasil: como a Stilingue aplica deep learning para analisar redes sociais

Udacity Brasil

No já impressionante universo de inteligência artificial (IA), o deep learning, ou aprendizado profundo, é uma das técnicas mais avançadas. A ideia é gerar uma rede computacional com diversas camadas que funcionam de maneira semelhante aos neurônios do cérebro humano.

E é o tipo de tecnologia de ponta que costumamos pensar que só existe no hemisfério norte. No entanto, há uma empresa trabalhando com deep learning no Brasil que utiliza o recurso a nível internacional: a Stilingue.

A startup aplica deep learning e diversas outras possibilidades da inteligência artificial para criar modelos capazes de entender e analisar a linguagem das redes sociais numa escala massiva.

As ferramentas que oferece conseguem vasculhar volumes imensos de mensagens compartilhadas pela internet e, com base nelas, depreender o sentimento geral das pessoas sobre uma marca, por exemplo. É possível analisar a concorrência, encontrar pontos de atenção e tendências em milhões de publicações – tudo em segundos.

Como a Stilingue usa inteligência artificial

Segundo o CEO da Stilingue, Rodrigo Helcer, o deep learning é um dos “ingredientes” dos produtos que a empresa oferece, mas há outros essenciais. Um deles é o processamento de linguagem natural (NLP, na sigla em inglês), que envolve dar a sistemas digitais a capacidade de entender o significado de textos e frases. É a peça-chave por trás do Google Duplex, o novo sistema de IA da Google.

Além disso, outro é a visão computacional, uma técnica também usada em carros autônomos. A Stilingue usa visão computacional para permitir que seus sistemas consigam identificar, por exemplo, o aparecimento de determinados objetos ou logotipos em imagens compartilhadas em redes sociais.

Finalmente, a empresa também usa sistemas de processamento de áudio, para analisar e entender gravações. Juntando tudo isso, ela consegue criar sistemas capazes de entender praticamente tudo que lêem, vêem e ouvem na internet – e que conseguem ver, ler e ouvir muito mais do que qualquer pessoa.

E o que toda essa tecnologia permite fazer? Rodrigo compartilha o caso de um cliente (cujo nome não pode citar) que patrocinou os Jogos Olímpicos e utilizou um determinado objeto como parte de uma ação de marketing. “Mas quando as pessoas comentavam a ação, elas não falavam o nome da marca do cliente. Só postavam a foto do objeto."

Isso gerava uma dificuldade: o cliente queria entender como as pessoas haviam reagido à ação e buscar pelo nome de sua marca não trazia os resultados. A Stilingue treinou um classificador de objetos em fotos para detectar todas as publicações que falassem do evento e tivessem fotos daquele objeto, criando assim uma busca contextual.

“Com isso, conseguimos resumir tudo que foi falado em torno da ação. E não pelo nome da empresa, mas pela presença do objeto em fotos”, conta Rodrigo.

Há outros casos que ilustram a utilidade das ferramentas. Para marcas cujo nome é uma palavra que já existe (como a marca esportiva Puma, ou a linha aérea Azul), por exemplo, pesquisar por “puma” pode trazer como resultado tanto pares de tênis quanto felinos de grande porte.

No entanto, graças aos recursos de processamento de linguagem natural e deep learning da Stilingue, ela consegue criar sistemas que entendem a diferença entre a marca e a coisa. Assim, uma marca como a Azul conseguiria filtrar mensagens de redes sociais para incluir apenas aquelas que se referem à linha aérea e não à cor.

Deep learning e Chico Xavier?

Essas mesmas técnicas de análise de texto também foram aplicadas pela empresa para um fim menos comercial e mais investigativo: a Stilingue usou sistemas de inteligência artificial para analisar algumas das obras psicografadas por Chico Xavier.

O estudo, conforme publicado pela empresa, envolveu três bots diferentes, cada um criado para analisar a obra de uma das entidades espíritas cujos textos o médium teria transcrevido. Cada um deles se “especializou” no estilo de uma das entidades: Emmanuel, André Luiz e Humberto de Campos.

Além de criar sistemas capazes de redigir textos em cada estilo, o estudo também comprovou que cada um desses “autores” tem, de fato, um estilo uniforme e distinto dos demais.

Isso ficou evidente quando a empresa fez com que cada sistema escrevesse tendo como base a obra de outra entidade: a taxa de erros na produção dos bots subiu muito. “Os modelos eram incapazes de encontrar os mesmos padrões de estilo de uma entidade espírita nos livros da outra”, fala Rodrigo.

Naturalmente, isso não é suficiente para provar que Chico Xavier realmente recebeu uma entidade espírita. No entanto, para Rodrigo, o resultado não deixou de impressionar. “Escrever o volume de texto que ele escreveu, com personas comprovadamente distintas mas uniformes entre si... Não precisa nem ser sobrenatural para ser absolutamente impressionante”, conclui.

O trabalho com deep learning no Brasil: o que fazem os machine teachers?

Muito do trabalho que a Stilingue faz gira em torno de linguagem. Os linguistas que trabalham ali, porém, têm uma ocupação um pouco diferente daquela que aprenderam na faculdade: são os responsáveis por ajudar os computadores a aprenderem a nossa linguagem. “O deep learning está inserido no machine learning. Mas quem ensina as máquinas? Os machine teachers”, resume Rodrigo.

Isso porque o processo de deep learning exige uma fase de treinamento, na qual a máquina é apresentada a exemplos do que deve procurar. Se um sistema será criado para identificar gatinhos em fotos, precisa ser treinado para isso, o que significa mostrar a ele várias fotos com gatinhos e várias fotos sem.

Além disso, é necessário que o progresso do sistema seja monitorado: no exemplo citado acima, alguém precisaria verificar se ele está realmente escolhendo apenas fotos com gatos, e não fotos com cachorros também.

No caso da Stilingue, a equipe de machine teachers é composta por profissionais formados em Letras ou Biblioteconomia – que provavelmente não imaginavam esse emprego quando escolheram a graduação.

Rodrigo acredita que essa profissão deve crescer bastante no futuro, conforme sistemas inteligentes se tornarem cada vez mais potentes e importantes para o dia a dia.

A equipe de processamento de linguagem natural

Segundo Rodrigo, qualquer projeto de processamento de linguagem como os da Stilingue exige uma equipe com pelo menos três profissionais diferentes:

  • Um cientista de dados, responsável pela criação dos algoritmos e a seleção de informações relevantes
  • Um machine teacher com entendimento de linguística para treinar o sistema
  • Um profissional da área na qual o sistema será aplicado (no caso da Stilingue, alguém de comunicação, como um publicitário ou jornalista)

Os profissionais que desenvolvem os algoritmos de deep learning, por sua vez, têm no estudo e na pesquisa uma parcela considerável de seu trabalho cotidiano. “A vida do profissional precisa ser muito equilibrada entre a academia e a ciência, por um lado, e a aplicação prática nos negócios, por outro”, diz o CEO.

“Você tem que estar antenado com o que tem de mais novo na pesquisa, mas buscar resultados reais”, considera. Por isso, os desenvolvedores da empresa passam parte de seu dia de trabalho estudando e pesquisando.

Vale notar também que o deep learning é apenas uma das técnicas de machine learning que existem. E Rodrigo ressalta que ela podem nem sempre ser a mais indicada, por causa do custo elevado que ela tem – tanto financeiro quanto em termos de dados.

Para treinar um sistema com técnicas de deep learning, é necessário ter um volume imenso de dados. No caso de um sistema que busque identificar fotos que contenham gatos, as fotos necessárias chegam aos milhões – e quanto mais fotos, melhor será o resultado.

Isso não chega a ser um problema tão grande para a Stilingue, já que os dados públicos das redes sociais representam uma montanha considerável de informações. Mas todos esses dados precisam ser processados por sistemas de treinamento que exigem um poder computacional avançado. Segundo Rodrigo, são necessárias máquinas poderosas, equipadas com várias placas gráficas [aqui dá pra ter um link interno também].

A importância do deep learning no Brasil

Nas palavras de Rodrigo, além de oferecer produtos, a Stilingue também “levanta a bandeira pela inclusão do Brasil no cenário de inteligência artificial”. Ele destaca o fato de que a empresa oferece técnicas de processamento de linguagem natural especialmente feitas para português brasileiro.

Mas por que isso é importante? “Entra no tradutor do Google e escreve ‘quero fazer um cafuné no meu xodó’”, sugere Rodrigo. Para qualquer um de nós, trata-se de uma frase facilmente compreensível. Mas para o tradutor do Google, como pode se ver abaixo, nem tanto:

br-blog-deep-learning-aplicacoes-02

A questão é que processamento de linguagem natural não é uma técnica que se “traduz” muito bem. O avanço que se faz no sentido de permitir que computadores leiam e entendam textos em inglês não se reflete, necessariamente, em um avanço semelhante para a língua portuguesa.

E o aprendizado que as máquinas fazem para o português de Portugal – onde “um puto vestindo um saco imenso” tem um significado completamente diferente do que tem para nós, visto que significa “uma criança vestindo um grande paletó” – também não se reflete, necessariamente, em aprendizado para o português brasileiro.

Para Rodrigo, conforme a tecnologia se torna mais necessária, os brasileiros precisarão de sua versão dela. “O país vai ficar defasado e perder competitividade se esse trabalho não nascer no Brasil”, diz.

Ele considera, com orgulho, que a Stilingue é a primeira empresa a destacar o tema. “Há cinco anos investimentos nessa tecnologia. E hoje a gente entende o que é ‘um cafuné no meu xodó’.”

Leia também:

Sobre o autor
Udacity Brasil

A Udacity, conhecida como a "Universidade do Vale do Silício", é uma plataforma online e global que conecta educação e mercado para ensinar as habilidades do futuro – de data science e marketing digital à inteligência artificial e desenvolvimento. Hoje, há mais de 7 mil alunos ativos no país e 50 mil pelo mundo.