18 de jun de 2018

Conheça a GAN, modelo de inteligência artificial que quer dar imaginação às máquinas

Udacity Brasil

Imagine a seguinte situação: você é um historiador da arte, capaz de olhar para uma pintura e dizer se ela é autêntica ou falsa. E você tem um amigo que tenta pintar quadros capazes de te enganar. Conforme ele fica melhor, o seu trabalho fica mais difícil; consequentemente, você melhora também.

Imaginou? Agora imagine que você e o seu amigo são, na verdade, duas redes neurais, e você terá uma ideia do que é uma GAN. A sigla GAN, em inglês, significa Generative Adversarial Network (rede geradora adversária) e representa uma das áreas mais promissoras da pesquisa em inteligência artificial.

A grande diferença das GANs – que são tema de um módulo do Nanodegree Deep Learning – para outros modelos de redes neurais é o G da sigla. Diferente das aplicações de machine learning que estamos acostumados a ver, esses modelos são capazes de “gerar” produtos, o que dá a impressão de que têm uma “imaginação”. No vídeo abaixo, por exemplo, é possível ver uma GAN que foi treinada para produzir suas próprias imagens de celebridades e fotografias de objetos.

Assista ao webinar: A democratização da inteligência artificial no Brasil

Quais são as vantagens das GANs?

Segundo Gustavo Penha, cientista de dados e aluno do mestrado da Universidade Federal de Minas Gerais, as GANs, por serem modelos gerativos, se diferenciam das demais redes, que são apenas discriminativas, ou seja, capazes de classificação.

Além de serem capazes de criar imagens, vídeos ou sons, as GANs também podem ajudar a criar redes discriminativas ainda melhores.

Muitas das inovações em inteligência artificial da atualidade giram em torno do machine learning, ou aprendizagem de máquina. Por meio desse conjunto de técnicas, é possível “ensinar” um computador a fazer todo tipo de tarefas, desde identificar gatinhos em fotos até analisar imagens de retinografias para detectar os primeiros sinais de cegueira.

Para fazer isso, porém, é necessário um período de treinamento. No caso dos gatinhos, é necessário que alguém indique ao sistema, dentre um conjunto de imagens, quais delas têm gatinhos e quais não têm. Com base nesse conjunto inicial, o sistema “aprende a ver” gatinhos – identifica a presença de caudas, bigodes e orelhas, por exemplo – e pode detectá-los em outras imagens.

Especialistas em machine learning da Google explicam como a tecnologia resolve problemas e identifica padrões

Mas por mais impressionante que esse sistema seja, ele tem uma limitação bem gritante: ele pode até conseguir dizer quais fotos têm gatinhos e quais não têm, mas dificilmente será capaz de produzir, por conta própria, uma foto que contenha um gatinho. Para isso, ele precisaria ser desenvolvido de outra maneira.

Talvez haja uma maneira de resolver esse problema: e se esse sistema criado para reconhecer fotos de gatinhos fosse colocado em oposição a outro sistema, criado para produzir fotos de gatinhos? O segundo sistema precisaria se desenvolver até conseguir enganar o primeiro e, nesse ponto, já seria capaz de produzir algo – e esse “algo” pode ser muitas coisas. Este artigo científico, por exemplo, descreve uma GAN que foi usada para gerar personagens de anime.

Leia: A inteligência artificial como artista: músicas, filmes e quadros criados por AI

A origem das GANs

Foi essa a ideia que o cientista Ian Goodfellow, o “pai das GANs”, teve em 2014, quando tinha 29 anos. Numa noite daquele ano, segundo a MIT Technology Review, ele foi com alguns amigos num bar, a fim de comemorar a defesa de um colega que fazia doutorado junto com ele. Lá, alguns colegas lhe pediram ajuda com um projeto: estavam tentando criar uma inteligência artificial que fosse capaz de criar fotos sozinha.

A ideia dos amigos de Goodfellow era realizar uma análise estatística complexa dos elementos que compõem uma fotografia para ensinar às máquinas como gerar fotos. Eles vinham tentando isso sem muito sucesso: seu sistema frequentemente produzia rostos borrados ou sem orelhas, e Goodfellow lhes disse que não achava que aquilo fosse dar certo.

Ian Goodfellow participa de evento sobre Deep Learning na sede da Udacity, em Mountain View, no Vale do Silício

Foi então que veio a ideia de usar duas redes neurais, uma contra a outra. Quando ele chegou em casa, Goodfellow viu que sua namorada já estava dormindo e aproveitou a oportunidade para testar sua nova ideia. Quando o sol nasceu, ela já tinha dado certo. Como a ideia é colocar uma rede neural contra a outra, com o objetivo de gerar algo, elas foram chamadas de “redes geradoras adversárias”.

De certa forma, a ideia de Goodfellow dá aos sistemas de inteligência artificial uma “imaginação”. E se a afirmação parece surpreendente, é porque trata-se de uma invenção surpreendente. O diretor de pesquisa em inteligência artificial do Facebook, Yann LeCun, por exemplo, considera que as GANs são “a ideia mais legal da área de deep learning dos últimos vinte anos”.

Leia: As 100 principais empresas de inteligência artificial do mundo

Quais são as aplicações das GANs?

Segundo Gustavo, as GANs têm uma grande variedade de aplicações. Em qualquer situação que seja necessário produzir algo em termos de imagem ou áudio, por exemplo, elas podem ser uma boa solução.

Manipulação de imagens é uma área que ele cita como promissora nesse sentido. Atualmente, usar ferramentas como o Photoshop para alterar fotografias de maneira convincente é algo que exige bastante conhecimento do software. Mas com o auxílio das GANs, isso pode tornar-se uma tarefa corriqueira. Este artigo já mostra uma possível aplicação das GANs nesse sentido.

Há muitas variações em torno desse tipo de aplicação das GANs. Outra pesquisa feita com modelos semelhantes gerou um sistema que era capaz de ver uma imagem de um rosto com um pedaço faltando e automaticamente preencher aquele pedaço de maneira convincente, mesmo sem ter a menor ideia de como era aquele rosto.

Numa área semelhante, outro grupo de pesquisadores gerou GANs capazes de gerar imagens a partir de textos. Os textos em questão são descrições de uma imagem. O sistema, “lendo” a descrição, cria uma imagem que se adequa a ela. Os resultados variam bastante em termos de qualidade – alguns só lembram marginalmente a descrição – mas as imagens de flores e pássaros geradas pelas GANs são impressionantes.

Pesquisadores da Nvidia também usaram GANs para gerar um sistema capaz de “remover” objetos de fotos. A ferramenta criada por eles é como se fosse a ferramenta de band-aid do Photoshop, mas levada ao estado da arte: qualquer porção da imagem selecionada é automaticamente preenchida de maneira realista, removendo o primeiro plano, como o vídeo abaixo mostra:

Leia: O que é inteligência artificial? As perguntas mais frequentes

As limitações das GANs

Por mais que as aplicações das redes geradoras adversárias sejam impressionantes, Gustavo destaca que elas ainda têm muitas limitações. Ele concorda que elas dão a impressão de que as máquinas têm imaginação, mas alerta: “É só a impressão mesmo”.

Isso porque as GANs, assim como os demais modelos de redes neurais, ainda estão “limitadas” ao treinamento que é dado a elas. O resultado das criações dessas redes só será tão bom quanto seu treinamento. Caso ela seja treinada com uma quantidade insuficiente de dados, ela continuará a reproduzir esses erros de maneira indefinida.

O próprio Ian Goodfellow reconhece que as GANs não são o grande desvelamento da imaginação das máquinas. Em um post seu feito no Reddit, por exemplo, ele explica que a forma como elas funcionam torna-as incapaz de gerar texto. Então os computadores podem até criar pinturas com essa técnica, mas nunca criarão poemas com ela.

Esse tipo de limitação é o que leva Judea Pearl, um dos pioneiros da pesquisa em inteligência artificial, a questionar os avanços que vêm sendo feito na área. Pearl, na década de 1980, encarou o seguinte problema: como fazer máquinas relacionarem um efeito potencial a um conjunto de condições observáveis.

A solução que ele apresentou, chamada de redes bayesianas, é considerada hoje uma das pedras fundamentais da inteligência artificial. Mas Pearl considera que sua pesquisa, e as pesquisas subsequentes, falham em um ponto crítico: elas não ajudam as máquinas a entender a causalidade.

Em entrevista à Quanta Magazine, Pearl disse que todas as pesquisas de inteligência artificial atuais “estão presas no nível da associação”. “Não importa quão habilmente você manipule os dados e o que você tira desses dados, isso ainda é um mero exercício de análise de curvas”, diz. Ele acredita que o próximo passo na inteligência artificial só virá quando formos capazes de levar os algoritmos para além da correlação (se x aumenta, y aumenta) até a causa-e-efeito (y aumenta porque x aumentou).

Leia: O avanço da inteligência artificial (e dos desafios éticos envolvidos)

Os riscos das GANs

Por outro lado, as GANs também representam um risco potencialmente grave para a segurança dos sistemas que usamos hoje e que dependem das redes discriminativas tradicionais. Afinal, se elas são treinadas justamente enganando esse tipo de rede, elas podem acabar colocando em risco qualquer sistema que dependa delas.

Imagine, por exemplo, um banco digital que faz o cadastro de seus novos clientes mediante o envio de fotos pelo celular. Se esse banco usar uma rede discriminativa para reconhecer as fotos, uma GAN especialmente treinada poderia enganar o seu sistema. Isso permitiria que alguém “forjasse” uma identidade para tentar criar uma conta falsa.

Há também empresas que oferecem serviços de antivírus baseados em inteligência artificial, como a Cylance. Usando machine learning, eles analisam milhões de arquivos (alguns maléficos, outros não) e criam um “padrão” de quais arquivos são nocivos. Então, ao escanear um arquivo, decidem se ele é nocivo ou não comparando-o com esse padrão.

Mas uma GAN treinada para “enganar” esse tipo de sistema poderia criar arquivos nocivos que uma inteligência artificial desse tipo não reconheceria. Elas seriam uma espécie de “arma letal”, criada justamente para contornar redes neurais desse tipo.

Goodfellow está ciente do risco. Depois de tornar-se famoso por sua invenção, ele foi contratado pela Alphabet, empresa-mãe do Google, e hoje em dia trabalha no Google Brain, uma das empresas mais experimentais da gigante de tecnologia. O trabalho dele gira justamente em torno de criar maneiras de impedir que as GANs sejam usadas dessas formas maliciosas.

Segundo a MIT Technology Review, Goodfellow quer evitar os problemas da última geração de avanços tecnológicos, que tratou a cibersegurança como uma questão secundária e, quando chegou a hora de agir, já estava atrás da curva. “Já não estamos mais no começo”, diz ele sobre a segurança das GANs, “Mas espero que possamos fazer avanços consideráveis em segurança antes de ir muito longe.”

E ele acredita que a solução para esse problema nunca será puramente tecnológica. Será necessário também, por exemplo, educar uma nova geração de pessoas para pensar criticamente, por meio de atividades como aulas de oratória e debates. Essas atividades, diz, ensinam as pessoas um jeito de pensar que as ajuda a não serem enganadas – seja por outro ser humano, seja por uma máquina.

Leia também:

Sobre o autor
Udacity Brasil

A Udacity, conhecida como a "Universidade do Vale do Silício", é uma plataforma online e global que conecta educação e mercado para ensinar as habilidades do futuro – de data science e marketing digital à inteligência artificial e desenvolvimento. Hoje, há mais de 7 mil alunos ativos no país e 50 mil pelo mundo.