5 de nov de 2018

A evolução da tradução automática

Udacity Brasil

Árabe, hindi, tailandês e vietnamita estão entre os treze novos idiomas que o Google Tradutor habilitou para reconhecimento por câmera no começo de outubro. Com isso, cerca de 50 línguas já estão disponíveis para a função adicionada pelo app em 2015: você aponta a câmera do celular para os textos e recebe a tradução em tempo real.

Com a chegada dos smartphones, a tradução automática se popularizou — além do Google, aplicativos como o World Lens, o iTranslate e o Tradutor da Microsoft prometem tornar a comunicação entre diferentes línguas cada vez mais fácil —, e a tecnologia nessa área parece avançar a passos largos. No entanto, não foi à toa que aqui chegamos: as primeiras tentativas de criar máquinas tradutoras surgiram há quase um século.

Antes mesmo da Segunda Guerra Mundial, em 1933, o cientista soviético Peter Troyanskii apresentou para a Academia de Ciências da União Soviética uma invenção composta por uma máquina de escrever, cartões em quatro idiomas e uma câmera, cujo objetivo era selecionar, imprimir e traduzir palavras. Foi durante a Guerra Fria, porém, que os esforços no campo da tradução automática decolaram, muito estimulados pela atmosfera de espionagem que pairava entre os EUA e a URSS.

Nessa época, a sede da IBM em Nova York testemunhou a primeira tradução automática em larga escala da história. O experimento Georgetown-IBM, fruto da parceria entre a gigante de tecnologia e a Universidade de Georgetown, foi rodado no computador IBM 701 e funcionava como uma espécie de dicionário. Baseado em seis regras gramaticais e 250 entradas lexicais, o mecanismo foi capaz de passar cerca de 60 sentenças do russo (impressas em cartões inseridos na máquina) para o inglês.

Como funcionavam os primeiros tradutores automáticos?

O sucesso do IBM-Georgetown atraiu os olhares do mundo, impulsionando os investimentos governamentais em linguística computacional. Ao longo das décadas de 1950 e 1960, então, os tradutores automáticos se tornaram uma espécie de braço da corrida armamentista, científica e espacial: enquanto associações e academias se formavam nos EUA para aprofundar os estudos nessa área, URSS, Japão, Canadá, Alemanha e França não ficaram para trás e também apostaram em pesquisas do tipo.

O alicerce para o processamento da linguagem natural que conhecemos hoje estava montado. Nos anos 1970, a tradução automática baseada em regras linguísticas e em máquinas capazes de repeti-las ganhou espaço. Cerca de vinte anos depois, métodos estatísticos começaram a surgir.

Eram os primeiros passos para que chegássemos às ferramentas que permitem que o aplicativo do Google realize traduções em tempo real pela câmera de qualquer smartphone – e muito bem.

Apresentador vai às ruas nos EUA para testar a tradução imagética do Google Translate

Como funciona a tradução automática

A análise de padrões é o fundamento que norteia a tradução automática estatística desde a década de 1990, culminando nos sistemas de redes neurais, os mais utilizados hoje para o processamento da linguagem natural. “O histórico de utilização de ferramentas linguísticas e estatísticas é relevante, já que a linguagem possui estruturas que privilegiam o uso dessas tecnologias”, diz Filipe Reis, líder de conteúdo dos cursos de AI e data science na Udacity Brasil.

Ele explica que o uso de redes neurais profundas e abordagens híbridas (que associam estruturas linguísticas e estatísticas clássicas a deep learning) possibilitou o grande salto de qualidade dos tradutores automático nos últimos anos. “Essas abordagens permitem que muitas nuances da linguagem sejam percebidas e consideradas e ganham cada vez mais importância dado o imenso poder computacional disponível atualmente.”

De um modo geral, as redes neurais artificiais funcionam “prevendo” a probabilidade de padrões, como, por exemplo, em sequências de frases. Alimentadas por dados linguísticos, elas entendem esses modelos, os utilizam para produzir novas frases e, assim, seguem aprendendo “sozinhas”. Essa tecnologia possibilita, entre outras coisas, que as traduções automáticas ocorram de forma direta de um idioma para o outro, sem passar pelo inglês como fonte principal, como se fazia antes.

Os sistemas de redes neurais — e de redes neurais profundas, que trabalham em múltiplas camadas — ajudaram a corrigir muitos erros gramaticais, lexicais, de gênero e de ordem de palavra, recorrentes em outros tipos de tradutores automáticos.

No entanto, ainda existem falhas, principalmente semânticas, nas traduções realizadas por máquinas. Além disso, há uma dependência considerável do ser humano para o aperfeiçoamento desses erros.

Instrutores da Udacity apresentam os fundamentos das redes neurais

Segundo Filipe, a análise humana dos resultados permite melhores ajustes. “As bases de dados utilizadas para treinar os sistemas de tradução automática geralmente são avaliadas ou anotadas por humanos. Muitas melhorias surgem a partir de avaliações dos resultados oferecidos aos seres humanos, já que eles podem mapear os pontos fortes e fracos do sistema de forma adequada”, diz.

Por tudo isso, um futuro em que a tradução realizada pelo homem se torne desnecessária parece possível, mas não sem alguns prejuízos, em especial ao fator cultural envolvido na relação entre diferentes línguas.

“Tivemos avanços muito bons, mas ainda estamos distantes de atingir o nível da localização de conteúdos realizada por humanos. A localização se preocupa em traduzir o conteúdo com palavras e expressões realmente relevantes para o idioma de destino”, explica Filipe.

Ele acredita, porém, que se aproxima o momento em que será difícil distinguir traduções de frases simples feitas por máquinas e pelos seres humanos. Com fronteiras globais cada vez mais fluidas para a informação, a evolução dessa área, afinal, faz bastante sentido. “A comunicação é vital para nós, por isso nos esforçamos tanto para melhorar nesse aspecto.”

Saiba mais sobre inteligência artificial:

Sobre o autor
Udacity Brasil

A Udacity, conhecida como a "Universidade do Vale do Silício", é uma plataforma online e global que conecta educação e mercado para ensinar as habilidades do futuro – de data science e marketing digital à inteligência artificial e desenvolvimento. Hoje, há mais de 7 mil alunos ativos no país e 50 mil pelo mundo.