24 de set de 2018

O que faz uma cientista de dados e inteligência na IBM?

Udacity Brasil

Em meados de setembro, Ana Paula Appel esteve em Dublin, na Irlanda, para a edição 2018 da European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases. No evento, onde são apresentados os mais recentes trabalhos desenvolvidos na área de machine learning e data, ela expôs os resultados de uma pesquisa que propõe um modelo de análise e previsão para redes centradas em conteúdo (como redes bibliográficas e fóruns na internet), capaz de refletir as mudanças dinâmicas e temporais dessas plataformas.

Produzir esse tipo de conhecimento científico e levá-lo a conferências é apenas uma das tarefas de Ana Paula como cientista de dados da IBM, a maior empresa de tecnologia da informação do mundo. Em seu dia a dia, além de se dedicar a pesquisas na área de análise de dados – o que inclui trabalhar também com mineração de dados e inteligência artificial –, ela participa de projetos com outras empresas e produção de patentes.

O laboratório da IBM no Brasil foi criado em 2011, com filiais em São Paulo e no Rio de Janeiro, reunindo quatro grupos de pesquisa. Desde 2012, Ana Paula faz parte da equipe de análise de dados multimodais e inteligência artificial, mas está em constante diálogo com os pesquisadores de outras áreas (recursos naturais, interface conversacionais e tecnologia industrial), sobretudo em projetos mais multidisciplinares. “Não necessariamente as pessoas envolvidas em um projeto são do mesmo grupo, a intersecção é bem grande”, diz ela.

A CEO da IBM, Ginni Rometty, discute o presente e o futuro da inteligência artificial em painel durante o Fórum Econômico Mundial, em 2017

A produção científica na IBM

Pesquisas como a que Ana Paula apresentou em Dublin estão sempre no radar dos cientistas da IBM: eles são estimulados a produzir e publicar conhecimento científico e têm um certo grau de liberdade com relação aos temas e às formas de fazer isso. A cientista explica que o trabalho apresentado na Irlanda, por exemplo, não tem uma indústria envolvida. “É um trabalho mais genérico, de base, mas é importante para o laboratório. Temos todo o apoio para isso.”

A empresa também estimula as equipes de pesquisadores a apresentar as centenas de papers produzidos (muitos deles bem avaliados pela Capes) em eventos e conferências da área, tanto no Brasil quanto fora do país. Em outubro, Ana Paula e seus colegas serão hosts do principal encontro sobre inteligência artificial no Brasil, a Brazilian Conference on Intelligent Systems.

Ana Paula conta que ser pesquisadora em uma empresa como a IBM é uma alternativa à vida acadêmica, na qual a pesquisa e a docência geralmente andam juntas. “É um tipo de pesquisa mais aplicado. Você vê as coisas acontecerem, sabe que está fazendo algo que vai impactar negócios e a vida das pessoas”, diz. Mesmo assim, a academia continua presente. “Consigo fazer parcerias com professores e universidades, orientar e participar de bancas.”

Desenvolvimento de projetos

No cotidiano de um cientista da IBM, as pesquisas mais autorais dividem tempo com projetos desenvolvidos junto a clientes. “A produção científica fica mais baixa quando você está alocado em um projeto. Conciliar o tempo para cada uma dessas coisas depende do momento”, diz Ana. A definição dos projetos, por sua vez, deriva de uma série de fatores: o tipo de cliente, a quantidade de recursos disponíveis e de pessoas envolvidas, a duração do projeto e os skills necessários.

Uma vez dentro de um projeto, Ana Paula lida com tudo relacionado à sua área, trabalha com desenvolvimento e programação e deve sempre propor saídas inovadoras. “Às vezes é um assunto que você não conhece muito e tem que estudar bem aquele domínio para saber o que já foi feito e não querer reinventar a roda”, diz ela. “A ideia é fazer algo que não existe, criar novos métodos e novas tecnologias.” É aí que entra a produção e o registro de patentes, como a de algoritmos.

Ana dá o exemplo de um trabalho desenvolvido junto a uma empresa de seguro saúde. Durante três meses, ela analisou os dados de reembolso e mapeou as relações entre diferentes médicos. “A gente conectava dois médicos com pacientes em comum e, com isso, dava para entender como os pacientes navegavam na rede do convênio”, explica ela. “Descobrimos muitos pares de médico que tinham um relacionamento forte, com mais de 200 pacientes em comum. Isso podia indicar uma fraude, por exemplo, ou outras questões que a seguradora não sabia que estavam acontecendo.”

O papel dos dados no desenvolvimento da inteligência artificial, segundo profissionais da IBM

Ferramentas e skills necessários

Para desempenhar todas essas funções, Ana Paula se vale sobretudo da linguagem de programação Python e geralmente desenvolve os próprios códigos — e a IBM tem a própria ferramenta de inteligência artificial e machine learning, o Watson. Embora mais raramente, a linguagem R e o software SPSS também podem entrar no jogo, por isso um cientista de dados tem que dominar todas essas ferramentas. “Na ciência de dados não tem como fugir do machine learning e do processo de KDD [o knowledge discovery in databases, ou extração do conhecimento]”, diz Ana.

Ela acredita que ter uma visão mais ampla das ferramentas e processos usados na área de dados é fundamental. “Às vezes as pessoas ficam muito focadas em saber uma técnica ou um algoritmo específico. Nem sempre deep learning e redes neurais têm uma aplicação específica, e há muitos processos para conhecer antes de chegar nessa fase de aplicação”, explica.

Além disso, para trabalhar como cientista na IBM é obrigatório ter experiências sólidas com matemática discreta, estatística, modelagem preditiva, prescritiva, descritiva e diagnóstica. Formar-se em ciência da computação e matemática aplicada é um diferencial, mas ter um diploma de bacharel e experiência é suficiente para ser considerado. Confira esses e outros pré-requisitos em mais detalhes aqui.

Para Ana Paula, a área de data science tende a crescer nos próximos anos, com o aumento do interesse e do desenvolvimento em inteligência artificial (IA). “Hoje existe um boom de IA e todo mundo que mexe com dados acaba chegando nisso. Acho que vamos passar um tempo falando bastante disso, porque muitas coisas ainda não estão maduras o suficiente”, diz.

Ela aposta também em insumos cada vez melhores para quem trabalha na área. “O volume de dados só tende a crescer, e os dados têm cada vez mais qualidade, porque a tecnologia também tende a melhorar bastante, com técnicas como a computação quântica e o blockchain."

Vá além:

Sobre o autor
Udacity Brasil

A Udacity, conhecida como a "Universidade do Vale do Silício", é uma plataforma online e global que conecta educação e mercado para ensinar as habilidades do futuro – de data science e marketing digital à inteligência artificial e desenvolvimento. Hoje, há mais de 7 mil alunos ativos no país e 50 mil pelo mundo.