Data science e Nubank: por que esta fintech investe tanto em cientistas de dados

Udacity Brasil
2 de abr de 2018

Como o Nubank, uma fintech conhecida pelos cartões de crédito, consegue oferecer de graça um serviço pelo qual praticamente todos os bancos cobram e ainda assim se manter rentável? A resposta está em uma palavra: dados.

Há uma enorme quantidade deles, que são a matéria prima de uma equipe de cientistas de dados responsável por usá-los para garantir que todas as decisões que a empresa toma são, tanto quanto for possível, baseadas em informações sólidas.

Toda essa responsabilidade tem um preço: é preciso achar os melhores profissionais em um mercado em que a demanda supera a oferta. Para tanto, a fintech chega a oferecer salários de 25 mil reais.

Esse investimento sempre teve um retorno em vista. De acordo com Catarina Cicarelli, porta-voz do Nubank, “nunca tivemos outra escolha senão ser uma empresa ‘data-driven’”. O motivo é o mercado em si, que já estava fortemente consolidado quando a startup surgiu, em 2013, para competir com bancos muito maiores e mais antigos.

Esse cenário exigia que uma série de riscos fossem tomados. E, para tomar esses riscos da melhor maneira possível, a empresa se voltou para a ciência de dados, que já se firmava como uma grande vantagem competitiva.

Nos últimos cinco anos, o objetivo principal se manteve: entender exatamente o que os clientes querem para ofertar o melhor produto possível, além de aproveitar as informações para oferecer um bom atendimento – um grande diferencial no setor bancário.

Essa estratégia parece ter funcionado: em março de 2018, o Nubank se tornou o terceiro unicórnio brasileiro e atualmente é avaliado em mais de 1 bilhão de dólares. Atualmente, o cartão de crédito da empresa já conta com mais de 3 milhões de clientes.

Dados acessíveis

Para potencializar a utilidade da área, o Nubank empregou uma política de dados abertos para seus funcionários: 100% das informações referentes a transações de usuários ficam disponíveis (de maneira anonimizada) em uma plataforma acessível a todos.

Dessa forma, os dados podem enriquecer tanto uma equipe de comunicação em busca do valor movimentado por cartões de crédito durante a Black Friday quanto esclarecer, para alguém do atendimento, se determinado produto tem gerado mais confusão entre clientes ou é só impressão.

Quando há análises que precisam ser trabalhadas de maneira mais profunda, no entanto, ativa-se a equipe de Tecnologia de Informação (TI).

Leia: Aprender Python ou R? Saiba o que levar em conta

Como trabalha a equipe de data science do Nubank.

Luam Catão Totti, cientista de dados que trabalha no Nubank há dois anos, explica que a área de TI se divide em três grandes subáreas, chamadas de “chapters”: engenharia de softwares, gerência de produtos e ciência de dados, que atualmente conta com 15 profissionais dedicados.

Dentro de cada chapter, os funcionários se dividem em “squads”, como são conhecidos os grupos de pessoas dedicadas a resolver o mesmo problema. Esses squads podem incluir pessoas de diferentes “chapters”, dependendo do caso, e por isso variam bastante de tamanho: alguns não passam de 10 pessoas e outros chegam a ter mais de 100.

Apesar dessa divisão, a distribuição interna de tarefas dentro da área é bastante livre, de acordo com Totti, e há um grande intercâmbio de ideias entre todas.

É dessa maneira descentralizada que as demandas para os cientistas de dados chegam. Alguém, em algum lugar da empresa, percebe que existe um problema que a ciência de dados pode ajudar a resolver. Esse problema então é levado ao chapter e este começa a trabalhar.

Leia: Como data science pode impulsionar sua carreira

Primeira etapa: investigar o problema

A primeira etapa é investigar o problema e consiste em ver o que está acontecendo, quais dificuldades isso traz para a empresa, quais vantagens sua resolução traria (e quanto custaria) e, por fim, qual é urgência da questão. Se os cientistas de dados decidem que a abordagem de fato valerá a pena, seguem em frente.

Segunda etapa: coletar e tratar dados

A próxima etapa é coletar os dados referentes ao problema para tentar criar um modelo (um pedaço de software) capaz de solucioná-lo.

Aqui há dois passos distintos. Primeiro, é necessário descobrir quais dados são relevantes para o problema. Depois, é preciso tratá-los para que sejam utilizáveis por sistemas computacionais, como algoritmos de aprendizado de máquina, por exemplo.

Pode parecer um processo longevo, mas Totti explica que acontece diariamente: ao fim de cada jornada, uma equipe dedicada à infraestrutura de dados roda um programa que “limpa” os dados coletados nas últimas 24 horas para torná-los adequados para o trabalho dos cientistas.

Para isso, essa equipe se vale de uma série de ferramentas de computação e armazenamento na nuvem, bem como da linguagem de programação Scala para construir conjuntos de dados (data sets, em inglês).

Leia: Porque a carreira de cientista de dados é tão promissora no Brasil

Terceira etapa: criar e testar modelos

Após esse ciclo, quando os dados já estão unidos e prontos para serem trabalhados, a equipe de cientistas de dados pode começar a criar os modelos em si.

Com base no que já se sabe sobre o problema, os profissionais criam e testam uma série de modelos – majoritariamente em Python – até que se chegue a um capaz de responder as perguntas necessárias ou resolver o problema com a maior precisão possível.

O squad dedicado à resolução daquele problema então traz seu trabalho para o resto do chapter para que opinem sobre a solução. Se a nova criação passar pelo crivo da equipe, ela pode então ser implementada.

O processo de data science do Nubank na prática

Esse processo todo pode parecer um tanto abstrato e, por isso, cabe aqui um exemplo prático para ilustrá-lo.

Totti explica que, há alguns meses, a equipe de atendimento percebeu que o tempo de resposta para dúvidas dos clientes que chegavam pelo chat estava um pouco demorado demais. Como a empresa investe muito em atendimento como diferencial, julgou-se que valia a pena dedicar horas dos cientistas de dados ao problema.

Para resolvê-lo, a solução encontrada foi criar um sistema capaz de automaticamente encaminhar as mensagens que chegavam pelo chat à pessoa adequada. Era basicamente o mesmo trabalho de uma triagem de hospital: você explica o que está sentindo e é encaminhado a um especialista.

Mas como criar um sistema desses? Novamente, a resposta está nos dados. Ao analisar as mensagens que já haviam chegado pelo chat e o que cada um dos clientes por trás delas desejava, foi possível criar algo capaz de entender o que o cliente queria apenas com base nas palavras que usava.

Se uma mensagem continha as palavras “aumento” e “limite”, por exemplo, o sistema já entendia que precisava direcionar aquele cliente para alguém capaz de avaliar se ele podia ou não ter um aumento de limite, quanto poderia aumentar e por quê.

Quando o sistema atingiu um nível de precisão aceitável, foi levado para avaliação do chapter. Depois de passar pelo crivo do resto da equipe, foi implementado para facilitar vida dos funcionários da área de atendimento – e dos clientes que precisavam deles.

BAIXE O EBOOK: Guia Completo Para Começar Sua Carreira em Data Science

Outras aplicações de data science

O uso de dados vai além da criação de modelos. Segundo Totti, há casos críticos no Nubank que os utilizam para determinar como aumentar limites de clientes de maneira a otimizar sua satisfação e diminuir risco para a empresa. Ou ainda, detectar se um cliente está sendo vítima de fraude com base em suas transações.

Novos produtos também utilizam dados para se firmar. Recentemente, a fintech lançou a Nuconta, uma conta-corrente atrelada ao cartão de crédito. Para determinar os clientes que poderiam ter acesso a novidade, dados foram fontes.

E para otimizar seu uso, que pode envolver a transferência de recursos via QR Code entre contas, a equipe trabalhou para determinar quais pessoas eram próximas dessa primeira leva de usuários e que também estariam aptas a receber o recurso.

Os tipos de dados usados para trabalhar essas questões, segundo Totti, variam bastante.

Como o Nubank é uma empresa de crédito, muitas vezes são números como gasto médio das transações, gasto médio mensal, limites e tempo de atraso de pagamentos. Mas também podem ser textos, como no caso do chat, e exigir outro tipo de tratamento.

E há também as imagens envolvidas no processo de solicitação do cartão, que exige fotos de documentos tiradas com o celular. É preciso processá-las para que sirvam como fontes de dados – e até para identificar automaticamente se alguém está tentando pedir algo com um documento adulterado.

Leia: O que é data storytelling e como utilizá-la nos negócios

O perfil de um cientista de dados

Para quem se interessa pela área, que está em alta no mercado, Totti ressalta que não é necessário ter background de programação ou algo do tipo.

É verdade que é preciso aprender a programar (principalmente em Python e R), mas é mais importante ter uma base sólida de matemática e estatística. Isso capacita uma pessoa a aprender a relacionar dados e, eventualmente, trabalhar com machine learning, que Totti considera “um dos alicerces” de ciência de dados.

Em termos de personalidade, o profissional ideal é aquele que “realmente se empolga em encontrar correlações”. Alguém curioso e insistente, continua, que gosta de levantar hipóteses de correlações e insistir nelas até que elas se provem acertadas (ou erradas) de maneira irrefutável.

Para Totti, trata-se de uma área extremamente empolgante: “Hoje em dia, temos a capacidade, os dados e a tecnologia para encontrar correlações muito interessantes”.

Leia: O que Facebook e HubSpot buscam em profissionais de tecnologia