19 de abr de 2018

Ciência de dados: tudo sobre a área que está moldando o futuro das organizações

Udacity Brasil

Ciência de dados é um conjunto de ferramentas, algoritmos e princípios que tem como objetivo descobrir padrões escondidos nos dados brutos. Os profissionais de data science olham para os dados por ângulos diferentes e usam os padrões identificados para descobrir o que está acontecendo ou apontar a ocorrência de um evento particular no futuro.

O que você vai aprender neste artigo:

O que é ciência de dados?

Para entender melhor o que é data science, é importante se familiarizar com o conceito de Big Data. O termo é utilizado para designar a enorme quantidade de informações armazenadas por banco de dados que podem ser acessados remotamente e que estão interligados. Em outras palavras, esses bancos de dados têm que estar disponíveis em computadores.

O conceito também engloba os 3 Vs: volume, que diz respeito à gigantesca quantidade de informação que precisa ser processada pela ciência de dados; velocidade, já que a cada segundo novos elementos são adicionadas aos bancos de dados; e variedade, que tem relação com a natureza diversa dos dados.

E acredite no "grande" do nome: segundo a IBM, a produção diária global de dados é de 2,5 quintilhões de bytes.

Ao mesmo tempo, novas tecnologias vêm surgindo para organizar e extrair informações dessa avalanche de dados, já que os modelos tradicionais não conseguem lidar com tamanho volume. É possível identificar regularidades e padrões que fornecem indicativos sobre uma situação que gera dúvida dentro de uma organização, de questões sociais a investimentos.

É justamente aí que entram os profissionais de ciência de dados: de modo simplificado, eles conseguem encontrar respostas para problemas realizando uma análise de Big Data.

Data Science vs. Data Analytics

Quem conhece um pouco do trabalho de analista de dados pode estar pensando que as duas posições, cientista e analista de dados (às vezes chamado de analista de Big Data), realizam as mesmas funções.

Apesar de ambas exercerem atividades essenciais para o bom funcionamento das empresas, existe uma diferença principal que pode ser resumida da seguinte maneira: enquanto os profissionais de data analytics focam em explicar, aqueles de data science focam em prever.

Os primeiros vasculham os dados para encontrar informações valiosas que ajudam as organizações a atingir objetivos. A análise classifica as informações em categorias que podem ser usadas para avaliar eventos do passado, presente ou futuro e conecta tendências e padrões com as metas reais da empresa. Ela tende a ser mais focada em estratégia e negócios.

Já os segundos, em vez de criar hipóteses, algo geralmente feito na análise de dados, tentam criar conexões entre as informações para planejar o amanhã. Com algoritmos avançados de machine learning, eles identificam a ocorrência de um evento particular no futuro.

A data science avança da investigação para a percepção, fornecendo novas perspectivas sobre os dados e como eles estão conectados de uma maneira que até então era desconhecida.

Leia: Tutorial de Python: Desenvolva seu primeiro aplicativo na linguagem

Aplicações de ciência de dados

Há inúmeras opções para quem quer aplicar data science no dia a dia. Afinal, dados são hoje considerados os recursos mais valiosos do mundo, segundo a The Economist. "É o petróleo da era digital", afirma a publicação. Confira alguns exemplos de aplicação de ciências de dados abaixo:

Marketing digital

Você já procurou algum produto na internet e logo depois viu um anúncio dele no Facebook? Isso é feito por um algoritmo de machine learning e trabalho de data science.

Seu comportamento passado serve como base para o futuro: se você olhou o preço de uma TV, é provável que precise de uma. No caso do Facebook, suas curtidas, localização, o que você vê e prefere deixar de ver também contam. Outros banners que aparecem pela internet também seguem a mesma lógica.

Sistemas de recomendação

Muitas empresas usam esse sistema para promover seus produtos ou sugestões de acordo com os interesses do cliente. É uma maneira de direcionar o consumidor dentro de um universo de milhares de possibilidades.

O famoso sistema de recomendação da Netflix, por exemplo, usa um algoritmo para prever, com base em suas experiências passadas, o que você poderia gostar de assistir a seguir.

Já o “Pessoas que você talvez conheça” do Linkedin foi o que fez a empresa decolar, e, apesar de hoje parecer simples, foi uma grande revolução na época. A Amazon é outra grande companhia que se destacou com seus sistemas de recomendação.

Reconhecimento de imagem

Quando você faz o upload de uma imagem no Facebook e começa a receber sugestões para marcar os seus amigos, é a ciência de dados entrando em ação.

Essa recomendação usa um algoritmo de reconhecimento facial. Outra aplicação similar é a do Google Imagens, que oferece a opção de procurar por uma foto idêntica ou similar colocando o retrato no campo de busca.

Detecção de risco de fraude

A perda de dinheiro causada por dívidas não pagas levaram empresas a usar os dados coletados durante o início das transações de sancionamento de empréstimos com um intuito diferente: o de levar as práticas de data science para dentro das organizações.

Com o passar dos anos, as empresas bancárias aprenderam a obter informações pelo perfil do cliente, gastos passados e outras variáveis que ajudam a analisar o risco de inadimplência.

Leia: Aprender Python ou R? Saiba o que levar em conta

Analista, cientista de dados ou engenheiro de dados?

Além do analista de dados e do cientista de dados citados acima, o trio de profissões populares inclui o engenheiro de dados, responsável pela infraestrutura da área de data science. Veja abaixo um pequeno resumo de cada uma dessas atuações:

Analista de dados

Um analista de dados é, essencialmente, um cientista de dados júnior. Este é o lugar perfeito para começar uma carreira em dados se você for novo na área.

Analistas de dados não tem o background matemático ou acadêmico para inventar novos algoritmos, mas tem um entendimento forte de como utilizar as ferramentas que já existem para solucionar problemas.

Habilidades e ferramentas: programação, estatística, machine learning, data munging e visualização de dados. Além das habilidades técnicas, é bom ter atenção a detalhes e boa capacidade de comunicação para apresentar os resultados.

Engenheiro de dados

Um engenheiro de dados constrói estruturas de dados robustas e à prova de falhas que limpam, transformam e agregam dados desorganizados em bases de dados ou fontes de dados. É responsável por compilar e instalar sistemas de base de dados e colocar toda a infraestrutura ao seu redor de pé.

Habilidades e ferramentas: tecnologias baseadas em Hadoop (como MapReduce, Hive e Pig), tecnologias baseadas em SQL (como PostgreSQL e MySQL), tecnologias de NoSQL (Cassandra e MongoDB), soluções de armazenamento de dados.

Cientista de dados

Um cientista de dados utilizam habilidades sofisticadas para lidar com um volume grande e veloz de dados. Trata-se de alguém capaz de fazer pesquisas e refletir sobre problemas e questões em aberto, identificar novas oportunidades de negócios e identificar padrões. Também tem a capacidade de inventar novos algoritmos para resolvê-los.

Habilidades e ferramentas: tecnologias baseadas em Hadoop, tecnologias baseadas em SQL, programação em Python e R, matemática e estatística, visualização e comunicação de dados.

Leia: 3 exemplos de bancos de dados usados no dia a dia por quem trabalha com Big Data

O que faz, quais são as competências e como ser um cientista de dados?

O trabalho de um cientista de dados envolve muita pesquisa: novas fontes de informação, novos algoritmos, novas maneiras de combinar os dois.

O objetivo da pesquisa é, frequentemente, desenvolver novos produtos ou recursos que não serão implantados imediatamente, o que dá algum tempo para o cientista testar e tentar novas possibilidades. Para quem quer trabalhar com big data ou se tornar um engenheiro de big data, essa é a atribuição mais diretamente relacionada.

Outra parte fundamental do cargo é detectar (e consertar) erros. Existem muitos erros por trás de um acerto, e reescrever códigos, checar o trabalho dos subordinados e reler projetos que ainda não deram certo são funções diárias de um cientista de dados.

Além disso, uma boa parte do dia desses profissionais vai para a análise e categorização de informações, para que, posteriormente, elas sejam usadas para algo útil dentro da empresa.

Para entender o que faz um cientista de dados falta um último elemento: realizar apresentações e ter uma habilidade de comunicação forte são aspectos que o profissional de data science deve dominar, já que é uma atividade presente no dia a dia de quem atua na área.

Todo o trabalho de estratégia, análise e categorização dos dados precisa ser exposto de maneira clara e eficiente para os outros colegas da equipe.

As competências necessárias para cientistas de dados

Para se tornar um cientista de dados, é necessário que você possua conhecimentos nas áreas a seguir:

Estatística

Ter conhecimentos sobre estatística é fundamental para o cientista de dados: teste de hipóteses, distribuição de probabilidade e análise de regressão são algumas das habilidades mais requisitadas.

Ter domínio estatístico é especialmente importante para empresas que se apoiam nos dados para a tomada de decisões – e você vai conseguir entender quando técnicas diferentes são (ou não são) uma abordagem válida.

Machine learning

Trabalhar com dados e processá-los para descobrir padrões que podem ser usados posteriormente para analisar novos dados: esse é o princípio do machine learning ou aprendizado de máquina. Para ser um expert no assunto, é indispensável que você tenha conhecimentos de programação, que é o nosso último tópico.

Programação

Se o seu foco é análise, modelagem e visualização de dados, considere investir nas linguagens Python, R e Java. Para gerenciar bancos de dados, tenha em mente que a SQL pode ser mais útil para você — e saiba que grandes empresas tendem a usar essa linguagem em todas as suas operações.

Matemática

É relevante que o cientista de dados tenha um pensamento matemático para entender e analisar informações. Isso quer dizer que ele não deve apenas saber como realizar contas complexas, mas também reconhecer o que a matemática pode fazer para ajudá-lo em cada situação.

Em uma entrevista para uma função de data science, podem pedir para você derivar resultados de machine learning ou estatística ou responder algumas questões básicas sobre cálculo multivariado e álgebra linear, que são a base de muitas dessas técnicas.

Talvez você esteja se perguntando: por que um cientista de dados precisa saber disso quando há tantas implementações inovadoras em Python ou R? A resposta é que há momentos em que vale a pena construir implementações internas.

Data wrangling

Os dados que você analisa frequentemente estarão bagunçados e serão difíceis de trabalhar. Por conta disso, é importante saber como lidar com imperfeições na hora de lidar com bancos de dados.

Alguns exemplos de dados imperfeitos incluem valores desaparecidos, formatos inconsistentes de strings (por exemplo, 'Nova York' versus 'NY' versus 'nova york') e de datas (ano antes do mês ou mês antes do dia, etc.).

Isso será mais importante em empresas pequenas, onde você será um dos primeiros profissionais de dados, ou em companhias orientadas a dados em que o produto em si não tem relação com dados, mas essas habilidades são importantes para todos.

Visualização & comunicação de dados

Criar visualizações e comunicar dados é algo incrivelmente importante, especialmente em empresas novas que estão tomando decisões orientadas a dados pela primeira vez ou em empresas em que cientistas de dados são vistos como pessoas capazes de ajudar outros a tomarem decisões com base em dados.

Quando se trata de comunicação, isso significa descrever suas descobertas ou o jeito que técnicas funcionam para um público diverso, incluindo técnico e não-técnico. Tudo isso é conhecido como data storytelling.

Intuição a dados

As empresas querem ver se você soluciona problemas pensando em dados. Em algum ponto da entrevista, provavelmente vai ser questionado sobre algum problema de alto nível, como um teste que a companhia quer conduzir ou um produto orientado a dados que quer produzir.

É importante pensar nas coisas que são importantes e nas coisas que não são. Como você, como cientista de dados, deve interagir com os engenheiros e gerentes de produtos, por exemplo? Que métodos deveria utilizar? Quando essas aproximações fazem sentido?

Engenharia de software

Se você está fazendo uma entrevista numa empresa pequena ou é um dos primeiros contratados na área de dados, pode ser importante ter um background forte em engenharia de software.

Isso porque você será responsável por muitos registros de dados e, potencialmente, pelo desenvolvimento de produtos orientados a dados.

Leia: 3 caminhos para ser um analista de dados (mesmo que você não tenha experiência)

Como ser um cientista de dados

Agora que você já sabe o que faz um cientista de dados e quais são as principais habilidades necessárias, é a hora de saber como se tornar um especialista na área. Apesar de ser um cargo com alta demanda, grande impacto e bons salários, não existe uma graduação específica que leve diretamente à profissão.

Boas opções para a formação de um cientista de dados são as faculdades de Estatística, Ciência da Computação, Matemática, Física e Sistemas de Informação — mas um curso superior na área não é pré-requisito.

Seja qual for o seu histórico, com um pouco de paciência e persistência é possível entrar nesse universo. Caso você não tenha muito conhecimento ou experiência na área das exatas, o mais recomendado é que comece com cursos mais básicos de matemática, estatística e programação. Com uma base sólida já é possível partir para aulas especializadas, que podem ser ministradas online ou presencialmente.

Como essa é uma profissão relativamente nova e não existe um consenso universal sobre o que um cientista de dados faz, pode ser um pouco difícil para um iniciante saber onde começar, o que pode levar à desistência e à perda de tempo e dinheiro.

Qual é o salário de um cientista de dados?

No Brasil, um cargo júnior de cientista de dados recebe uma média de 5 300 reais por mês. Já um especialista ganha em torno de 18 mil mensais, de acordo com o guia salarial da empresa de recrutamento e seleção Robert Half. A companhia afirma que existe uma tendência de aumento em 8% para quem sabe programar em Python e também em 8% para programação em R.

A plataforma de trabalho LoveMondays mostra que os cientistas de dados que aceitaram divulgar seus salários recebem, em média, um valor bruto de 10 mil reais, mas algumas empresas brasileiras chegam a pagar 25 mil para os funcionários da área. É o caso do Nubank.

Segundo o site de recrutamento Glassdoor, nos Estados Unidos os salários podem chegar a 136 mil dólares por ano, o que dá mais de 453 mil reais anualmente e aproximadamente 37 750 reais mensais.

Um estudo realizado pela International Business Machines (IBM) apontou que a demanda por empregos na área de data science deve aumentar em mais de 15% ao redor do mundo, e, aparentemente, o Brasil vem acompanhando essa tendência.

Leia: O que é data storytelling e como utilizá-la nos negócios

Cursos de ciência de dados

Existe um grande volume de conteúdo, principalmente na internet, de baixa qualidade. Por isso, é essencial se certificar que o curso escolhido é de excelência. Confira abaixo algumas opções:

Cursos online de ciência de dados

Curso aberto: Introdução à Ciência de Dados – Udacity

Se você tem experiência com estatística e programação em Python esse curso de Big Data e data science é para você. Dura dois meses e introduz tópicos como manipulação de dados e machine learning.

Curso aberto: Introdução à Estatística – Udacity

Para quem quer começar uma jornada rumo à ciência de dados mas não tem conhecimento em estatística. O curso, desenvolvido para iniciantes, vai te ensinar a extrair informação dos dados. Dura dois meses.

Nanodegree Introdução à Programação – Udacity

É uma boa opção para quem não sabe nada de Python e pretende fazer outros cursos mais avançados sobre ciência de dados. Também são ensinadas as linguagens HTML e CSS, ambas úteis para o cientista de dados. Dura cinco meses.

Nanodegree Fundamentos de Data Science I – Udacity

É mais indicado para quem não tem nenhuma experiência prévia e quer aprender a analisar dados e a programar em Python. A duração é de dois meses com um tempo de dedicação semanal que varia de 8 a 12 horas.

Nanodegree Fundamentos de Data Science II – Udacity

Os pré-requisitos são a análise de dados e a programação em Python. Você vai aprender a usar SQL, estatística, data wrangling e machine learning. É um pouco mais longo que o anterior: quatro meses com uma dedicação de 10 a 12 horas por semana.

Nanodegree Data Scientist – Udacity

Para quem quer de fato trabalhar com ciência de dados. Com uma duração de seis meses, o programa avança no aprendizado de engenharia de software e big data e ensina a programar em R.

Nanodegree Fundamentos de Machine Learning – Udacity

O curso, que tem duração de três meses, é uma boa pedida para quem não tem conhecimentos sobre machine learning e quer aprender estatística prática e a programar em Python.

Cursos presenciais de ciências de dados

Ciência de Dados com R - IBPAD

Com duração de 32 horas, o curso ensina a realizar análise e visualização de dados e as estruturas básicas de programação do R, uma das linguagens de programação mais importantes na ciência de dados.

Ciência de Dados (Big Data Analytics) - Universidade Mackenzie

O foco do curso é a coleta, armazenamento, processamento e visualização de dados. Ele dura 432 horas e requer uma monografia para conclusão.

MBA Executivo em Business Analytics e Big Data - FGV-SP

Também tem carga horária de 432 horas e é mais focado no universo empresarial. Os objetivos do curso são o desenvolvimento de competências gerenciais, analíticas e de engenharia de dados.

Curso de Especialização em Big Data & Data Science - UFRGS

Essa especialização dura 24 meses e também requer um trabalho de conclusão de curso. Para quem já domina a lógica da programação e busca conhecimento mais aprofundado em Big Data é uma boa opção.

Análise de Big Data - FIA

O destaque do curso é a manipulação e criação de bancos de dados. É possível concluir as disciplinas em quatro meses.

Livros e outros materiais para aprender ciência de dados

Livros

Guia Completo Para Começar Uma Carreira em Data Science

Este ebook gratuito oferece informações sobre o mercado de ciência de dados, opções de carreira, oportunidades e habilidades necessárias para o profissional da área. Foi escrito com base em pesquisas e entrevistas com pessoas que sabem bastante do assunto.

Introdução à Ciência de Dados. Mineração de Dados e Big Data

A primeira parte deste livro de Big Data faz uma introdução ao mundo da ciência de dados, focando na parte analítica. Já a segunda parte é mais prática e oferece recursos para o leitor aplicar os conceitos que aprendeu.

Storytelling with Data: A Data Visualization Guide for Business Professionals

O intuito do livro é ensinar sobre a visualização de dados e maneiras efetivas de apresentar as informações obtidas. Ou seja: ele passa orientações sobre como contar uma boa história com dados.

Data Smart: Using Data Science to Transform Information into Insight

A matemática por trás da ciência de dados é o tema principal da obra, que explica, entre outros, os conceitos e práticas de mineração de dados, gráficos e inteligência artificial.

Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking

A essência do livro é ensinar a usar a ciência de dados para extrair informações importantes para empresas. É baseado em um curso de MBA da New York University (NYU).

Podcasts

Hipsters Ponto Tech

O podcast promove discussões sobre programação, design, startups, gadgets e tecnologia em geral. Destaque para os episódios #89 (machine learning), #73 (Big Data e Data Science: pra quê afinal?) e #62 (Data Science e política na operação serenata de amor).

Not So Standard Deviations

Dedicado exclusivamente à ciência de dados, esse podcast fala sobre as principais novidades da área, tanto na indústria como no meio acadêmico.

Canaltech

Outro dedicado à tecnologia em geral. Vale a pena ouvir os episódios da playlist “Desvendando o Big Data”.

Outros

Fórum Data Science Brasil

O fórum contém discussões sobre tópicos variados que envolvem a ciência de dados. É preciso se inscrever para participar.

As habilidades mais importantes dos cientistas de dados - Jose Miguel Cansado

O diretor da Alto Data Analytics, Jose Miguel Cansado, começa uma conversa sobre como o nosso mundo é moldado pela Big Data e sobre quais ferramentas são necessárias para interpretar todo esse volume de informação.

Todos somos cientistas de dados - Rebecca Nugent

Essa palestra de uma professora de estatística da Carnegie Mellon University aborda um assunto intrigante: a importância da ciência de dados para pessoas das mais diversas áreas, incluindo as das ciências humanas.

Quora

O site de perguntas e respostas é uma boa ferramenta para entrar em contato direto com pessoas que já trabalham na área. Elas oferencem dicas valiosas.

Leia: Saiba como seguir carreira em data science em 7 passos

Onde encontrar vagas de trabalho na área de ciência de dados

LinkedIn

Muitas oportunidades surgem pela rede social, especialmente vagas para cientistas de dados. Mas fique atento e construa um perfil forte, descrevendo suas principais habilidades, formação e experiências. Peça recomendações aos seus colegas e alimente a rede com conteúdo. E não se esqueça: quanto mais conexões, maior a chance de encontrar algo na área. Saiba mais aqui.

AngelList

O site facilita a comunicação entre startups e pessoas. Você pode indicar quais são as suas empresas de interesse, montar um perfil e criar alertas de vagas. Saiba mais aqui.

Kaggle

Esse não é um site para conseguir uma vaga, mas é uma boa opção para quem ainda não tem experiência e quer montar um portfólio. É um portal que reúne profissionais de data science do mundo inteiro para competições, o que é ótimo para praticar e ainda colocar no seu currículo. Saiba mais aqui.

Glassdoor

O ponto alto dessa plataforma é que dá para ter uma ideia real de como é ser um funcionário de determinada empresa, já que existe uma função em que quem trabalha lá avalia as condições e aponta os pontos positivos e negativos. Saiba mais aqui.

Leia também

Udacity Brasil