7 de mar de 2018

8 habilidades de data science que você precisa para ser contratado

Udacity Brasil

Depois de muito pesquisar para que serve data science, que opções profissionais essa área oferece e por que o mercado é tão promissor, você pode estar se perguntando: mas afinal, o que preciso saber de fato para trabalhar com isso?

Como a tabela evidencia, trabalhos diferentes pedem habilidades diferentes – e todas podem ser aprendidas, fortalecidas ou elevadas, dependendo de seu nível atual.

Saiba mais sobre cada uma delas abaixo e baixe o Guia Completo Para Começar Uma Carreira em Data Science!

8 habilidades de data science

1. Programação

Não importa qual é o tipo de empresa ou papel em questão: é provável que esperem que você saiba usar ferramentas como linguagens de programação estatística, como R ou Python, e uma linguagem de manipulação de dados como SQL.

2. Estatística

Uma boa base de estatística é vital para um cientista de dados, que deve ter familiaridade com testes estatísticos, distribuições, etc.

Um dos aspectos mais importantes desse conhecimento estatístico é entender quando técnicas diferentes são (ou não são) uma abordagem válida.

Estatística é algo importante em todo tipo de organização, mas especialmente em empresas orientadas a dados, em que stakeholders dependem dessa ajuda para tomar decisões e projetar ou avaliar experimentos.

Leia: 8 motivos para aprender a programar em Python

3. Machine Learning

Se você está em uma grande empresa que tem enormes quantidades de dados ou em uma empresa em que o produto em si é especialmente orientado a dados (como Netflix, Google Maps e Uber), pode ser o caso de se familiarizar com métodos de machine learning como k-nearest neighbours, random forests e métodos ensemble.

Muitos deles podem ser implementados com bibliotecas de R ou Python e, por conta disso, não é necessário se tornar um expert no funcionamento desses algoritmos.

É mais importante entender os conceitos gerais e realmente saber quando uma técnica ou outra é apropriada.

4. Cálculo multivariado & álgebra linear

Compreender esses conceitos é mais importante em empresas onde o produto é definido por dados e pequenas melhorias em performance preditiva ou otimização de algoritmos podem significar enormes conquistas.

Em uma entrevista para uma função de data science, podem pedir para você derivar resultados de machine learning ou estatística ou responder algumas questões básicas sobre cálculo multivariado e álgebra linear, que são a base de muitas dessas técnicas.

Talvez você esteja se perguntando: por que um cientista de dados precisa saber disso quando há tantas implementações inovadoras em Python ou R? A resposta é que há momentos em que vale a pena construir implementações internas.

5. Data Wrangling

Os dados que você analisa frequentemente estarão bagunçados e serão difíceis de trabalhar. Por conta disso, é importante saber como lidar com imperfeições nos dados.

Alguns exemplos de dados imperfeitos incluem valores desaparecidos, formatos inconsistentes de strings (por exemplo, 'Nova York' versus 'NY' versus 'nova york') e de datas (ano antes do mês ou mês antes do dia, etc.).

Isso será mais importante em empresas pequenas, onde você será um dos primeiros profissionais de dados, ou em companhias orientadas a dados em que o produto em si não tem relação com dados, mas essas habilidades são importantes para todos.

6. Visualização & comunicação de dados

Criar visualizações e comunicar dados é algo incrivelmente importante, especialmente em empresas novas que estão tomando decisões orientadas a dados pela primeira vez ou em empresas em que cientistas de dados são vistos como pessoas capazes de ajudar outros a tomarem decisões com base em dados.

Quando se trata de comunicação, isso significa descrever suas descobertas ou o jeito que técnicas funcionam para um público diverso, incluindo técnico e não-técnico.

Em termos de visualização, pode ser imensamente útil se familiarizar com ferramentas de visualização de dados como matplotlib, ggplot ou d3.js. O Tableau também se tornou uma ferramenta de visualização de dados e criação de dashboards bastante popular.

É importante não se familiarizar apenas com as ferramentas necessárias para visualizar dados, mas também com os princípios por trás do visual e da comunicação.

Leia: Conheça as 10 melhores ferramentas para visualização de dados

7. Intuição a dados

As empresas querem ver se você soluciona problemas pensando em dados. Em algum ponto da entrevista, provavelmente vai ser questionado sobre algum problema de alto nível, como um teste que a companhia quer conduzir ou um produto orientado a dados que quer produzir.

É importante pensar nas coisas que são importantes e nas coisas que não são. Como você, como cientista de dados, deve interagir com os engenheiros e gerentes de produtos, por exemplo? Que métodos deveria utilizar? Quando essas aproximações fazem sentido?

8. Engenharia de software

Se você está fazendo uma entrevista numa empresa pequena ou é um dos primeiros contratados na área de dados, pode ser importante ter um background forte em engenharia de software.

Isso porque você será responsável por muitos registros de dados e, potencialmente, pelo desenvolvimento de produtos orientados a dados.

Capacite-se com a Udacity

Conheça a nova trilha de Dados, Data Science & Machine Learning da Udacity, criada para capacitar novos analistas de dados, cientistas de dados e engenheiros de machine learning do começo ao fim.

Leia também:

Artigo originalmente publicado no blog americano da Udacity

Udacity Brasil