13 de mar de 2018

Aprender Python ou R? Saiba o que levar em conta

Cheng Han Lee

Se você tem interesse em uma carreira voltada à data science, provavelmente já sabe que Python e R são as duas linguagens de programação mais populares para a análise de dados.

Se você está começando e não possui experiência com nenhuma dessas linguagens, é absolutamente normal que não tenha convicção sobre qual ferramenta deve ser priorizada: Python ou R?

Por sorte, nenhuma das escolhas estaria errada – e ambas são simples, gratuitas e fáceis de instalar.

Leia: Por que todo profissional deve aprender programação?

Por que escolher R?

A linguagem R possui uma trajetória confiável e conta com uma enorme comunidade colaborativa na área da análise de dados, o que faz com que você possa confiar no apoio online de outros usuários quando tiver alguma dúvida.

Além disso, existem inúmeros pacotes disponibilizados publicamente (são mais de 5 mil) que você pode baixar e utilizar em conjunto com R. Isso amplia o espectro de funções do programa e o torna a ferramenta ideal para conduzir complexas análises de dados. O R também dialoga perfeitamente com outras linguagens, como C, C++ e Java.

Não há um recurso melhor para análises estatísticas profundas e para formação de representações gráficas.

As operações matemáticas comuns, como a multiplicação de matrizes, funcionam perfeitamente. A sintaxe orientada à matriz da linguagem também facilita a tradução de matemática para código, especialmente para alguém com pouca ou nenhuma experiência em programação.

Leia: 5 trajetórias de mulheres na programação e outras áreas da tecnologia

Por que escolher Python?

Python é considerada uma linguagem de programação generalista porque faz praticamente tudo que você precisa: depuração de dados, engenharia de dados, raspagem de sites, desenvolvimento de aplicativos web e muito mais.

É mais fácil de dominar que R, especialmente se você já tiver familiaridade com alguma linguagem de programação orientada a objetos, como o Java ou C++.

E é justamente porque Python é uma linguagem de programação orientada a objetos que a codificação robusta, sustentável e de larga escala é facilitada enormemente quando comparada à R.

Com o Python, os protótipos desenvolvidos em seu próprio computador podem ser usados como códigos de produção, caso seja necessário.

Embora Python não possua um conjunto de pacotes e bibliotecas disponíveis para profissionais de dados como R, sua combinação com ferramentas como Pandas, Numpy, Scipy, Scikit-Learn e Seaborn fará com que isso não limite seu trabalho.

Aos poucos, essa linguagem tremendamente popular está se tornando importante no desenvolvimento de tarefas voltadas ao machine learning e para alguns níveis de análises estatísticas – o que até então era privilégio do R.

Uma boa notícia é que a Udacity oferece um ótimo curso de Python: Fundamentos Data Science I.

Leia: 8 motivos para aprender a programar em Python

Escolhendo entre Python e R: o que levar em conta?

Predileções pessoais

Tome a decisão com base em sua preferência individual: qual dos dois é mais fluido e com qual ferramenta você lida de forma mais natural?

Para efeito de comparação, matemáticos e estatísticos tendem a preferir o R. Cientistas da computação e engenheiros de programação costumam preferir o Python. A boa notícia é que, após dominar uma das ferramentas, fica muito mais fácil aprender a trabalhar com as outras.

O projeto em questão

Você pode direcionar sua escolha usando como base um projeto no qual trabalhará.

Se estiver trabalhando com dados coletados e depurados e seu foco principal for a estrita análise dessas informações, use o R. Se tiver que trabalhar com dados não depurados, desconexos, que demandem a busca de dados em sites, arquivos ou outras fontes, deve começar seus estudos pelo Python.

Leia: Saiba como se tornar um programador em 8 passos

Colaboração

Uma vez que conceitos básicos da análise de dados já estiverem a seu alcance, outro critério importante para definir a escolha é descobrir que linguagem seus colegas de profissão estão utilizando.

Se todos estiverem (literalmente) falando a mesma linguagem, a colaboração e o aprendizado mútuo ficarão muito mais fáceis.

Mercado de trabalho

Em comparação com R, os trabalhos que exigem habilidade em Python aumentaram de forma sistemática ao longo dos últimos anos.

Gráfico via r4stats

Também é possível notar que Python já supera R nos trabalhos voltados à gestão de dados. Graças à expansão do ecossistema de Python, as ferramentas para praticamente todos os aspectos da computação estão disponíveis nessa linguagem.

Além disso, a utilização do Python para desenvolvimento de aplicativos web permite que as empresas contratem profissionais polivalentes que possam atuar como desenvolvedores Python e, ao mesmo tempo, façam parte da equipe de cientistas de dados.

Isso representa uma enorme vantagem, dada a falta de especialistas em dados no mercado atual.

Aprendizado contínuo

De maneira geral, não há um caminho errado nessa possibilidade de escolha entre Python e R.

Cada ferramenta tem seus prós e contras, a depender dos diferentes cenários e projetos, e existem bibliotecas que permitem o uso de Python com R e vice-versa. Portanto, escolher uma não significa desistir da outra.

O primeiro passo pode ser empregar as diretrizes acima para decidir qual das duas será seu ponto de partida e, em um outro momento, fortalecer seu conjunto de habilidades aprendendo a seguinte.

Artigo originalmente publicado no blog americano da Udacity

Sobre o autor
Cheng Han Lee