Você sabe (de verdade) o que é big data?

Udacity Brasil
6 de jun de 2018

O que é bit data? Já há algum tempo o termo circula por aí com pompa e este artigo traz tudo que você precisa saber sobre este famoso termo em inglês, usado com cada vez mais frequência para se referir a imensos conjuntos de dados que podem gerar ótimos insights para negócios, governos e a sociedade como um todo.

O que você vai aprender neste artigo:

Como pensar em big data

No começo, estava restrito aos círculos especializados da ciência da computação. Mais recentemente, no entanto, jornalistas, advogados, cientistas políticos, engenheiros, profissionais, estudantes de todas as áreas e curiosos de toda sorte têm se voltado para o conceito que, percebem agora, pode ser útil para os mais diferentes campos do saber.

Mas o que é big data? Basicamente, big data é o termo em inglês para se referir a um conjunto imenso de dados armazenados de forma tal que, sob as óticas e ferramentas de alguém que entende do assunto, pode levar a conclusões bastante úteis para um pequeno negócio, uma grande empresa, uma política pública e uma sociedade como um todo.

Para ir além dessa definição, conversamos com especialistas da tecnologia que trabalham com big data em diferentes áreas: no jornalismo, na administração pública e na academia.

No geral, todos concordam num ponto: o conceito de big data é amplo e pode ser abordado de diferentes formas. Há quem ache, inclusive, que nem se trate de um conceito, mas sim, de um fenômeno. Ou quem defenda ser apenas uma criação de marketing para se referir a algo que sempre existiu e vai continuar existindo, ainda que a expressão caia em desuso.

Mas todos os especialistas que falaram ao blog foram enfáticos ao dizer: não basta deter uma quantidade imensa de informações sem ter um objetivo para reuni-las e, principalmente, um profissional que saiba como organizá-las e interpretá-las.

Abaixo, com a ajuda dos especialistas, explicamos melhor esses pontos e mostramos como e por que big data pode ser útil para você, sem cair no acúmulo desenfreado de informação irrelevante.

Pois é, o que é big data?

Imagine que há um andar inteiro no prédio da prefeitura de sua cidade cheio de gaveteiros. Esses gaveteiros, por sua vez, estão abarrotados de folhas e mais folhas com informações sobre o município e seus cidadãos. Há ali uma variedade de dados que vão desde os nomes das pessoas registradas na cidade a todas as demais interações que essas pessoas tiveram com o sistema público, como matrícula dos filhos nas escolas, alistamento militar, eleições em que votaram, data, local e motivo de falecimento.

Agora imagine que tudo isso foi digitalizado. No entanto, trata-se de um volume tão desproporcional de informações que não é possível armazená-lo no computador da prefeitura, nem acessá-lo com um programa qualquer. São necessários servidores adicionais e softwares especiais para armazenar, visualizar, manusear, transferir, atualizar e analisar esses dados.

O nome desse volume desproporcional de informações digitalizadas é big data. O termo é usado desde o início da década de 1990, ou seja, desde a popularização dos computadores.

O estatístico Hadley Wickham, cientista-chefe do RStudio e professor adjunto da Universidade Stanford, propôs uma fronteira entre o que pode e o que não pode ser considerado big data. Segundo ele, se o volume de dados cabe na memória RAM de seu computador, trata-se de small data – e é possível ter um servidor na nuvem com até 1 terabyte de memória RAM.

A primeira quebra entre os dois conceitos, para Wickham, é quando você não consegue mais trabalhar na memória RAM, mas precisa transferir os dados para outro hardware (ou disco rígido).

A segunda quebra acontece quando nem mesmo o HD extra é o suficiente para armazenar toda a informação, e torna-se necessário distribuí-la por diferentes servidores – lembrando que essa é uma explicação proposta por um estatístico entusiasta do tema, e não uma definição universal.

O Google, por exemplo, não consegue guardar em um único computador toda a informação que tem. Os dados são distribuídos em vários parques e é preciso uma estratégia de contingência para armazenar tudo.

Os V's do big data

Há vários outros conceitos na órbita do big data. Diz-se, por exemplo, que big data engloba 3 V's: volume, variedade e velocidade.

O volume tem a ver com todos aqueles papéis armazenados em gaveteiros no andar da prefeitura. Ou seja: a gigantesca quantidade de informação reunida. A variedade, por sua vez, está relacionada à diversidade do tipo de informação armazenada, que no exemplo usado até aqui, vai de nomes de cidadãos a causas de morte, passando pelo número de filhos que as pessoas de uma cidade têm. Por fim, a velocidade está associada à atualização rápida desses dados, posto que pessoas estão sempre nascendo, morrendo, se casando etc.

Mais recentemente, outros dois V's passaram a ser associados ao que é big data: veracidade e valor. O primeiro se refere a possíveis ruídos de informações, como datas erradas, nomes trocadas, pessoas nunca registradas; o segundo, à importância dessas informações ou ao potencial que elas têm para levar a conclusões que façam valer todo aquele andar da prefeitura.

Mas especialistas e mercado divergem quanto ao modelo dos V's.

Para Felippe Mercurio, líder técnico da agência de jornalismo de dados Volt Data Lab, os V's são uma criação de marketing da indústria da tecnologia. "Na minha visão, big data nada mais é que bancos de dados grandes. Para saber se existe veracidade, você precisa de um analista de big data. Eu acho que foge do escopo você dizer se tem veracidade ou não para definir um big data."

Leia: O que é data storytelling e como utilizá-la nos negócios

Julio Trecenti, secretário-geral da Associação Brasileira de Jurimetria (estatística aplicada ao direito), contemporiza. Para ele, os tais V's são uma forma mnemônica de guardar conceitos que estão relacionados ao "fenômeno big data", como gosta de dizer. "Eles são úteis para isso, para a memória, mas na prática não servem muito para trabalhar com big data. Para trabalhar com big data, você precisa estudar como faz análise de dados. É isso que realmente importa, tendo cinco ou dez V's."

Mas ao contrário de Mercurio, o único V salvo por Trecenti é justamente o da veracidade. "O fenômeno do big data tem um problema de qualidade dos dados que são obtidos. Hoje em dia existem muitas entidades minerando dados de órgãos públicos, por exemplo, mas essas informações são sujas, têm problemas de arrumação da base. Essa é a maior barreira que as pessoas enfrentam na prática para digerir o big data. Por isso acho a veracidade o V mais chamativo, por estar relacionado a um grande problema que enfrentamos hoje."

Dados estruturados e dados não estruturados

Outros termos que constantemente seguem a expressão - ou o fenômeno - big data são os tais dos dados estruturados e dados não estruturados.

A explicação para esses conceitos é bem simples. Basicamente, dados estruturados são dados que foram categorizados. "Como se você tivesse uma tabela com o nome da pessoa, data de nascimento, departamento que trabalha. Para cada pessoa você tem as mesmas informações", explica Marcelo Finger, professor do departamento de ciência da computação do Instituto de Matemática e Estatística da USP (IME-USP). "Outra coisa é você estar lendo um texto em que essas informações aparecem soltas e misturadas. Você não consegue identificar de cara o que precisa", explica ele.

No exemplo do andar da prefeitura, no caso, temos dados não estruturados, pois as informações sobre os cidadão das cidades estão apresentadas nas mais diversas formas, em certidões de nascimentos, de casamento, fotografias da cidade e boletins de escolas públicas.

E Hadoop, o que é?

Você já tem uma boa compreensão do que é big data, sabe o que as pessoas querem dizer ao falar de dados estruturados e dados não estruturados e, ainda assim, se deparou com um termo estranho que pode dificultar sua compreensão de um problema posto.

Hadoop geralmente se encaixa nesse cenário.

Mas a explicação é tão simples quanto as anteriores: grosso modo, Hadoop é um conjunto de programas e procedimentos open source (ou seja, de código aberto) que pode ser usado como a base para as operações com o que é big data.

Leia: Hadoop e big data: entenda como essa plataforma processa dados

Mantido pela Apache Software Foundation, organização sem fins lucrativos criada para apoiar projetos de código aberto, o Hadoop surgiu em 2015, inspirado por uma solução semelhante do Google, o MapReduce.

Ambos, Hadoop e MapReduce, operam sobre a mesma lógica, com a diferença de que o MapReduce foi criado pelo Google e é de exclusividade da empresa.

Fundamentos de MapReduce: veja vídeo do curso gratuito Introdução à Ciência de Dados da Udacity

Basicamente o que esses sistemas fazem é analisar uma quantidade gigantesca de dados e entregar resultados significativos. Isso é feito dividindo um volume grande em partes pequenas que são espalhadas para processamento.

Para ter uma ideia melhor, o MapReduce foi criado para indexar as bilhões de páginas da internet na ferramenta de busca do Google. O Hadoop, por sua vez, após lançado foi adotado pelo Yahoo, Facebook e Amazon.

Leia: O que é MapReduce, um modelo de programação criado pelo Google

Mercado de big data no Brasil e no mundo

Muito se fala sobre o que é big data, mas a falta de conhecimento sobre o que isso de fato significa pode causar problemas desnecessários na implementação de estratégias. Afinal, nem todo insight precisa de big data para existir. É preciso pensar bem e entender se aquela é a ideia certa para cada negócio.

No geral, os especialistas que falaram ao blog são críticos da busca desenfreada por um grande volume de dados. Para eles, empresas e corporações partiram em uma saga para reunir informações que, por si só, não têm valor nenhum. E esse é o cenário de big data no Brasil e também em outros país do mundo.

"Não significa que só porque uma empresa pode capturar esses dados, que ela deve capturar esses dados. Quanto mais complexidade você cria, mais difícil fica para você extrair valor daquilo", ressalta Felippe Mercurio.

Julio Trecenti chama atenção para outra falácia comum nesse acúmulo, os chamados problemas paralelizáveis. No caso, trata-se da quebra de um problema estatístico em pequenos pedaços, que têm um número menor de informações que serão de fato utilizadas. Ou seja, em vários casos, o que parece ser um problema de big data é, na verdade, diversos problemas de small data.

"Existem esses dois problemas no acúmulo de informações que é, primeiro, as pessoas agregarem dados sem saber o que fazer com aquilo e, segundo, pessoas classificarem problemas como big data, quando na verdade os problemas só estão com essa roupagem, pois a origem dos dados é grande, mas a análise de fato envolve uma quantidade menor de dados", diz Trecenti.

A cientista de dados Pi Chuan explica: o que é ciência de dados?

O professor Marcelo Finger concorda: "Quando você tem big data, você tem também big noise [grande ruído, em inglês] e precisa procurar a agulha no palheiro", diz ele. Ou seja, um grande volume de informações pode ser bom, mas pode também só atrapalhar.

Finger dá um exemplo de quando muita informação ajuda: programas de traduções. Quanto mais referências você tem de que certos signos de uma língua correspondem a outros de língua estrangeira, melhor. “Esse é o tipo de dado que eu chamo de dado de qualidade", diz.

Em contrapartida, diz o professor da USP, varrer notícias em busca de informações específicas é um claro exemplo de quando o excesso atrapalha. "Imagine que você vai procurar no Twitter informações sobre o trânsito. Vai ter um monte de gente falando de política, cultura, fazendo piada. Nesse caso, big data é big noise", diz, repetindo o mantra estatístico.

Para todos esses especialistas, muito mais importante do que capturar uma quantidade enorme de informações e comprar servidores para armazená-las é, primeiro, estabelecer objetivos específicos para o que se pretende fazer com essas informações e, segundo, dispor de um cientista ou analista de dados que saiba como manuseá-las e extrair insights da forma mais apropriada, lançando mão de ferramentas de big data.

"O que as empresas estão interessadas não é nos dados, mas em ciência de dados: você conseguir tirar insights a partir da base de dados", reforça Trecenti.

"Ter acesso a um banco de dados gigantesco não vai te ajudar no seu negócio ou na sua pesquisa", explica Mercurio, do Volt. "Mais importante do que você ter acesso a um banco de dados gigantesco é ter um banco de dados organizado e um objetivo com ele", completa.

Mercurio lança mão de uma analogia feita pela mídia, de que o big data é o novo "petróleo" para empresas. "As empresas estão tratando os dados dos seus clientes/usuários como 'petróleo', só que a imensa maioria delas não sabe 'refinar' esse 'petróleo' e acaba utilizando ele de forma errada e antiética", diz, completando a metáfora.

O que faz um cientista de dados?

Trecenti oferece uma visão mais otimista. Para ele, big data não é um conceito, mas sim, um fenômeno.

"Nos últimos 20 anos, tem acontecido esse fenômeno de pessoas guardarem mais informação de maneiras sistemática a respeito de tudo que fazem. Fazem isso em empresas, smartphones, em suas casas etc", diz. "O fato de a gente estar guardando tanta informação agora muda os paradigmas de como devemos utilizar essas informações para fazer novas análises, entender o que está acontecendo, enfim, melhorar a sociedade."

A ética no uso de dados

A analogia do petróleo serve bem à questão ética do uso de dados. Pense na questão climática, por exemplo. "Seria como no início do século 20, quando não tínhamos preocupação nenhuma com a emissão de gases. As empresas estão usando dados assim como queimávamos petróleo e derivados sem nenhuma consciência ou regulação", compara Mercurio.

O professor da USP Marcelo Finger também se preocupa com o uso errado dos dados: "Existem aplicações de big data que podem ser para o mal, depende como você usa. Informações podem ser usadas para discriminar, entre inúmeros outros problemas", aponta ele. "Você pode ter vieses escondidos e utilização de dados gerados com um propósito sendo aplicado em outros."

Finger acredita que um cientista ou analista de dados precisa ter, além de uma formação técnica, uma formação ética. "Na hora que você vai encarar um problema, precisa saber seus objetivos e que tipo de vieses você pode estar incorrendo que podem fazer os dados serem usados de forma sexista, racista, discriminatória", diz.

Leia: Entre uma crise e outra, o debate ganha espaço: a tecnologia precisa de um código de ética?

Análise de dados ou big data analytics

Se é a análise de dados que importa, vamos falar dela.

Cientistas e analistas de dados são os profissionais que olham para os dados por ângulos diferentes e tiram conclusões sobre o que está acontecendo ou apontam a ocorrência de um evento particular no futuro.

As duas profissões realizam basicamente as mesmas funções, mas enquanto os analistas focam em explicações, os cientistas focam em previsões. Você encontrará bastante por aí os termos em inglês data analytics e data science para se referir a cada uma dessas atividades, respectivamente.

Leia: Ciência de dados: tudo sobre a área que está moldando o futuro das organizações

O cientista e o analista de dados são detentores de uma série de conhecimentos técnicos e éticos, que vão da matemática pura à linguagem de programação. Para trabalhar com os dados, eles utilizam softwares avançados, que têm a capacidade de processar as informações de forma ágil, segundo as intenções e comandos dos especialistas. O tipo de software a ser usado é escolhido de acordo com a natureza do banco de dados.

O que faz um analista de dados

Um analista de dados é, essencialmente, um cientista de dados júnior. Este é o lugar perfeito para começar uma carreira em dados se você for novo na área. Analistas de dados não têm o background matemático ou acadêmico para inventar novos algoritmos – e não precisam saber programar –, mas tem um entendimento forte de como utilizar as ferramentas que já existem para solucionar problemas.

Habilidades e ferramentas: programação, estatística, machine learning, data munging e visualização de dados. Além das habilidades técnicas, é bom ter atenção a detalhes e boa capacidade de comunicação para apresentar os resultados.

O que faz um cientista de dados

Um cientista de dados utiliza habilidades sofisticadas para lidar com um volume grande e veloz de dados. Trata-se de alguém capaz de fazer pesquisas e refletir sobre problemas e questões em aberto, identificar novas oportunidades de negócios e identificar padrões. Também tem a capacidade de inventar novos algoritmos para resolvê-los.

Habilidades e ferramentas: tecnologias baseadas em Hadoop, tecnologias baseadas em SQL, programação em Python e R, matemática e estatística, visualização e comunicação de dados.

As ferramentas de big data

Há inúmeras ferramentas para se trabalhar com big data. Elas são escolhidas pelo profissional de acordo com a natureza dos bancos de dados (se são estruturados, não estruturados, big data, small data etc) e dos objetivos que se tem com esses dados.

Hoje, basicamente, há dois tipos predominantes de sistemas de gerenciamento de bancos de dados (DBMS): os SQL database e os NoSQL database. Vamos explicar melhor cada um deles:

SQL database

Tipos de SQL database, basicamente, lidam com bancos de dados relacionais. Eles receberam esse nome porque a linguagem usada para lidar com esses bancos é a SQL (Structured Query Language, ou Linguagem de Consulta Estruturada). "Query", em inglês, significa "questionar" e o nome foi dado pois a linguagem busca dar respostas factuais a perguntas factuais.

Os RDBMS (sigla em inglês para sistemas de gerenciamento de bancos de dados relacionais ou Relational Database Management Systems) mais usados para operar nesse nível são Oracle, Microsoft SQL Server, IBM DB2, Microsoft Access, SQLite, MySQL e PostgreSQL.

Já NoSQL database lidam com bancos de dados não-relacionais. Ou seja, grandes volumes de informações que podem ser também dados não estruturados, ou seja, podem aparecer na forma de gráficos, imagens, sons etc.

Entre os exemplos de ferramentas usadas no dia a dia para lidar com esse tipo de big data estão NoSQL, MongoDB, DocumentDB, Cassandra, Coachbase, HBase, Redis e Neo4j, mas há centenas de outras.

Leia: 3 exemplos de bancos de dados usados no dia a dia por quem trabalha com Big Data

Exemplos de big data e suas análises

Big data no jornalismo

Como coordenador técnico do Volt Data Lab, Felippe Mercurio desempenha mais tarefas do que cabem no nome de seu cargo.

A primeira delas é justamente modelar bancos de dados para capturar apenas aqueles essenciais às pesquisas que têm interesse, dentro do universo descomunal de informações existentes.

"O Volt é uma agência de comunicação e mídia que utiliza big data. Porém a gente procura sempre modelar o banco de dados com relação aos nossos objetivos, não simplesmente sair caçando dados por aí e depois ver o que vai fazer", diz ele.

Atualmente, por exemplo, o Volt está trabalhando em uma plataforma que reúne os resultados das diversas pesquisas eleitorais feitas para a eleições de 2018.

Para chegar ao produto final, Mercurio e seus colegas realizam um processo de cinco etapas, que ele descreve abaixo:

1. Coleta de dados

No geral, o trabalho começa com um volume gigantesco de arquivos em PDF com as informações a serem exploradas. No caso das pesquisas eleitorais, são informações como nome, apelido, partido de candidatos, assim como o desempenho deles nas pesquisas.

"A gente não consegue tratar esses dados assim, não consegue agregar, não consegue fazer nada."

Sérgio Spagnuolo, jornalista e fundador da agência, geralmente é o responsável por extrair esses dados para um “planilhão”. Esse processo é chamado de raspagem, ou “scraping”, em inglês.

2. Organização dos dados (modelagem)

Uma vez com os dados brutos na mão, a equipe do Volt analisa e identifica "ligações" que existem entre as colunas do planilhão, organizando-as em grupos. Dos grupos, definem tabelas e seus respectivos campos/colunas. Então, as tabelas são organizadas entre si a partir de chaves estrangeiras (foreign keys), explica Mercurio.

Todo esse longo processo, que resulta em um "mapa" do banco de dados, é chamado de modelagem de banco de dados. Num jargão mais técnico, se diz MER (Modelo Entidade Relacionamento):

Para fazer a modelagem de dados, o Volt utiliza uma ferramenta chamada MySQL Workbench.

3. Criação do banco de dados

Após definidas as tabelas do banco de dados e suas ligações (chaves estrangeiras), os analistas partem para a construção do banco. Para isso, utilizam a ferramenta DB Browser do SQLite.

Conforme o modelo, as tabelas do banco de dados são então alimentadas de Scripts em SQL, baseadas no planilhão (ou dados brutos). “Essa etapa também envolve limpeza dos dados, pois eles chegam com muita coisa escrita errado, caracteres estranhos etc”, lembra Mercurio.

4. Construção da plataforma

Enquanto tudo isso acontece, desenvolvedores constroem em PHP (Framework Laravel) a plataforma para cadastro das novas pesquisas (“afinal de contas, ninguém merece ficar alimentando Excel e criando PDF para disponibilizar os dados”, diz Mercurio) e consulta (API entra aqui também).

5. Front-end

Outra equipe constrói o front-end da plataforma. Essa etapa envolve a utilização dos dados, "plotar" em gráficos, efetuar análises em cima deles, escrever textos, entre outras coisas.

“Neste caso [das pesquisas eleitorais] não foi nada trivial essa tarefa, pois tivemos que juntar dados de pesquisas diferentes, de institutos diferentes, então tivemos que montar um cálculo para normalizar os percentuais dessas apurações”, resume o engenheiro técnico, sobre o trabalho que está prestes a ir para o ar.

Big data na gestão pública

Por sua vez, a Associação Brasileira de Jurimetria, da qual Julio Trecenti é secretário-geral, faz pesquisas para fins de políticas públicas.

Seus integrantes estudam o impacto de leis no judiciário: se as decisões estão sendo tomadas dentro do prazo, se estão sendo tomadas de maneira eficiente e de que forma esse processo pode ser melhorado.

Para fazer essas análises, Trecenti e seus colegas de trabalho utilizam informações que vêm de dados públicos. "Esses dados podem ser considerados big data", explica ele.

"Baixamos informações de processos judiciais em um volume muito grande. Aqui é importante a questão da veracidade, por exemplo, pois esses dados são muito sujos."

Por "sujo", explica Trecenti, há desde textos mal escritos, o que dificulta a interpretação, à informações faltantes e incompletas. "Como a gente enfrenta isso? Utilizando a comunidade. Deixamos nossas pesquisas públicas, todos os códigos que utilizamos são abertos, para permitir que a comunidade consiga replicar nossos estudos, reproduzir o que a gente faz e propor melhorias."

Entre os inúmeros projetos realizados pela Associação Brasileira de Jurimetria está um estudo sobre o processo de adoção de crianças no Brasil.

A pesquisa foi feita utilizando a base de dados do Conselho Nacional de Justiça. Um olhar cuidadoso e certeiro sobre esses dados mostrou que muitas crianças entravam no processo para a adoção já em idade avançada, afastando boa parte das pessoas com interesse em adotar.

Isso acontecia, descobriram os analistas da associação, devido à demora do processo de restituição familiar, que é o que separa as crianças de seus progenitores. "Identificamos que esse processo demorava muito e no final do projeto propusemos alterações, que na nossa avaliação reduziriam em X anos esse tempo, de forma que crianças poderiam ser adotadas mais novas. O objetivo era que mais crianças fossem adotadas mais rápido do que acontece hoje na realidade."

Um projeto de lei que altera esse processo, baseado nessa pesquisa, foi aprovado pelo Congresso e sancionado pelo presidente Michel Temer em novembro de 2017.

Onde estudar big data

Há inúmeros outros exemplos de big data em áreas diversas. Não é necessário ter pós-graduação ou especialização em big data para se interessar pelo tema.

Ainda assim, os três profissionais que falaram ao blog comentaram sobre o que uma pessoa interessada em como funciona big data precisa aprender. Fizemos uma lista com base no que eles disseram:

  • Teoria dos conjuntos matemáticos
  • Bancos de dados relacionais e transacionais
  • Linguagem de programação
  • Estatística
  • Ética

Leia: Quer saber como é estudar online? Teste estes cursos da Udacity gratuitamente

A Udacity oferece alguns cursos online de big data e big data analytics, para leigos e interessados em saber mais sobre ferramentas de big data, o que é big data analytics e, principalmente, para quem quer se tornar um gestor de big data. Inclui também uma trilha completa para analistas de dados e data scientists. Aí vão algumas opções:

Programas Nanodegree

Introdução à Programação

Aprenda a lógica de programação em diversas vertentes e apresente, através de projetos práticos, as diferenças entre as principais carreiras de programação. O curso dura 3 meses. Saiba mais sobre o curso.

Nanodegree Fundamentos da Análise de Dados

Aprenda os conceitos fundamentais para transformar e apresentar dados em insights de negócios usando apenas planilhas de Excel, SQL para base de dados e ferramentas de visualização. O curso dura 3 meses. Saiba mais sobre o curso.

Nanodegree Analista de Dados

Desenvolva habilidades analíticas, trabalhe com análise de dados e gere valor e insight para negócios sem precisar programar. O curso, feito em parceria com Alteryx e Tableau, dura 5 meses. Saiba mais sobre o curso.

Nanodegree Fundamentos da Data Science I

Dê seus primeiros passos na carreira de ciência de dados e aprenda fundamentos de programação em Python para realizar análises mais efetivas. O curso dura 2 meses. Saiba mais sobre o curso.

Nanodegree Fundamentos de Data Science II

Aprenda a lidar com grandes quantidades de dados e usar SQL e data wrangling, além de se aprofundar em Python e aprender conceitos de machine learning. O curso, feita em parceria com o Tableau, dura 4 meses. Saiba mais sobre o curso.

Nanodegree Data Scientist

Domine os conceitos necessários para lidar com big data, engenharia de software, programação em R e machine learning. O curso dura 6 meses. Saiba mais sobre o curso.

Cursos gratuitos

Introdução à Ciência de Dados

Se você tem experiência com estatística e programação em Python esse curso de Big Data e data science é para você. O curso dura 2 meses e introduz tópicos como manipulação de dados e machine learning. Saiba mais sobre o curso.

Introdução à Estatística

Para quem quer começar uma jornada rumo à ciência de dados mas não tem conhecimento em estatística. O curso dura 2 meses e ensina como extrair informação dos dados. Saiba mais sobre o curso.

Intro to Hadoop and MapReduce

Aprenda os princípios por trás do Apache Hadoop e como usar esta ferramenta para extrair insights de big data. O curso, feito em parceria com o Cloudera, dura 1 mês. Saiba mais aqui. Saiba mais sobre o curso.

Leia também: