3 exemplos de bancos de dados usados no dia a dia por quem trabalha com Big Data

Udacity Brasil
11 de abr de 2018

Você conhece a expressão e com certeza tem ao menos uma vaga ideia do que significa. Mas nem para todo mundo está claro o que é exatamente um banco de dados e qual é sua importância.

Isso porque o conceito é amplo e pode ser usado para se referir a coisas diferentes. Neste artigo, vamos explicar o que é um banco de dados, apresentar os tipos que existem e por que entender isso pode ser muito útil para você.

  1. Afinal, o que é um banco de dados?
  2. Para além de um simples banco de dados: o que é Big Data?
  3. Exemplos de Big Data
  4. Para saber mais

Afinal, o que é um banco de dados?

Em inglês um banco de dados é chamados de database e, grosso modo, é um conjunto de informações armazenadas que fazem sentido quando relacionadas entre si.

Um banco de dados pode ser uma lista de nomes de clientes acumulada por anos, assim como uma quantidade gigantesca de informações sobre um ecossistema que, para ser armazenada, exige um software avançado rodando em diversos servidores.

Hoje armazenadas em larga escala de forma digital, as informações podem ser facilmente acessadas, organizadas, atualizadas e comparadas graças a esses softwares.

Há diversos exemplos de bancos de dados usados no dia a dia. Um restaurante, por exemplo, pode armazenar uma planilha com o nome de todos os clientes que já passaram por lá, assim como o que eles consumiram, quanto gastaram e em que momento estiveram no estabelecimento.

Essas informações, quando cruzadas, podem levar a diversas conclusões importantes para proprietários: o maior movimento, por exemplo, quando vale a pena estar aberto e ter mais funcionários trabalhando; ou quais são os pratos mais e menos pedidos do cardápio, uma noção importante para as compras do mês e para possíveis mudanças de ingredientes.

Leia mais: 5 jeitos de usar dados para analisar o comportamento de clientes

Esse é um exemplo bastante simples de um banco de dados – o que, tecnicamente, se chamaria de um "modelo plano" (ou "tabular"). Bancos mais complexos cruzam tabelas diferentes de informações e formam uma rede de dados.

Levado a cabo, o acúmulo de informações cruzadas entre si pode dar um empurrãozinho não só no desempenho de um estabelecimento gastronômico, mas também no de um time de beisebol, na implementação de uma política pública e, como mostrou o noticiário recente, no de uma campanha eleitoral também.

Importante ressaltar aqui, no entanto, que embora seja útil, a análise de bancos de dados não é uma fórmula mágica que garantirá, sozinha, o sucesso em qualquer um desses casos.

Leia: Porque a carreira de cientista de dados é tão promissora no Brasil

Para além de um simples banco de dados: o que é big data

Um número gigantesco de dados armazenados é chamado de big data. No caso, estamos tratando de um volume tão grande de informações que não conseguimos armazená-las e manuseá-las usando ferramentas simples, como o Excel.

Para tirar conclusões desse tipo de banco de dados, é necessário ter softwares avançados, por vezes rodados em diversos servidores. Softwares capazes de interagir com o banco de dados, o usuário e outras aplicações são chamados de DBMS (database management system ou, em português, sistema de gerenciamento de banco de dados). É nesse nível que operam geralmente cientistas de dados, governos e grandes empresas.

A possibilidade de processar de forma rápida uma grande quantidade de dados foi uma revolução para a tomada de decisões. Essa tecnologia tornou possível monitorar o trânsito de uma metrópole de forma mais eficiente a partir de informações captadas por diversos satélites, otimizar uma produção industrial em escala global e fornecer ajuda humanitária rapidamente em casos de desastres naturais, entre inúmeros outros exemplos.

O poder de impacto de big data é tão grande que a área cresce a cada ano, demandando cada vez mais profissionais qualificados para atuar nos diversos setores interessados em se apropriar dessa tecnologia.

Você deve ter ouvido falar de data analytics, vulgo análise de dados, que consiste na capacidade de analisar essas informações, com a ajuda da tecnologia, para ajudar na tomada de decisões. Essa tarefa é desempenhada por um analista de dados.

Assista acima ao curso online gratuito Introdução à Análise de Dados da Udacity

Leia: 3 caminhos para ser um analista de dados (mesmo que você não tenha experiência)

Exemplos de big data bem utilizada hoje vão desde papelarias de bairro a gigantes do Vale do Silício, passando por lojas de esporte, supermercados, veículos de imprensa e a Netflix.

Este vídeo da Udacity, narrado em inglês, mostra como dados são usados na agricultura, por exemplo. Nele, o produtor agrário Mitchell Yerxa conta como analisa o rendimento de sua colheita, cruzando essas informações com as demandas do mercado, para poder adaptar suas culturas, evitando assim desperdícios.

A demanda cresce tão rapidamente que o que é considerado big data muda de tempos em tempos, de acordo com o avanço da capacidade de processamento de informações. A chamada Lei de Moore prevê que a capacidade de armazenamento e processamento de informações no mundo dobra a cada 18 meses. A previsão, feita em 1965 pelo empresário Gordon Earle Moore, se provou verdadeira por várias décadas.

Exemplo de big data utilizada na prática por organizações do mundo inteiro

O avanço tecnológico não só altera os parâmetros de quantidade de informação armazenada, mas também a forma como essas informações se relacionam entre si. Isso fez com que novos sistemas fossem criados para dar conta desses novos tipos de bancos de dados.

Leia: 15 tipos de visualizações de dados incríveis

Exemplos de bancos de dados

Como dito no começo deste texto, o conceito de banco de dados é amplo e o termo é usado para se referir a coisas diferentes. Por vezes, quando falamos em banco de dados estamos na verdade nos referindo diretamente a sistemas de gerenciamento de bancos de dados, os DBMS.

Da mesma forma, há inúmeros jeitos de se classificar os bancos de dados, de acordo com critérios diferentes. Vamos citar aqui três diferentes tipos de bancos. Não se assuste, porém, se encontrar outras classificações por aí.

Relational Database (bancos de dados relacionais)

Bancos de dados relacionais são, digamos, mais simples em comparação aos demais tipos de bancos, pois trabalham com dados estruturados. Eles consistem basicamente em tabelas, compostas por linhas e colunas relacionáveis entre si. Formalmente, no modelo relacional as tabelas são chamadas "relação"; as linhas, "tupla"; e as colunas, "atributo".

O modelo foi o primeiro descrito teoricamente em 1970 pelo cientista da computação Edgar F. Codd e aprimorado nas décadas seguintes por outros matemáticos.

Voltando ao exemplo do restaurante, seria o caso de um banco formado por três tabelas: a primeira com informações dos clientes (número do cliente, nome, idade, identidade de gênero, endereço); a segunda com informações do pedido (número do produto, data em que foi pedido, quantidade, número do cliente); e a terceira com informações da nota fiscal (número da nota, data, número do produto, número do cliente).

A linguagem usada para lidar com esses bancos é a SQL (Structured Query Language, ou Linguagem de Consulta Estruturada). Essa linguagem foi primeiro desenvolvida pela IBM nos anos 1970 para implementar a teoria proposta por Codd. "Query", em inglês, significa "questionar" e o nome foi dado pois a linguagem busca dar respostas factuais a perguntas factuais. Bancos de dados relacionais são também chamados SQL database.

Os RDBMS (Relational Database Management Systems ou sistemas de gerenciamento de bancos de dados relacionais) mais usados a operar nesse nível são Oracle, Microsoft SQL Server, IBM DB2, Microsoft Access, SQLite, MySQL e PostgreSQL. Entre eles, os três últimos são open source, ou seja, têm o código-fonte aberto para quem quiser aprimorá-lo, alterá-lo para outros fins específicos ou, simplesmente, aprender com ele.

NoSQL database (Non-relational database ou bancos de dados não-relacionais)

O nome foi dado a princípio para bases de dados não consideradas relacionais, mas hoje por vezes NoSQL é descrito como "not only SQL database" (não somente), por também comportar a linguagem query.

Bases de dado NoSQL também existem desde a década de 1970, mas tornaram-se popular nos anos 2000 com as necessidades da Web 2.0.

Isso porque esses bancos de dados consistem em grandes volumes de informações que podem ser também dados não estruturados, ou seja, podem aparecer na forma de gráficos, imagens, sons etc – uma necessidade crescente.

Eles não oferecerem a chamada garantia ACID (acrônimo para atomicidade, consistência, isolamento e durabilidade), impreterível em sistemas de bancos de dados relacionais, mas, em contrapartida, têm a vantagem de oferecer escalabilidade horizontal (scale out), que significa, basicamente, a capacidade de aguentar mais carga distribuindo-a por servidores diferentes, e não apenas provendo um hardware mais potente.

Entre os exemplos de bancos de dados usados no dia a dia estão NoSQL, MongoDB, DocumentDB, Cassandra, Coachbase, HBase, Redis, and Neo4j, mas há centenas outros. Entre os citados, apenas Cassandra e MongoDB são open source.

NewSQL

O NewSQL é uma espécie de repaginação das bases de dados relacionais. A intenção aqui é ter a mesma performance de bases de dado NoSQL, como a escalabilidade horizontal, porém mantendo a garantia ACID e a linguagem SQL.

Atualmente é considerado o melhor de dois mundos, mas ainda precisa crescer em popularidade. Sistemas que operam com esses bancos são Google F1/Spanner, Citus, CockroachDB, TiDB, ScaleBase, MemSQL, NuoDB e VoltDB. Os dois último são open source.

Para saber mais sobre bancos de dados, data science e Big Data

Cursos

A Udacity Brasil oferece cursos online com certificado de big data e engenharia de dados, entre outros. Veja as opções abaixo e comece hoje:

Torne-se um analista de dados

Esta trilha de carreira da Udacity (que pode ser feita por iniciantes) conta com os programas Nanodegree Fundamentos de Análise de Dados e Analista de Dados.

Ao longo dos cursos, aprenderá aprenderá a utilizar Microsoft Excel e SQL, trabalhar visualização de dados, montar dashboards, validar descobertas, fazer análises preditivas e classificação de dados. Ao final, estará apto a trabalhar como analista de dados profissional e gerar mais valor para o negócio através de insights. Saiba mais aqui.

Torne-se um cientista de dados

Outra trilha de carreira da Udacity (que também pode ser feita por iniciantes) utiliza três programas Nanodegree para capacitá-lo como um cientista de dados profissional: Fundamentos de Data Science I, Fundamentos de Data Science II e Data Scientist.

Ao longo dos cursos, você aprenderá linguagem Python, SQL, estatística e visualização de dados e como criar algoritmos preditivos e utilizar big data, entre outras habilidades. Em seguida, poderá trabalhar como cientista de dados, considerada a profissão mais promissora do século.

Referências

Para ampliar seus horizontes e conhecimentos, veja abaixo livros sobre big data que analisam sua capacidade de impacto atual e futura.

Como Iniciar Sua Formação em Data Science, por Udacity

Este ebook gratuito produzido pela Udacity oferece um panorama do mercado de data science, quais são as principais carreiras na área e as habilidades técnicas e interpessoais que você precisa dominar para entrar nesse mercado que gira ao redor de big data.

Big Data: Como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana, por Viktor Mayer-Schonberger

O livro Big Data, Viktor Mayer-Schonberger, professor de regulamentação e governança da Internet da University of Oxford, fala sobre o impacto que big data terá sobre a sociedade humana. Um ótimo primer para entender o cenário atual.

O Sinal e o Ruído, por Nate Silver

Famoso nos EUA pelas previsões eleitorais certeiras, Nate Silver escreveu um bestseller onde disseca seus esforços para distinguir entre informações úteis e confiáveis – que podem ser utilizadas para informar modelos preditivos – e aquelas que não são, conhecidas como ruídos.

Doing Data Science, por Cathy O'Neil e Rachel Schutt

Este livro é a base do curso Introdução à Data Science da Columbia University, uma das mais famosas universidades americanas.