13 de jul de 2018

O que é data mining? Entenda esse campo que envolve inteligência artificial e data science

Udacity Brasil

De maneira bastante resumida, data mining é um campo multidisciplinar que envolve inteligência artificial e data science e utiliza ferramentas diversas para encontrar padrões e/ou relações em conjuntos e bases de dados, prevendo possíveis resultados.

Neste artigo especial, você aprenderá mais sobre o tema:

Aprenda estatística descritiva com este curso gratuito da Udacity

O que é data mining?

Existem algumas definições de data mining, ou mineração de dados. A Oracle, empresa multinacional de tecnologia e informática, que tem como um de seus principais produtos o sistema gerenciador de banco de dados (SGBD), define mineração de dados como:

Data mining é a prática de pesquisar grandes bases de dados automaticamente para descobrir padrões e tendências para além de análises simples. Data mining usa sofisticados algoritmos matemáticos para segmentar os dados e avaliar a probabilidade de eventos futuros.

Por sua vez, na famosa enciclopédia online Wikipedia, lemos a seguinte definição:

Prospecção de dados ou mineração de dados (também conhecida pelo termo inglês data mining) é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou sequências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.

Já no livro Data Mining and Analysis: Fundamental Concepts and Algorithms, os autores Zaki e Meira Jr conceituam mineração de dados da seguinte maneira, em tradução livre:

Data mining é o processo de descobrir padrões perspicazes, interessantes e novos, bem como modelos descritivos, compreensíveis e preditivos a partir de dados de grande escala.

Partindo de seu nome metafórico – mineração de dados – e das definições acima, podemos responder ao que é data mining como o processo que permite explorar grande quantidade de informações para buscar as tendências presentes, os padrões e/ou as relações entre variáveis.

Suas propriedades principais são:

  • Lidar com muitos dados
  • Automatizar a descoberta de padrões
  • Predizer resultados
  • Gerar informações acionáveis

Não à toa, data mining e big data estão muito ligadas, visto que a exploração de dados mais tradicional não consegue dar conta nem da quantidade nem dos tipos de dados presentes, que podem ser estruturados ou não estruturados.

Atualmente, a disponibilidade de informação é imensa. Segundo a IBM, a produção diária de data ultrapassa os 2,5 bilhões de gigabytes – isso numa famosa afirmação em 2013, certamente hoje a quantidade é ainda maior.

Para lidar com isso, uma das soluções foi o big data, tópico que discutimos neste post especial e que é ludicamente abordado neste vídeo sobre como a exploração desses dados foi pensada:

Diante disso, podemos perceber que não adianta ter dados valiosos se não pudermos extrair valor dessas informações. Seja para lidar com imenso volume, seja para lidar com bases mais modestas, é preciso minerar com as data mining tools, que tratamos a seguir.

E se você ainda não se convenceu de que data mining pode ser para você, veja essa TED Talk de Rebecca Nugent, professora da Carnegie Mellon University, sobre como a data science é importante para as mais diversas áreas, incluindo as humanidades:

Técnicas de data mining

Para que uma base de dados seja adequada para a mineração, ela deve ser confiável e representar o objeto a ser investigado. Pesquisadores e estudiosos desenvolveram o processo KDD (Knowledge Discovery in Databases), que em português é chamado de Extração de Conhecimento.

Tal processo propõe que as descobertas envolvam as seguintes fases:

  1. Seleção do conjunto de dados que dará origem ao data warehouse
  2. Processamento dos dados
  3. Transformação dos dados (etapa que localiza as informações úteis nestas bases)
  4. Mineração de dados (onde são definidas as tarefas e as técnicas que vão extrair os padrões)
  5. Análise e interpretação dos dados

O que vai gerar valor é saber quais técnicas e ferramentas são adequadas e quando usá-las, já que é preciso ter o know how para saber quando aplicá-las do jeito correto. Daí a importância de uma boa equipe de ciência e análise de dados, como discutimos neste artigo.

A mineração de dados ou data mining possibilita explorar grande conjunto de dados ao empregar ferramentas e técnicas incluindo aquelas de inteligência artificial, machine learning e estatística.

As suas principais técnicas envolvem predições, classificação, clusterização, detecção de outliers, regras de associação, séries temporais, análise de redes sociais e de sentimento, dentre muitas outras.

Abaixo, explicamos algumas das técnicas mais populares e que contam com o apoio de muitos analistas para a mineração de dados eficaz:

Leia também: Conheça o mercado de data science em 4 webinars gratuitos

Estatística

Alguns analistas não consideram a estatística uma técnica de data mining. Contudo, é inegável que esta ajuda a encontrar padrões e construir modelo preditivos. Inclusive, com a estatística é possível encontrar anomalias nos dados, os famosos outliers, para entender melhor mudanças nos processos.

Clusterização

Existem diferentes tipos de clusterização. Basicamente, ao segmentar os dados, é possível encontrar as semelhanças e as diferenças entre eles. Se assemelha à classificação (citada mais abaixo), mas ela separa os dados em grupos por semelhança. Abaixo, vemos um vídeo sobre clusterização que exemplifica esta técnica:

Associação

Ajuda a descobrir padrões escondidos entre uma ou mais variáveis na base de dados, encontrando correlações fortes entre eventos ou atributos. Um exemplo comum são os sites de e-commerce que sugerem a compra de um novo produto com base nos pré-selecionados ou visualizados.

Redes neurais

Inspirado nas redes neurais humanas, especialmente vindas da IA e aplicadas nos estágios iniciais de data mining, essas redes possibilitam verificar as ligações entre nós e laços. Possibilita verificar, por exemplo, a força de determinados agrupamentos, as relações e suas hierarquias. Neste vídeo-aula da Udacity, há uma abordagem inicial sobre o tema:

Árvore de decisão

Baseados em inferência indutiva, ao classificar os dados com entradas e saídas, sua construção se assemelha a uma árvore, formando um mapa que geralmente começa de um nó e se divide em possíveis resultados. No link abaixo, o tutor mostra um exemplo em aula da Udacity:

Classificação

Parecida com a clusterização, é uma técnica complexa que muitas vezes também usa as árvores de decisão e as redes neurais para classificar os dados. Serve para discernir as categorias na intenção de gerar insights. O Score Serasa é um caso neste sentido ao dividir consumidores entre os mais e os menos propensos a pagar suas contas em dia.

Visualização

Criar visualizações que permitam enxergar melhor os dados é fundamental em muitos casos. Muitas vezes, um gráfico simplifica a compreensão das informações, como demonstra este vídeo da Udacity:

Predição

Como o nome sugere, ajuda a prever os dados que veremos no futuro. Muitas vezes, só de verificar tendências históricas, fica fácil compreender eventos vindouros. O risco de não honrar as dívidas pode ser estimado, por exemplo, com base no histórico de inadimplência.

Leia também: 3 exemplos de bancos de dados usados no dia a dia por quem trabalha com Big Data

Como apresentar suas descobertas

E após aplicar essas técnicas, o que fazer? Ao descobrir padrões e relações, estes podem ser apresentados de maneiras diversas, tais como:

Regras

Aas regras de associação busca verificar os relacionamentos entre elementos de uma base de dados. Sugerimos a leitura desse artigo que trata com detalhe suas aplicações.

Grafos

Ramo da matemática, emprega nodos, arestas e outras propriedades que representa visualmenten a relação entre objetos de um determinado conjunto. Hipóteses: a formulação de hipóteses serve para que observações sejam testadas a fim de verificar regras, padrões, relações e/ou outras propriedades observáveis dos dados.

Agrupamentos

Como o nome sugere, ferramentas de data mining podem agrupar por afinidade parte dos dados de uma base. Por exemplo, numa base sobre clientes de determinada empresa, é possível clusterizá-los segundo alguns critérios, tais como a quantia gasta e o tipo de produto mais adquirido.

Por que data mining é interdisciplinar

É bastante coisa para lembrar. Não é à toa que existem muitas dúvidas sobre as diferenças entre data mining, banco de dados, estatística, inteligência artificial, machine learning e dataware house, por exemplo: elas são necessárias entre si.

Sem a estatística, o data mining não seria possível, visto que é a base de boa parte das tecnologias faz uso dessa área do conhecimento, especialmente as que lidam com dados. Já a inteligência artificial (IA) busca imitar o comportamento humano, ou seja, a partir de fundamentos heurísticos – não estatísticos – emula o nosso pensamento ao resolver problemas.

Foi da IA que derivou o machine learning (aprendizagem de máquinas) e, com seus algoritmos, informações passaram a ser automaticamente extraídas e aprendidas. Isso, por fim, criar modelos preditivos que discutiremos isso mais adiante em uma seção específica.

Além disso, uma mineração feita corretamente produz repositórios organizados – e daí vem a ligação entre data mining e data warehouse, já que este é um banco organizado que auxilia na tomada de decisões.

O ponto é: todos as etapas trazidas acima podem ou não fazer parte dos mesmos processos, com alguns sendo até complementares na mesma etapa, mas são áreas diferentes.

Data mining vs machine learning?

Considerado fruto de um casamento entre a heurística da inteligência artificial e a análise estatística, machine learning é uma disciplina científica que tem como um de seus principais objetivos desenvolver algoritmos para que computadores aprendam com base em dados, buscando automatizar o reconhecimento de padrões e a tomada de decisões.

Neste vídeo feito em parceria com a Udacity, Marcelo Tas explica o que é machine learning de maneira didática:

É compreensível que haja uma busca recorrente por termos como “Data Mining vs Machine Learning”, justamente porque existem situações em que ambos empregam os mesmos métodos e se sobrepõem em processos envolvendo dados.

É bem comum que os métodos de machine learning sejam usados em data mining. Por sua vez, machine learning também utiliza métodos de data mining, tal como o “unsupervised learning” (aprendizagem não-supervisionada), geralmente aplicado em tarefas de agrupamento de bancos de dados em diferentes tipos de acordo com alguma similaridade. Portanto, enquanto no aprendizado de máquina se busca reproduzir e predizer a partir de propriedades já conhecidas, na mineração de dados a intenção é identificar o desconhecido.

A Udacity possui uma trilha de cursos para quem quer se capacitar como engenheiro de machine learning, uma área promissora que, como vemos, dialoga bastante com data mining. Para os interessados, vale a pena conferir o curso neste link.

Leia também: 6 razões para escolher programar em Python

Uso da linguagem R e outras ferramentas em data mining (data mining tools)

Até agora, já vimos diversas técnicas de data mining populares nos dias de hoje. Para aplicá-las, no entanto, é preciso dominar algumas habilidades, como programação, estatística e análise de dados.

Abaixo, você encontra explicações sobre algumas habilidades essenciais no dia a dia do profissional que lida com data mining e onde aprendê-las.

R Data Mining

Uma das grandes vantagens da linguagem R é que ela é gratuita e faz parte de uma comunidade ampla que colabora para seu aprimoramento. São muitos pacotes que possibilitam manipular e armazenar dados diversos. Este site traz uma abordagem bem completa sobre como minerar dados com R.

Além disso, o Nanodegree Data Scientist é a última etapa da trilha de cursos para quem quer se capacitar profissionalmente como cientista de dados, uma das profissões mais promissoras do século. Em um dos módulos, você pode aprender os principais comandos de R.

Python

Python é uma linguagem que está sempre entre as mais usadas por profissionais de dados. Além de também ser aberta com uma comunidade ativa, possui muitas bibliotecas que facilitam o trabalho com dados. Nesta postagem, abordamos 15 dessas ferramentas.

É possível aprender Python tanto no Nanodegree Fundamentos de Data Science I quanto no Nanodegree Introdução à Programação, que ensina a linguagem em um de seus módulos. Há também um curso gratuito da Udacity, Fundamentos da Programação com Python, que dura 6 semanas.

Alteryx

Durante o curso Nanodegree Analista de Dados, que faz parte da trilha de data science da Udacity, você aprende a usar o Alteryx, limpando, filtrando e combinando dados sem necessidade de aprender a programar.

Estatística

No curso gratuito Introdução à Estatística Descritiva, que dura 2 meses, você aprende os conceitos de estatística necessários para analisar dados. Também é possível pagar R$ 99 para participar da Udacity Experience, que inclui um certificado para concluintes e um projeto exclusivo revisado por experts da área.

Outras ferramentas de data mining

Existem muitas outras ferramentas e técnicas de data mining. A tabela abaixo é uma reprodução de publicação do Dev Media feita com um ótimo detalhamento que inclui as tarefas realizadas pelas data mining tools.

Leia também: Desenvolvido em blockchain: Udacity lança websérie sobre blockchain

Data mining: exemplos reais

Como já vimos, data mining possibilita integrar redes complexas de um processo. Não à toa, auxilia equipes a tomarem decisões muito mais assertivas. Pode ser utilizada para identificar tipos de clientes, evitar fraudes, identificar perfis eleitorais, indicar diagnósticos mais precisos na medicina e tantos outros usos.

Veja alguns exemplos reais de data mining em ação a seguir:

Identificar potencial de clientes

A mineração de dados possibilita predizer se um futuro cliente é um potencial adimplente ou inadimplente, identificar perfis de clientes, prevenir fraudes, verificar padrões de cada região. Outro uso comum do data mining marketing é quando um produto é oferecido para um consumidor com base no histórico de suas escolhas e no de outros que têm um comportamento de compras parecido. Quem faz compras pela internet já deve ter se deparado com mensagens como “Quem viu isso, levou este produto” ou algo parecido.

Muitos sites de e-commerce utilizam data mining e business intelligence (BI) para oferecer cross sell e up sell. De um jeito simples, cross sell consiste em oferecer um produto complementar, e up sell oferece um adicional ao produto ou serviço.

Quando se compra uma televisão e o vendedor sugere uma versão melhor, trata-se do segundo caso. Mas, se ao buscar adquirir uma televisão e o vendedor sugerir comprar um home theater, seria o primeiro caso. Com técnicas sofisticadas de data mining, esses e outros tipos de usos se tornam cada vez mais comuns e eficazes.

Toda vez que uma pessoa faz compra e esses dados são devidamente armazenados, tratados e analisados, é possível predizer o comportamento de consumo e até mesmo o que a mudança dele significa. O caso de uma rede varejista norte-americana ficou famoso porque desenvolveu métodos que conseguiam, inclusive, verificar se uma cliente estava grávida, se algum estava de mudança ou havia se separado, por exemplo.

Prevenção de crimes

Outro exemplo é o uso em agências de investigação e prevenção de crimes, que utilizam dados para tentar prever quais locais, épocas, dias e tipos de crimes estão mais propensos a ocorrer. Uma realidade parecida é retratada em Minority Report, famoso filme de ficção científica em que crimes são evitados antes que aconteçam – embora ainda não tenhamos chegado lá.

E não é de hoje. Nesta matéria do jornal _The New York Times_ publicada dez anos atrás, a reportagem mostra como o programa de segurança nacional do governo federal norte-americano já planejava usar data mining como meio de prevenção de terrorismo.

Por fim, um uso diferente dos apresentados anteriormente é a robótica móvel, uma aplicação de inteligência artificial que se relaciona com a mineração de dados. Dito de uma forma simplificada, quando um robô móvel coleta dados a partir de seus sensores, o uso de algoritmos de mineração de dados apropriados pode tornar o processo mais confiável e rápido.

Data mining: livros e outras referências

Quando se trata de data mining e livro, trazemos algumas indicações de leituras sobre o tema.

Na postagem Top 5 Data Mining Book for Computer Scientists são elencados livros para aqueles que planejam desenvolver algoritmos de mineração de dados e entender tópicos mais avançados.

Introduction to data mining, por Pang-Ning Tan, Michael Steinbach, Vipin Kumar (2006)

Como o nome sugere, é uma abordagem introdutória que perpassa pelos principais tópicos da mineração e dados.

Data Mining Concepts and Techniques, por Jiawei Han, Micheline Kamber, Jian Pei (2013)

Tal como o livro anterior, aborda os tópicos principais. Contudo, aqui tem um formato mais enciclopédico, ou seja, aborda muitos assuntos sem entrar em grandes detalhes.

Data Mining and Analysis Fundamental Concepts and Algorithms, por Mohammed J. Zaki,‎ Wagner Meira Jr (2014)

Indicado para cientistas da computação, cobre os principais tópicos da mineração de dados e apresentar algoritmos detalhados.

Data Mining: The Textbook, por Charu C. Aggarwal (2015)

Além de tratar sobre os principais tópicos e em aspectos mais avançados, traz conteúdos não presentes em outras literaturas sobre data mining. Em outras palavras, aborda novidades como séries temporais, graph mining e mineração em redes sociais.

The Elements of Statistical Learning, por Trevor Hastie, Robert Tibshirani, Jerome Friedman (2016)

Livro de estatística que, por abordar técnicas usadas em data mining, é uma leitura indicada para o público que deseja aprender mais sobre minerar dados. A obra trata de redes neurais, associação, regressão, clusterização e outros tópicos.

Outros livros sobre data mining

Guia completo para começar uma carreira em data science, por Udacity (2018)

Quer saber como iniciar sua formação em data science e trabalhar com data mining? Baixe este e-book gratuito criado pela Udacity para orientar suas escolhas.

Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking, por Foster Provost e Tom Fawcett (2013)

Livro que dialoga com a área de negócios e trata sobre abordagens analíticas necessárias para extrair valor dos dados.

Introdução à ciência de dados, por Fernando Amaral (2015)

Livro em português que aborda o mundo da ciência de dados e big data e, em seguida, a prática de como lidar com os dados, tratando com clareza sobre a mineração de dados e demais técnicas analíticas.

R and Data Mining: Examples and Case Studies, por Yanchang Zhao(2015)

Disponível em PDF, traz alguns estudos de caso reais de data mining com R.

Data Mining: practical machine learning tools and techniques, por Ian H. Witten, Eibe Frank, Mark A. Hall, Christopher J. Pal (2016)

Abordagem prática sobre data mining relacionada a machine learning (aprendizagem de máquina).

Referências e artigos de data mining

Quando se trata de data mining e artigos, trazemos algumas leituras de artigos publicados online para quem quer se aprofundar ainda mais no tema.

Data Mining techniques: mostra como data mining se trata de um processo com diversas técnicas e etapas.

Mineração de Dados com Software Livre: o artigo explica sobre ferramentas que possibilitam minerar dados gratuitamente e indica leituras adicionais.

Mineração de dados: aplicações, ferramentas, tipos de aprendizado e outros subtemas: trata-se de entrevista realizadas com profissionais de Data Mining, publicada num periódico da Universidade Federal do Paraná (UFPR). São apresentados conceitos, características, limites e potencialidades da mineração de dados.

Data Mining Concepts: neste link, a Oracle disponibiliza sua documentação completa sobre Data Mining.

Data Mining and Knowledge Discovery: é um periódico científico bem avaliado pela comunidade acadêmica, que desde 1997 publica sobre o tema.

Cursos de data mining

Em outras seções, já demos algumas dicas sobre como aprender sobre mineração de dados. Nesta seção de cursos de data mining, apresentamos algumas opções de cursos de tecnologia dentro da plataforma da Udacity Brasil.

Alguns de nossos cursos rápidos online são abertos e abordam tópicos importantes para a mineração de dados.

O curso Introdução à Ciência de Dados vai trazer o essencial sobre o que é preciso para ser cientista de dados. O conteúdo está em inglês. Já Intro to Hadoop and MapReduce vai ensinar como é feito o processamento por big data.

Um pouco mais avançado, mas ainda sobre o mesmo tópico, é o curso CSE 8803 Special Topics: Big Data feito em parceria com a Georgia Tech e indicado para estudantes mais familiarizados com essas tecnologias.

Para quem planeja realizar cursos com certificado online com reconhecimento, também oferecemos opções de programas Nanodegree em português e com suporte individualizado de profissionais.

Da trilha de data science e machine learning da Udacity, há três caminhos que você pode seguir para se capacitar profissionalmente nessas áreas:

Analista de dados

Nesta trilha, você aprenderá fundamentos de análise de dados, como usar SQL, estatística e visualização de dados para tomar decisões com base em dados. Ainda aprenderá usar Data Mining Excel e o software Alteryx, que permite minerar dados sem necessidade de saber programar.

Conheça mais sobre os Nanodegree:

Cientista de dados

Nessa trilha de carreira, além de SQL, estatística e visualização de dados, você irá aprender a usar R e Python, criar algoritmos preditivos e a coletar dados com programação.

Conheça mais sobre os Nanodegree:

Engenheiro de Machine Learning

Com Python e estatística, você aprende a utilizar algumas das técnicas que mencionamos anteriormente, tais quais redes neurais, aprendizagem supervisionada e não-supervisionada, entre outras. Com essa trilha da Udacity, é possível também se especializar em deep learning e diversas outras áreas de inteligência artificial.

Conheça mais sobre os Nanodegree:

Leia também:

Sobre o autor
Udacity Brasil

A Udacity, conhecida como a "Universidade do Vale do Silício", é uma plataforma online e global que conecta educação e mercado para ensinar as habilidades do futuro – de data science e marketing digital à inteligência artificial e desenvolvimento. Hoje, há mais de 7 mil alunos ativos no país e 50 mil pelo mundo.