4 de jun de 2018

O que é estatística? Conheça tipos de estudo e ferramentas populares

Udacity Brasil

O que é estatística? A American Statistical Association (ASA, no português Associação Americana de Estatística) define estatística como a ciência de medir, controlar e comunicar incertezas por meio de dados.

Neste artigo, você descobre o que isso de fato significa estatística, um campo que está presente em todas as áreas que constroem modelos e coletam, tratam e analisam dados.

O que é estatística?

Há uma outra definição de “O que é estatística” presente na Wikipedia, a famosa enciclopédia online: “Estatística é a ciência que utiliza-se das teorias probabilísticas para explicar a frequência da ocorrência de eventos, tanto em estudos observacionais quanto em experimentos para modelar a aleatoriedade e a incerteza de forma a estimar ou possibilitar a previsão de fenômenos futuros, conforme o caso.”

Com essas definições não encerramos o debate sobre o que é estatística e certamente existem muitos caminhos explicativos para o conceito de estatística.

Mas demos um bom pontapé para iniciar este aprendizado. Trata-se de um campo do conhecimento que ajuda na análise e interpretação de dados. Ou seja, que lida com dados para prover informações sistematizadas e que está presente, portanto, em todas as áreas que constroem modelos e coletam, tratam e interpretam essas informações.

Sem dúvidas você já viu informações ligadas à estatística na sua vida, das manchetes de jornais sobre índices de desemprego e questionários de satisfação após ser atendido por algum serviço aos censos demográficos feitos pelos institutos oficiais.

Não é à toa. A estatística é fundamental para a tomada de decisões, visto que pode nos prover as melhores conclusões com os dados que estão disponíveis. Neste artigo, abordaremos também a história da estatística, para que serve a estatística, exemplos de estatística, tipos de estudos e como aprender esse importante ramo da ciência.

Um pouco da história da estatística

Como tudo isso começou?

Acredita-se que o início da estatística está nos primeiros censos, feitos há mais de 3000 anos A.C pelas primeiras civilizações, como a chinesa, egípcia e babilônica. Naquele período, já havia coleta e tratamento de informações estratégicas para uso de informações relevantes, desde o levantamento sobre homens aptos para guerra a dados sobre as colheitas agrícolas.

Pela necessidade de Estados conhecerem características como população e território, não por acaso a palavra estatística vem da expressão latina statisticum collegium ("conselho de Estado") e do italiano statista (“estadista”).

A coleta e o tratamento de dados permaneceram sendo feitos no decorrer da história. Entretanto, foi no século XVII que a estatística começou a ganhar mais relevância, movida pela preocupação em mensurar os fenômenos sociais e políticos. Com isso, a disciplina que era definida como subárea da matemática voltada para o comportamento dos dados foi se tornando cada vez mais autônoma e independente.

Apenas para mencionar alguns nomes importantes nesta história:

  • Karl Pearson (1857-1936): colaborou fortemente com a teoria da Análise de Regressão e do Coeficiente de Correlação influenciado pela teoria de Darwin sobre mudanças aleatórias
  • William Sealey Gosset (1876-1937): foi um grande responsável por testes usados para distribuição de probabilidade estatística, inclusive criou um dos mais famosos teste de hipóteses, o t Student. Veja mais informações sobre neste link
  • Andrey Kolmogorov (1903-1987): desenvolveu a teoria da probabilidade.

Para os mais curiosos, vale a pena explorar a [página da University of York] (https://www.york.ac.uk/depts/maths/histstat/lifework.htm) com os nomes e as contribuições de importantes personagens da história da estatística e este outro link da mesma universidade com informações complexas sobre o percurso da disciplina.

Hoje considerada uma disciplina independente que usa métodos matemáticos, a estatística tem na colaboração paradigmática de Ronald Aylmer Fisher (1890-1962) um ponto importante de inflexão.

Nos anos de 1920, tal pesquisador estabeleceu a estrutura amplamente aceita da moderna estatística analítica, colaborando fortemente para uma mudança na noção de determinismos para probabilidades.

Mas, o que isso quer dizer? De maneira simples, que a visão dos fenômenos como determinações que produzem sempre os mesmos resultados deu lugar a uma perspectiva que parte das incertezas. E, claro, a estatística e a probabilidade foram importantes para consolidar essas novas abordagens.

Portanto, sem o trabalho de muitos estudiosos e as aplicabilidades das suas descobertas, com seus erros e acertos, a estatística não teria a importância atual que possui. Parafraseando Albert Einstein, foi sobre os “ombros de gigantes” que a estatística chegou onde está hoje.

A disciplina revolucionou os métodos de pesquisa nas ciências, aumentando a confiabilidade dos resultados, como nos indica a leitura mais lúdica do livro Uma senhora toma chá: como a estatística revolucionou a ciência no século XX, de David Salsburg.

Na atualidade, é notável como as novas tecnologias, boa parte delas ligadas às análises estatísticas viabilizadas pela computação, influenciam na popularização e na importância desse campo.

Para que serve a estatística?

Afinal, para que serve a estatística? Uma resposta simples: serve para muitas coisas! Estamos rodeados por dados estatísticos, desde os resultados de questionários que respondemos sobre qualidade de serviços prestados, passando pelos índices econômicos divulgados em mídias, até os censos demográficos sobre o país em que vivemos.

Como discutimos previamente, a estatística pode ser utilizada em todas as ciências. A partir de seus métodos para planejamento, coleta, tratamento, organização e análise de dados, é possível extrair importantes conclusões.

Sem dúvidas é uma das áreas com maior potencial interdisciplinar, uma vez que pode ser usada por diferentes campos de pesquisas e setores de trabalho: tecnologias de informação, inteligência de mercado, bioestatística, estatística computacional, pesquisas no geral, marketing, indústria, ciências sociais, data science, dentre outros.

Não é à toa que profissionais com essa capacidade estão sendo cada vez mais em alta no mercado de trabalho. Segundo estudos do Linkedin sobre as competências técnicas mais procuradas pelos recrutadores, a estatística figura entre as cinco primeiras há alguns anos, tendo ficado em 2º lugar ano passado (2017).

Uma informação famosa que circula na rede é a de que 90% dos dados armazenados atualmente foram produzidos em anos recentes. Em uma matéria da revista Exame, a chamada é de que os conteúdos digitais dobram a cada dois anos no mundo.

E segundo a IBM, gigante da tecnologia, "todos os dias, 2,5 bilhões de gigabytes de dados de alta velocidade são criados em diversas formas, como posts nas redes sociais, informações coletadas em sensores e dispositivos médicos, vídeos e registros de transações ".

Contudo, a maior parte dessa informação não está organizada. Pelo contrário: são dados valiosos, mas dispersos. “A IDC estima que, do total de dados no mundo, apenas 22% contêm informação útil. E apenas 5% foram analisados e utilizados de alguma forma”, escreve a Exame.

Estes dados necessitam, portanto, de profissionais qualificados para coletá-los, limpá-los e tratá-los. Ou seja, profissionais que, dentre outras coisas, conhecem estatística e a utilizam como fundamental aliada.

Alguns tipos de estudos estatístico

Tendo em vista uma distinção mais simples da estatística, podemos dividi-la em pelos menos duas áreas principais: a descritiva e a inferencial.

Estatística descritiva

Como o próprio nome sugere, a estatística descritiva descreve os dados coletados, compondo parte de análises exploratórias. É possível construir tabelas, gráficos e usar medidas para resumir e descrever dados.

Dentre essas medidas podemos citar as de tendência central – média, mediana e moda – e as de dispersão – tais como amplitude, distância interquartil e desvio padrão.

Estatística inferencial

A estatística inferencial permite testar hipóteses ou fazer estimativas a partir de amostras obtidas de dados.

Antes de continuar é preciso entender o que significa população e sua diferença em relação à amostra: população é todo o conjunto de elementos dentro de determinado recorte de pesquisa, já a amostra é composta por parte dessa população.

Tomemos como exemplo uma pesquisa sobre torcedores de um determinado time. Muito provavelmente, a análise será feita a partir da coleta de uma amostra aleatória em vez de todo grupo estudado (população). Isso ocorre por vários motivos, tais como a inviabilidade financeira e logística de realizar uma pesquisa com imenso volume de dados.

Com base nessa amostra, podem ser feitos, apenas para elencar alguns exemplos de análises estatísticas: testes de hipóteses, análises multivariadas de dados e estimativas.

É possível, inclusive, produzir modelos com análises inferenciais com a finalidade de antecipar resultados e prever comportamentos, tornando a elaboração de estratégias bem mais eficientes e assertivas. Por isso, para os profissionais que precisam se antever a futuros eventos, a estatística é conhecimento fundamental.

O que é um estudo estatístico?

Em resumo, um estudo estatístico feito com rigor leva em consideração as definições, o recorte de pesquisa, as possibilidades e limitações de cada análise.

No vídeo abaixo de uma das aulas da Udacity, o tutor explica rapidamente a diferença entre a estatística inferencial e a estatística descritiva:

Para aqueles que querem buscar mais informações a respeito das previsões, recomendamos a leitura deste post da Udacity sobre análises preditivas.

Exemplos de estatística: usos na prática

Conforme vimos anteriormente, a disciplina serve para diversos fins. Vamos a alguns exemplos de estatística na prática para ilustrar ainda mais esses usos:

Teste A/B

Já pensou em comparar duas possibilidades de maneira confiável? O Teste A/B permite isso! Não é à toa que muitos publicitários estudam estatística aplicada ao Marketing. Este teste citado é muito comum no marketing digital e e-commerce, tem seu potencial extrapolado para todos aqueles que almejam verificar qual das ideias vai trazer mais resultados na prática, permitindo a tomada de decisões com base em números, não em suposições.

Este curso online gratuito da Udacity traz uma abordagem teórica com simulação prática desse teste para decidir qual a melhor de duas versões possíveis de site.

Por conta de sua popularidade, existem muitas ferramentas e softwares de automação de marketing que auxiliam na sua realização, facilitando o trabalho de quem não domina estatística.

Para quem busca mais informações, há os dois vídeos abaixo:

Instrutores da Udacity falam sobre a importância do Teste A/B para startups

Um trecho de uma aula online sobre o teste em si: quais são os fundamentos de um Teste A/B?

Surveys

Surveys são bem populares em pesquisas sociais e comportamentais para mensuração quantitativa, geralmente feitos em formatos de questionários. Como podemos confirmar no vídeo abaixo, são amplamente usados por vários motivos, dentre os quais o fato de serem relativamente baratos.

É o modo mais simples de obtenção de dados sobre populações e, especialmente em tempos online, podem ser conduzidos à distância em determinados casos:

Vídeo da Udacity destaca as vantagens de surveys

Análises preditivas

Para as análises preditivas, uma área em ampla ascensão é a aprendizagem de máquina, ou Machine Learning (ML). Vale ressaltar que são coisas diferentes: estatística é uma coisa e ML é outra.

Segundo a própria definição do curso da Udacity: “Machine learning possibilita a construção de sistemas que aprendem e se otimizam automaticamente com dados, e tudo isso coloca a aprendizagem de máquina na vanguarda absoluta de praticamente qualquer campo que se baseia em dados, como saúde, educação, esportes e muitas outras”.

Neste sentido, algumas técnicas estatísticas são importantes em combinação com a computação na medida que, ao identificar padrões e/ou correlações em dados a partir de diversas análises (feitas, por exemplo, com clustering, regressão linear e regressão múltipla), as ferramentas permitem uma compreensão mais abrangente nessa área.

A partir de análises preditivas, algoritmos de machine learning podem ser capazes de prever comportamentos futuros e desempenhar tarefas por conta própria. O vídeo abaixo, feito por Marcelo Tas em parceria com a Udacity, explica de maneira bem didática seus usos:

Ferramentas para trabalhar com estatística

Felizmente existem ótimas ferramentas no mercado para trabalhar com estatística! Muitas delas são, inclusive, gratuitas e têm comunidades ativas, algo muito importante tanto para quem está começando (e portanto tem dúvidas) quando para quem já tem conhecimentos avançados (e quer avançar cada vez mais).

Destacamos duas importantes linguagens de programação importantes para isso: Python e R.

Python

Trata-se de uma linguagem de programação com amplos usos e que tem se mostrado cada vez mais importante para os cientistas de dados. Com muitos módulos e pacotes úteis, tais como Matplotlib, Numpy, Pandas e Stats Models, otimiza o trabalho de coleta, tratamento, análise e visualização de dados. É uma das linguagens mais fáceis e versáteis hoje, com uma curva de aprendizado bastante curta.

R

R é uma linguagem de programação para análise de estatística e visualização de dados bem popular. Com mais de 30 anos de existência e contribuição ativa de usuários, conta com ótima variedade de técnicas que permitem o processamento de grande volume de dados. Não por acaso, é bastante adotada como linguagem padrão em análises estatísticas desde o meio acadêmico até as gigantes tecnológicas do mercado.

Outras ferramentas e linguagens de programação úteis

Além de Python e R, existem muitas outras linguagens e ferramentas.

SQL, ou Structured Query Language ou Linguagem de Consulta Estruturada, permite a realização de alguns cálculos estatísticos a partir de de consultas avançadas em bancos de dados relacionais. Saiba mais sobre bases de dados relacionais neste post.

Impossível não mencionar o clássico Microsoft Excel, que não demanda conhecimento em programação e faz parte do amplamente conhecido e utilizado pacote da Microsoft Office. Além dos cálculos estatísticos, permite a plotagem de gráficos.

Como estudar estatística?

Para quem não pretende fazer uma faculdade a distância ou presencial completa de estatística, como contato inicial, a Udacity oferece várias opções de cursos online gratuitos. Para começar, indicamos:

Introdução à Estatística

Este é um curso online de estatística básica. Você vai começar a ter contato com a disciplina,aprendendo sobre técnicas para visualização de relacionamento em dados e técnicas sistemáticas para compreender relações usando matemática.

Estatística Descritiva

Muito indicado para análises exploratórias, este curso vai trazer conhecimentos estatísticos para descrição de dados, incluindo tópicos sobre as medidas de tendência central e de dispersão.

Estatística Inferencial

Este curso de estatística inferencial ensina como introduzir técnicas para a visualização de relacionamentos em dados e técnicas sistemáticas para compreender relações usando matemática.

Programas Nanodegree

Para quem quer uma abordagem mais profunda e busca um certificado reconhecido, recomendamos realização de programas Nanodegree, cursos de tecnologias de curta duração com conteúdo denso e aplicável para o mercado.

Conhecida como Universidade do Vale do Silício, a Udacity usa estatística em diversos de seus cursos, especialmente na área de data science, onde faz parte da trilha de cientista de dados, analista de dados e engenheiro de machine learning.

Saiba um pouco mais sobre cada profissão abaixo:

Analista de dados

É capaz de utilizar dados para extrair insights de negócios. Este profissional não precisa ter bases matemáticas ou de pesquisa para inventar novos algoritmos

Cientista de dados

Sabe como manipular um volume maior de dados e tem conhecimentos específicos de programação e estatística, além de uma visão de negócio holística para interpretar resultados e entregar recomendações.

Engenheiro(a) de Machine Learning

Seu trabalho é criar softwares capazes de se aprimorar constantemente (tanto de maneira supervisionada quanto não supervisionada). Tem conhecimentos de Python, estatística e avaliação de modelos.

Interessado nessa carreira promissora que utiliza estatística como base? A Udacity também elaborou um guia de carreira gratuito para auxiliar quem quer iniciar sua formação em data science e entender mais sobre este mercado.

Leituras e referências

Para quem quer saber mais sobre estatística, aqui estão indicações de leitura:

Sites interativos

Seeing Theory – A visual introduction to probability and statistics

Para quem sabe inglês e quer uma introdução à probabilidade e estatística, o site Seeing Theory – A visual introduction to probability and statistics]((https://students.brown.edu/seeing-theory, da Brown University, traz um ótimo conteúdo com interatividade.

Livros para aprender R

O Instituto Brasileiro de Pesquisa e Análise de Dados indica 5 livros para quem quer aprender R:

R Cookbook, por Paul Teetor

Não é tão voltado para aqueles que já dominam a estatística e conhecem outras linguagens de análises, pois seu foco é mais na linguagem. Portanto, indicado para os que almejam aprender sobre estruturas de dados, sintaxe e operações em R.

Discovering Statistics using R, por Andy Field, Jeremy Miles e Zoe Field

Como o próprio título sugere, este é para o público que realmente não teve contato nem com o R nem com estatística. Por ser mais básico, é indicado mais como primeira leitura.

ggplot2: Elegant Graphics for Data Analysis, por Hadley Wickham

Trata-se de uma introdução a uma das melhores bibliotecas para visualização de dados para R e Python, a ggplot2.

The Art of R Programming, por Norman Matloff

Manual de R com o foco em programação. De nível intermediário, é ideal para quem já tem uma base em data science e pretende avançar mais.

Advanced R, por Hadley Wickham

Esta última indicação é para os que já tem certa fluência na linguagem. O título entrega: trata-se de um livro para quem quer de fato ser proficiente em R.

Livros sobre estatística

O site Manipulando Dados sugeriu algumas leituras mais lúdicas sobre o que é estatística, história da estatística, para que serve a estatística, estatística exemplos e mais curiosidades, esta postagem elenca 5 livros interessantes sobre o tema:

O Andar do Bêbado, por Leonard Mlodinow

A leitura deste best-seller agradou muitos leitores ao redor do mundo. A leitura é descontraída e trata sobre como a estatística nos possibilitou compreender o acaso.

Uma Senhora Toma Chá, por David Salsburg

Uma leitura um pouco mais profunda que a anterior, o autor vai tratar sobre como a estatística se consolidou como conhecimento mais autônomo, revolucionou a ciência e está presente em várias dimensões de nossas vidas.

Os Números do Jogo, por Chris Anderson e David Sally

Para quem tem interesse por estatística e gosta de futebol, é um prato cheio. Nos dias de hoje, as análises de dados estão influenciando as eções de vários segmentos, e um deles é o esporte. Qual a melhor formação do time? Como cobrar a falta? O livro traz abordagens sobre como a estatística está sendo usada por profissionais que ajudam a traçar as melhores estratégias em campo.

O Guia Mangá de Estatística, por Shin Takahashi

Aprender estatística lendo mangá? Sim, é possível com este livro para iniciantes, indicado para públicos diversos. Pode ser uma boa para estudantes de ensino médio que ainda estão indecisos sobre que área profissional seguir.

Como mentir com estatística, por Darrel Huff

Sem que saibamos, já fomos manipulados por dados alguma vez em nossas vidas. Esse livro, recomendado por Bill Gates como leitura fundamental, ensina como identificar quando estão te enganando como uma estatística mal-feita ou mal intencionada.

Leia também:

Sobre o autor
Udacity Brasil

A Udacity, conhecida como a "Universidade do Vale do Silício", é uma plataforma online e global que conecta educação e mercado para ensinar as habilidades do futuro – de data science e marketing digital à inteligência artificial e desenvolvimento. Hoje, há mais de 7 mil alunos ativos no país e 50 mil pelo mundo.