Business Intelligence & Business Analytics Tags

Escrito em 08 Setembro 2021.

170 projetos de DATA SCIENCE e MACHINE LEARNING com Python, resolvidos e explicados

A utilização de técnicas de Inteligência Artificial (AI) e/ou Aprendizado de Máquina (ML) promove projetos de Business Intelligence à categoria de projeto de Business Analytics.

Sem medo de me tornar repetitivo, deixo como sugestão de leitura a "Bíblia" da garimpagem de dados (Data Mining): Data Mining: Practical Machine Learning Tools and Techniques (Morgan Kaufmann Series in Data Management Systems) 4th Edição.

Muitas linguagens de programação e ferramentas podem ser adotadas para estas atividades. Costumamos utilizar uma ferramenta chamada Weka - Pentaho Data Mining, Machine learning software to solve data mining problems, integrada em nossas soluções.

Neste artigo, apresentarei a você mais de 170 projetos de ciência de dados e aprendizado de máquina resolvidos e explicados usando a linguagem de programação Python, separados em duas seções: uma para iniciantes e outra de nível avançado.

Projetos de aprendizado de máquina para iniciantes

1. Previsão do preço das ações

2. Projeto de ciência de dados sobre Altura dos Presidentes

3. Projeto de ciência de dados sobre análise da taxa de natalidade

4. Projeto de ciência de dados em séries temporais

5. Projeto de Ciência de Dados sobre Área e População

6. Um passo a passo do projeto de aprendizado de máquina completo

7. Resumo do Texto

Projetos de aprendizado de máquina avançado

1. Previsão do preço da casa

2. Detecção de máscara facial em tempo real

3. Reconhecimento de entidade nomeada

4. Detecção da placa do número

5. Análise IPL com Python

6. Previsão do preço do ouro

7. Detecção de Objeto

8. Análise de atletas com salários mais altos

9. Geração de Texto

10. Correção ortográfica com Python

11. Classificação de renda

12. Modelo de tradução de idiomas

13. Retomar a triagem

14. Classificação da linguagem de sinais

15. Análise de Intenção de Compra Online

16. Análise de gráfico de rede

17. Extração de palavras-chave

18. Análise de livros mais vendidos da Amazon

19. Previsão de casos Covid-19 para os próximos 30 dias

20. Classificação de gênero

21. Reconhecimento de flores

22. Análise do Índice de Qualidade do Ar

23. Detecção de pneumonia

24. Previsão de atrito de funcionário

25. Reconhecimento de gestos manuais

26. Detecção de máscara facial

27. Análise de cesta de compras usando algoritmo a priori

28. Detecção de câncer de mama

29. Modelo de previsão de terremotos

30. Detecção de outlier

31. Previsão de doenças cardíacas

32. Análise de usuários de plástico

33. Chatbot com aprendizado de máquina

34. Modelo de previsão da próxima palavra

35. Idade e detecção de gênero com Python

36. Teclado de autocorreção com Python e aprendizado de máquina.

37. Aprendizado de máquina em 5 linhas de código.

38. Detecção de falsificação profunda com aprendizado de máquina.

39. Preveja as eleições dos EUA com Python.

40. Detecção de moeda falsa com aprendizado de máquina.

41. Prever partidas do Tinder com aprendizado de máquina.

42. Segmentação de imagem

43. Gerador de títulos com Python.

44. Esboço a lápis com Python.

45. OpenAI Gym em Aprendizado de Máquina

46. Covid 19 Analysis.

47. Analisar correspondências ILP.

48. Leitor de código de barras e código QR com Python

49. Extraia texto de PDF com Python.

50. Prever IPL Winner 2020.

51. Preveja os preços dos carros.

52. Analisar registros de chamadas.

53. Crie uma API com Python.

54. Envie e-mails personalizados com Python.

55. Reconhecimento de cores com aprendizado de máquina.

56. Crie uma animação de vídeo 3D.

57. Graph Algorithms in Machine Learning.

58. Extração de recursos de imagem.

59. Previsão de chuva com aprendizado de máquina.

60. Classifique as nacionalidades com o aprendizado de máquina.

61. Detecção de fraude com aprendizado de máquina.

62. Modelagem de Tópico com Python

63. Reconhecimento de entidade nomeada

64. Análise de bate-papo em grupo do WhatsApp

65. Traduzir Linguagens Usando Python

66. Análise de segurança de rede

67. Corrida de gráfico de barras com Python

68. Pesquisa de palavra-chave com Python

69. Detecção de rosto com Python

70. Modelo de detecção de emoção

71. Telegram Bot com Python

72. Reconhecimento de Caligrafia

73. Visualize um sistema solar com Python.

74. Modelo de detecção de discurso de ódio

75. Construa Filtros do Instagram com Python.

76. Rastreamento de contato com aprendizado de máquina

77. Implantar um Chatbot com Python em um aplicativo da Web

78. Resuma o texto com o aprendizado de máquina

79. Classificação de idiomas com aprendizado de máquina.

80. GUI de verificação de OTP com Python

81. Crie um audiolivro com Python

82. Análise de sobrevivência do Titanic

83. Reconhecimento de imagem com PyTorch

84. Modelo de classificação de gênero

85. Previsão de nascimentos diários

86. Algoritmo de pesquisa binária

87. Classificação do Galaxy com aprendizado de máquina

88. Séries Temporais com Modelo LSTM

89. Classificação de imagem com TensorFlow

90. Preveja o clima com aprendizado de máquina

91. Crie um pacote com Python

92. Visão computacional com Python

93. Análise de diamantes com Python

94. Classificação de texto com TensorFlow

95. Segmentação de imagem com Python

96. Regressão Ridge e Lasso

97. Preveja a eficiência do combustível

98. Análise ABC com Python

99. Segmentação pulmonar com aprendizado de máquina

100. Análise RFM com Python

101. Construir rede neural com código Python

102. Algoritmo Genético com Python

103. Prever migração com aprendizado de máquina

104. Analisar dados de saúde

105. PNL para outros idiomas

106. Projeto de Ciência de Dados em Texto e Anotações

107. Data Science Project on - Handwritten Digits

108. Projeto de Ciência de Dados em - Máquinas de Vetor de Suporte

109. Projeto de Ciência de Dados - Previsão de Preço de Ações com Aprendizado de Máquina

110. Data Science Project on - Classificação do Texto

111. Projeto de Ciência de Dados sobre Extração de Características HOG

112. Data Science Project on - Análise de sentimentos de produtos da Amazon com aprendizado de máquina

113. Projeto de ciência de dados - detecção de spam de e-mail com aprendizado de máquina

114. Projeto de Ciência de Dados - Previsão de Doenças Cardíacas com Aprendizado de Máquina

115. Projeto de Ciência de Dados - Sistema de Recomendação de Filmes

116. Projeto de Ciência de Dados - Análise de Desempenho do Aluno com Aprendizado de Máquina

117. Projeto de ciência de dados sobre análise FIFA com python

118. Projeto de ciência de dados - Fake News Classification

119. Projeto de Ciência de Dados - Sequenciamento de DNA com Aprendizado de Máquina

120. Projeto de ciência de dados - sistema de recomendação de livros com aprendizado de máquina

121. Projeto de Ciência de Dados - Previsão de Preço de Bitcoin com Aprendizado de Máquina

122. Projeto de aprendizado de máquina - Redes neurais artificiais

123. Estratégia de negociação algorítmica com aprendizado de máquina e Python

124. Análise de sentimento de resenhas de filmes - Classificação binária com aprendizado de máquina

125. Projeto de Ciência de Dados - Análise de Vendas de Supermercado

126. Projeto de Ciência de Dados - Análise do PIB

127. Projeto de ciência de dados - prever a rotatividade do cliente com Python e aprendizado de máquina

128. Data Science Project - San Francisco Crime Analysis

129. Projeto de aprendizado de máquina - reconhecimento de atividade humana usando dados de smartphone

130. Detecção de fraude de cartão de crédito com aprendizado de máquina

131. Previsão do tempo com aprendizado de máquina

132. Detecção de spam de SMS com aprendizado de máquina

133. Detecção de Covid-19 com aprendizado de máquina e IA

134. Segmentação de clientes com aprendizado de máquina

135. Previsão de rotatividade de funcionários com aprendizado de máquina

136. Prever diabetes com aprendizado de máquina

137. Classificação de imagens com PyTorch

138. Previsão de série temporal com modelo ARIMA

139. Processamento de linguagem natural em bate-papos do WhatsApp

140. Modelo de detecção de notícias falsas

141. Classificação de imagens com redes neurais artificiais

142. Modelo de classificação binária

143. Aumento de dados com aprendizado profundo

144. Modelo de previsão da próxima palavra.

145. Segmentação de imagem

146. Algoritmo XGBoost em Aprendizado de Máquina

147. Detecção de pontos de referência de rosto

148. Filtragem de imagens com aprendizado de máquina

149. Extração de recurso de áudio

150. Modelo de tradução automática

151. Modelo de classificação de gênero

152. Crie um vídeo 3D com Python e aprendizado de máquina.

153. Reconhecimento de entidade nomeada

154. Análise de bate-papo em grupo do WhatsApp

155. Traduzir idiomas usando Python

156. Projetos Covid-19 com aprendizado de máquina

157. Projetos de aprendizado profundo com aprendizado de máquina

158. Projetos de sistema de recomendação com aprendizado de máquina

159. Projetos de análise de sentimento com aprendizado de máquina

160. Projetos de classificação para aprendizado de máquina

161. Projetos de regressão para aprendizado de máquina

162. Projetos de chatbot com Python

163. Projetos de aprendizado de máquina sobre previsão do futuro

Segue a mesma lista em inglês, o que pode facilitar a busca de muitos que já estão habituados com os nomes.

Machine Learning Projects for Beginners

1. Stock Price Prediction

2. Data Science Project on President Heights

3. Data Science Project on Birth Rate Analysis

4. Data Science Project on Time Series

5. Data Science Project on Area and Population

6. A Complete Machine Learning Project Walkthrough

7. Text Summarization

Advanced Machine Learning Projects

1. House Price Prediction

2. Real-Time Face Mask Detection

3. Named Entity Recognition

4. Number Plate Detection

5. IPL Analysis with Python

6. Gold Price Prediction

7. Object Detection

8. Highest-Paid Athletes Analysis

9. Text Generation

10. Spelling Correction with Python

11. Income Classification

12. Language Translation Model

13. Resume Screening

14. Sign Language Classification

15. Online Shopping Intention Analysis

16. Network Graph Analysis

17. Keyword Extraction

18. Amazon Best Selling Books Analysis

19. Covid-19 Cases Prediction for Next 30 Days

20. Gender Classification

21. Flower Recognition

22. Air Quality Index Analysis

23. Pneumonia Detection

24. Employee Attrition Prediction

25. Hand Gesture Recognition

26. Face mask Detection

27. Market Basket Analysis using Apriori Algorithm

28. Breast Cancer Detection

29. Earthquake Prediction Model

30. Outlier Detection

31. Heart Disease Prediction

32. Plastic Users Analysis

33. Chatbot with Machine Learning

34. Next Word Prediction Model

35. Age and Gender Detection with Python

36. Autocorrect Keyboard with Python and Machine Learning.

37. Machine Learning in 5 lines of code.

38. Deepfake Detection with Machine Learning.

39. Predict US Elections with Python.

40. Fake Currency Detection with Machine Learning.

41. Predict Tinder Matches with Machine Learning.

42. Image Segmentation

43. Title Generator with Python.

44. Pencil Sketch with Python.

45. OpenAI Gym in Machine Learning

46. Covid 19 Analysis.

47. Analyze ILP Matches.

48. Barcode and QR code Reader with Python

49. Extract Text From PDF with Python.

50. Predict IPL Winner 2020.

51. Predict Car Prices.

52. Analyze Call Records.

53. Create an API with Python.

54. Send Custom Emails with Python.

55. Colour Recognition with Machine Learning.

56. Create a 3D Video Animation.

57. Graph Algorithms in Machine Learning.

58. Image Features Extraction.

59. Rainfall Prediction with Machine Learning.

60. Classify Nationalities with Machine Learning.

61. Fraud Detection with Machine Learning.

62. Topic Modeling with Python

63. Named Entity Recognition

64. WhatsApp Group Chat Analysis

65. Translate Languages Using Python

66. Network Security Analysis

67. Bar Chart Race with Python

68. Keyword Research with Python

69. Face Detection with Python

70. Emotion Detection Model

71. Telegram Bot with Python

72. Handwriting Recognition

73. Visualize a Solar System with Python.

74. Hate Speech Detection Model

75. Build Instagram Filters with Python.

76. Contact Tracing with Machine Learning

77. Deploy a Chatbot with Python into a Web Application

78. Summarize Text with Machine Learning

79. Language Classification with Machine Learning.

80. OTP Verification GUI with Python

81. Create an Audiobook with Python

82. Titanic Survival Analysis

83. Image Recognition with PyTorch

84. Gender Classification Model

85. Daily Births Forecasting

86. Binary Search Algorithm

87. Galaxy Classification with Machine Learning

88. Time Series with LSTM Model

89. Image Classification with TensorFlow

90. Predict Weather with Machine Learning

91. Create a Package with Python

92. Computer Vision with Python

93. Diamonds Analysis with Python

94. Text Classification with TensorFlow

95. Image Segmentation with Python

96. Ridge and Lasso Regression

97. Predict Fuel Efficiency

98. ABC Analysis with Python

99. Lung Segmentation with Machine Learning

100. RFM Analysis with Python

101. Build Neural Network with Python Code

102. Genetic Algorithm with Python

103. Predict Migration with Machine Learning

104. Analyze Healthcare Data

105. NLP For Other Languages

106. Data Science Project on Text and Annotations

107. Data Science Project on — Handwritten Digits

108. Data Science Project on- Support Vector Machines

109. Data Science Project — Stock Price Prediction with Machine Learning

110. Data Science Project on — Classification of Text

111. Data Science Project on-Extracting HOG Features

112. Data Science Project on — Amazon Products Reviews Sentiment Analysis with Machine Learning

113. Data Science Project — Email spam Detection with Machine Learning

114. Data Science Project — Heart Disease Prediction with Machine Learning

115. Data Science Project — Movie Recommendation System

116. Data Science Project — Student Performance Analysis with Machine Learning

117. Data Science Project on FIFA Analysis with python

118. Data science project — Fake News Classification

119. Data Science Project — DNA Sequencing with Machine Learning

120. Data Science Project — Book Recommendation System with Machine Learning

121. Data Science Project — Bitcoin Price Prediction with Machine Learning

122. Machine Learning Project — Artificial Neural Networks

123. Algorithmic Trading Strategy with Machine Learning and Python

124. Movie Reviews Sentiment Analysis -Binary Classification with Machine Learning

125. Data Science Project — Supermarket Sales Analysis

126. Data Science Project — GDP Analysis

127. Data Science Project — Predict Customer Churn with Python and Machine Learning

128. Data Science Project — San Francisco Crime Analysis

129. Machine Learning Project — Human Activity Recognition using Smartphone Data

130. Credit Card Fraud Detection with Machine Learning

131. Weather Forecasting with Machine Learning

132. SMS Spam Detection with Machine Learning

133. Covid-19 Detection with Machine Learning and AI

134. Customer Segmentation with Machine Learning

135. Employee Turnover Prediction with Machine Learning

136. Predict Diabetes with Machine Learning

137. Image Classification with PyTorch

138. Time Series Forecasting with ARIMA Model

139. Natural Language Processing on WhatsApp Chats

140. Fake News Detection Model

141. Image Classification with Artificial Neural Networks

142. Binary Classification Model

143. Data Augmentation with Deep Learning

144. Next Word Prediction Model.

145. Image Segmentation

146. XGBoost Algorithm in Machine Learning

147. Face Landmarks Detection

148. Image Filtering with Machine Learning

149. Audio Feature Extraction

150. Machine Translation Model

151. Gender Classification Model

152. Create a 3D Video with Python and Machine Learning.

153. Named Entity Recognition

154. WhatsApp Group Chat Analysis

155. Translate Languages Using Python

156. Covid-19 Projects with Machine Learning

157. Deep Learning Projects with Machine Learning

158. Recommendation System Projects with Machine Learning

159. Sentiment Analysis Projects with Machine Learning

160. Classification Projects For Machine Learning

161. Regression Projects for Machine Learning

162. Chatbot Projects with Python

163. Machine Learning Projects on Future Prediction

Contato

Adaptado de https://medium.com/coders-camp/180-data-science-and-machine-learning-projects-with-python-6191bc7b9db9

Escrito em 01 Novembro 2017.

Atualizações sobre o mundo Pentaho

Aquecimento

Para iniciar, cabe uma breve explanação sobre os acontecimentos que têm aquecido o mercado e a comunidade de empresas, usuários e desenvolvedores de soluções de apoio a decisão, que evitam desperdiçar verdadeiros latifúndios com licenças de uso de softwares antigos e criam suas próprias soluções, sob medida, e sem vínculos com quem quer que seja. Nem com vendedores de licenças, nem de servidores nem de consultorias, cursos ou treinamentos caríssimos e infinitos.

Muitos projetos ambiciosos da atualidade, em todo o mundo, só são considerados viáveis por conta das facilidades oferecidas pelo produto Pentaho, uma suíte (um conjunto de softwares integrados entre si) de código aberto, gratuito, que contempla todas as etapas de soluções de Business Analytics e/ou Business Intelligence, end to end. O Pentaho tem sido turbinado, digamos assim, pelas CTools, um conjunto de plugins criados por uma empresa portuguesa, a Webdetails. Em 2013 ela foi comprada pela Pentaho, empresa que mantém o produto com o mesmo nome, que conta com uma versão Enterprise, não gratuita e ainda mais completa que a versão gratuita, a Community. Ambas as versões passam a contar com várias das Ctools como parte integrante, juntamente com o Pentaho Marketplace, responsável pela instalação e gerenciamento de plugins.

Em 2015 a empresa Pentaho foi comprada por um dos maiores grupos do mundo, a Hitachi, um líder global em indústrias, infraestrutura e tecnologia, que tem, entre outros, foco no mercado de IoT, internet das coisas. Eles gerenciam entre outros empreendimentos, usinas nucleares, metrôs, ferrovias e têm uma gama de sensores bastante considerável. Todos estes sensores geram dados, que precisam ser analisados em tempo hábil para que façam algum sentido e ajudem na tomada de decisões, aplicáveis em praticamente todas as esferas da sociedade. Aí é que entra a suíte Pentaho.

Pentaho Day 2017 Brasil - Curitiba/PR

E ao falarmos de Pentaho, cabe aqui destacar, ainda com certo delay, que o Pentaho Day 2017 Brasil - Curitiba/PR foi fantástico, como sempre. Foram tantos aprendizados e tantos contatos estabelecidos, que vários projetos desde então foram executados aqui na e-Setorial e nos consumiram, mas não podemos deixar de enaltecer mais essa iniciativa da comunidade Pentaho Brasil, que ajuda profissionais e empresas de ramos de atividade e portes diferentes. A título de exemplo, nossos projetos este ano foram tão variados, que foram desde a análise de dados de Educação à Distância, do Enriquecimento de Dados de Pessoas Físicas e Jurídicas do Brasil, a análise de dados Hospitalares para Planos de Saúde, até um sistema completo para gestão de risco em Usinas Hidrelétricas e Barragens. Todos desenvolvidos utilizando o Pentaho em sua versão gratuita, atingindo excelentes resultados.

O maior evento da comunidade Pentaho do Mundo, contou com mais de 400 participantes e teve Palestras, Cases e Minicursos ministrados por algumas das maiores referências sobre o tema, que aconteceu na Universidade Positivo, em Curitiba/PR, no Brasil, nos dias 11 e 12 de maio.

O destaque principal ficou para apresentação de Matt Casters sobre o seu fantástico Web Spoon, que é o Pentaho Data Integration rodando inteiramente na web, facilitando ainda mais o desenvolvimento e manutenção das soluções.

Muito do material produzido e apresentado no evento está disponível no site do evento, inclusive o minicurso oferecido por Eduardo Carvalho, da e-Setorial, com o título "Design Patterns para Tuning Pentaho com Ctools".

Espaço para Tietagem

Eduardo Alves de Carvalho

Analista Sênior de BI na e-Setorial

"Não são todos os dias que encontramos tantos profissionais que admiramos de uma só vez. Não poderia deixar de registrar a confraternização com o norte americano Matt Casters, à esquerda, criador do Pentaho Data Integration e o português Pedro Alves, ao centro, o Criador das CTools, amigo e meu instrutor por diversas oportunidades, desde 2012. E isso acontecendo em minha cidade natal, Curitiba. Pentaho Day Brasil 2017"

Tietagem também faz parte! Com @pmalves Pedro Alves e @mattcasters #Pentahoday #pentahoday2017 pic.twitter.com/0rYMehVI69
— Eduardo Carvalho (@educarvalho2001) May 12, 2017

Capricho da organização

A organização do evento foi impecável. Deixamos o agradecimento ao amigo Marcio Junior Vieira, da Ambiente Livre, responsável por mais esta edição do evento.

Hitachi Vantara

Em 18 de setembro de 2017 a Hitachi anunciou a formação da Hitachi Vantara, uma empresa cujo objetivo é ajudar as organizações a prosperar nos tempos incertos e turbulentos de hoje e se preparar para o futuro. Esta nova empresa unifica a missão e as operações da Pentaho, Hitachi Data Systems e Hitachi Insight Group em um único negócio, a Hitachi Vantara. Juntas, dão aos líderes empresariais uma vantagem para encontrar e usar o valor em seus dados, inovar inteligentemente e atingir os resultados que são importantes para as empresas e a sociedade.

Apresentando a Vantara: uma combinação de TI, tecnologia operacional (OT) e expertise de domínio. Com o software de integração e análise de dados Pentaho, a Vantara oferece às organizações o poder de capturar e usar dados de forma eficiente a partir da "borda", onde os dados são movidos de forma fluida por sensores e dispositivos fora dos internos do negócio do dia-a-dia e combinam estes dados de sensores com recursos de dados corporativos mais tradicionais para fornecer um alto nível de contexto e previsões inteligentes que levam a resultados comerciais reais.

O que dizem os envolvidos

Donna Prlich

CHIEF PRODUCT OFFICER

A integração e análise de dados Pentaho continuará a evoluir, e a Hitachi Vantara irá investir para se manter à frente dos futuros desenvolvimentos em grandes dados, IoT e aprendizagem de máquinas. Sabemos o que nossos clientes precisam e com o poder e os recursos da Hitachi, podemos levá-los até mais rápido.

Pedro Alves

SVP Community / Product Designer for Pentaho at Hitachi Vantara

Não há planos de mudar a estratégia de código aberto ou parar de fornecer uma edição CE para a nossa comunidade! Essa mudança pode acontecer no futuro? Oh, absolutamente sim! Assim como poderia ter mudado no passado. E quando poderia mudar? Quando ele deixa de fazer sentido; quando deixa de ser mutuamente benéfico. E naquele dia, serei o primeiro a sugerir uma mudança em nosso modelo. Se a opensource nos trouxe aqui em primeiro lugar - mudaremos realmente isso agora que as coisas estão se aquecendo? Nós somos loucos, não estúpidos;)

Em resumo, foi criada uma nova empresa com uma estrutura muito maior, chamada Hitachi Vantara, que continuará a trabalhar com o produto Pentaho nas suas versões Enterprise, paga, e Community, gratuita.

Pentaho 8.0

A comunidade está em polvorosa e no evento mundial da Pentaho, o PentahoWorld 2017, que aconteceu na semana passada, entre 25 e 27 de outubro em Orlando na Florida.

Entre todos os fantásticos cases apresentados, surgiu mais uma novidade bombástica. Foi anunciado a versão 8 do Pentaho, já para o mês que vem.

Plataforma e Escalabilidade
- Worker nodes
- Novo tema
Data Integration
- Suporte de streaming!
- Execute configurações para jobs
- Filtros no Data Explorer
- Nova experiência de Abrir / Salvar
Big Data
- Melhorias em AEL
- Formatos de arquivo para Big Data - Avro e Parquet
- Segurança em Big Data- Suporte para Knox
- Melhorias de VFS para Clusters de Hadoop
Outras
- Ops Mart para Oracle, MySQL, SQL Server
- Melhorias na segurança da senha da plataforma
- Mavenization PDI
- Alterações de documentação em help.pentaho.com
- Remoção de recursos:
  - Analisador em MongoDB
  - Plug-in móvel (desativado em 7.1)

Conclusão

Com investimentos que só uma grande corporação pode fazer, o produto tem tudo para se disseminar ainda mais e ganhar espaço dos grandes players. A equipe de desenvolvimento não para, ao contrário dos concorrentes que só pensam em vender licenças de uso de suas ferramentas. Cada vez mais o pentaho traz segurança, facilidade em desenvolver e manter e o melhor de tudo, com funcionalidades que surpreende até aos mais exigentes. É verdade que ainda são necessários conhecimentos em Java Script e MDX para a implementação de dashboards mais específicos, entretanto aplicações simples, mas e poderosas, podem ser criadas em minutos, sem escrever uma linha de código. O caminho é este.

E que venha o Pentaho 8.0!

Links Úteis

E para onde foram os fóruns, wikis e comunidades? Abaixo separamos alguns links importantes, que o deixarão com mais segurança:

#	Dicas
1	Ctools
2	CCC Playground - Documentação dos gráficos Ctools
3	Alguns dashboards de demonstração
4	Pentaho Community website
5	Grupo de usuários Brasil
6	Forum mundial da comunidade
7	Blog Pedro Alves
8	Desenvolvimento, treinamento e consultoria especializada em Pentaho

Referências

Escrito em 22 Março 2018.

CIENTISTA DE DADOS – POR ONDE COMEÇAR EM 8 PASSOS

Ansioso por desbravar o universo da Ciência de Dados e não sabe por onde começar? Nós ajudaremos você. Preparamos um guia que vai ajuda-lo a compreender o que faz um Cientista de Dados e como iniciar sua preparação! Confira.

McKinsey Global Institute

Big Data Report 2015

"Até 2018, haverá um deficit de 140 a 190 mil profissinais com habilidades em análise de dados e mais de 1,5 milhão de gerentes e analistas que saibam usar Big Data de forma efetiva para tomada de decisões."

Vamos começar definindo o que é um Cientista de Dados:

Cientistas de Dados são uma nova geração de especialistas analíticos que têm as habilidades técnicas para resolver problemas complexos – e a curiosidade de explorar quais são os problemas que precisam ser resolvidos.

Eles também são um sinal dos tempos modernos. Cientistas de dados não estavam no radar há uma década, mas sua popularidade repentina reflete como as empresas agora pensam sobre Big Data. Essa incrível massa de informações não estruturadas já não pode mais ser ignorada e esquecida. É uma mina de ouro virtual que ajuda a aumentar receitas – contanto que haja alguém que escave e desenterre insights empresariais que ninguém havia pensado em procurar. Entra em cena o Cientista de Dados.

Para a comunidade em geral, um Cientista de Dados é um desses “Magos de Dados”, que pode adquirir massas de dados de diversas fontes e então limpar, tratar, organizar e preparar os dados; e, em seguida, explorar as suas habilidades em Matemática, Estatística e Machine Learning para descobrir insights ocultos de negócios e gerar inteligência.

Os dados utilizados por um Cientista de Dados podem ser tanto estruturados (bancos de dados transacionais de sistemas ERP ou CRM, por exemplo) e não estruturados (e-mails, imagens, vídeos ou dados de redes sociais). O Cientista de Dados cria algoritmos para extrair insights destes dados. Em seguida, cabe ao Cientista de Dados, apresentar estes dados, de forma que os tomadores de decisão possam utilizar o resultado da análise ao definir as estratégias empresariais ou mesmo para criar novos produtos ou serviços baseados em dados.

De acordo com Anjul Bhambhri, ex Vice Presidente de Big Data da IBM e atual Vice Presidente da Adobe, o Cientista de Dados é o profissional capaz de trazer a mudança para uma organização através da análise de diversas fontes de dados. Anjul Bhambhri escreve:

“Um Cientista de Dados representa uma evolução do papel de Analista de Negócios ou Analista de Dados. Estes profissionais possuem uma base sólida normalmente em ciência da computação, aplicações, modelagem, estatísticas, análises e matemática. O que define o Cientista de Dados é a forte visão de negócios, juntamente com a capacidade de comunicar os resultados, tanto para os líderes de negócios quanto para seus pares, de uma forma que influencie como uma organização posiciona-se diante dos desafios do mercado”.

Não existe uma formação que prepare Cientistas de Dados, pois esta é uma profissão relativamente nova. Tem havido muito debate sobre isso no ambiente acadêmico (principalmente nos EUA), pois o mercado precisa de profissionais agora e o tempo de preparação de um profissional como estas habilidades, pode levar algum tempo. E por isso formações técnicas em determinadas áreas, podem ajudar a preparar estes profissionais.

Com tantas informações sobre a profissão de Cientista de Dados e seu crescimento exponencial nos últimos anos, é fácil se perder diante de tantos artigos e materiais com fórmulas mágicas sobre qual caminho seguir. Vou fazer um alerta: não existe caminho fácil para se tornar um Cientista de Dados! É preciso estudar, aprender diferentes técnicas e ter conhecimento interdisciplinar. Por esse motivo, os Cientistas de Dados são bem remunerados e difíceis de encontrar no mercado.

Abaixo, os 8 passos que consideramos fundamentais para a preparação de um Cientista de Dados:

Passo 1: Faça uma auto avaliação

Este é o primeiro passo e acredite, é fundamental. Você, como profissional, precisa avaliar o momento atual da sua carreira e como pretende estar em 5 ou 10 anos. Se pretende seguir uma carreira em Analytics, seja como Cientista de Dados, Engenheiro de Dados ou Analista, precisa compreender quais são suas habilidades atuais, onde pretende chegar, avaliar os gaps e traçar um plano de ação.

Como não existe uma formação acadêmica específica para se tornar um Cientista de Dados, este profissional pode vir de áreas como Estatística ou Ciência da Computação, sendo comum encontrar profissionais de outras áreas atuando como Cientistas de Dados (Marketing, Economia, Ciências Sociais, etc..). Mas independente da área de formação, algumas características serão comuns a todos os profissionais que trabalham com Ciência de Dados:

Programação – Conhecimento de programação é necessário. Linguagens de programação como R, Python, Julia, Scala, Java são parte do arsenal de ferramentas utilizadas em Data Science. Mesmo outros pacotes de análise de dados, como SAS, Matlab, Octave, SPSS e até o IBM Watson Analytics, requerem conhecimento em programação, para se extrair o melhor de cada ferramenta. É a habilidade de programação, que permite ao Cientista de Dados colocar em prática sua criatividade e extrair dos dados respostas para perguntas que ainda não foram feitas. Se você já tiver conhecimento em programação, isso será uma vantagem. Caso não tenha experiência em programação, mas tenha uma boa noção dos conceitos envolvidos em programação de computadores, isso vai ajudar muito. Avalie de forma clara seu nível de conhecimento em programação.

Pensamento Lógico – Cientistas de Dados usam o pensamento lógico para fazer análises. Programação requer lógica. Se você já possui esta habilidade, isso vai acelerar seu aprendizado em Data Science.

Habilidade com Números – Matemática é a base da Ciência de Dados. Programação de computadores, envolve habilidade com números. Os algoritmos de Machine Learning, são baseados em conceitos matemáticos. A Estatística, parte fundamental da Ciência de Dados, requer habilidade com números. Avalie suas características e na sua auto avaliação, verifique se esse item será um problema ou não.

Conhecimento em Banco de Dados – Em diversas fases do processo de análise de dados, interações com bancos de dados serão necessárias. Bancos de sados relacionais, Data Warehouses, bancos de dados NoSQL, Hadoop, linguagem SQL. Todas estas tecnologias estão diretamente ligadas ao trabalho do Cientista de Dados e pelo menos sua compreensão será um ponto que poderá fazer diferença. Avalie se você compreende o conceito de banco de dados, entende as diferenças entre bancos de dados relacionais e NoSQL e como utilizar linguagem SQL para consultas.

A esta altura, talvez você já esteja se perguntando: como você pretende que eu aprenda tudo isso? Aqui entra um dos conceitos mal interpretados sobre a profissão de Cientista de Dados. Acredita-se que este profissional precisa conhecer todas as ferramentas. Isso não é verdade e nem mesmo necessário. Escolha suas ferramentas e se especialize nelas. Por exemplo: conhecimento em linguagem R e Hadoop, permitirá fazer análises de grandes volumes de dados (Big Data). Você não precisa conhecer todas as linguagens de programação, bem como não tem que conhecer todos os bancos de dados. O mais importante é o pensamento lógico, esse sim indispensável (e esta habilidade talvez você já tenha). A tecnologia oferece ferramentas e nenhuma delas resolve sozinha 100% dos problemas, pois todas possuem suas limitações.

Ao fazer esta auto avaliação, será possível compreender seu nível atual de conhecimento e começar a pensar no plano de ação!

Passo 2: Prepare seu computador

Surpreso com este passo? Esta é a etapa onde você prepara seu ambiente de testes e não deve ser subestimada. Pode ser frustrante durante seu processo e aprendizagem, não ter o equipamento ideal para instalar softwares ou executar operações que requerem poder computacional.

Ciência dados é computacionalmente intensa (isso não deve ser uma novidade para você!). Portanto, você precisa de um computador que permita processar seus scripts e aprender sobre análise de dados. Além disso, você vai precisar instalar ferramentas, interpretadores, pacotes office, etc…Para trabalhar com Ciência de Dados, um computador com 8GB de memória RAM, com um processador intel i5/i7 ou equivalente é a nossa recomendação. Naturalmente, quanto maior a capacidade do seu computador, melhor! É possível também utilizar serviços como o Cloud9 ou Amazon AWS e montar um ambiente virtual de trabalho.

Sistema Operacional – A decisão por qual sistema operacional utilizar é bastante pessoal e qualquer um dos 3 principais sistemas operacionais (Windows, Mac OS e Linux) vai atender as suas necessidades. De qualquer forma, você poderá instalar máquinas virtuais com outro sistema operacional. Boa parte do framework de Data Science e Big Data, foi construída sobre plataforma Unix. Para um servidor Hadoop ou Spark, um servidor Linux é a melhor recomendação. Já para a parte de apresentação de dados, Microsoft Office e outras ferramentas de visualização podem depender de um sistema Windows. Não há uma regra aqui, mas para usuários mais avançados, um sistema Unix é recomendado. Para aqueles que se sentem mais confortáveis com o Windows, não há problema algum. Utilize o Windows como seu sistema operacional e, se necessário, crie uma máquina virtual com Linux, se quiser processar arquivos com Hadoop e/ou Spark ou realizar outros testes. Os principais fornecedores do Hadoop (Cloudera, Hortownworks e MapR) fornecem gratuitamente máquinas virtuais com Linux e Hadoop, prontas para uso em poucos cliques. Já o Microsoft Azure Machine Learning pode ser utilizado online, por exemplo. É possível também fazer o download o SAS University Edition, uma máquina virtual com Linux e SAS, que em poucos segundos permite você utilizar o SAS (uma das principais soluções de Analytics atualmente) para seu aprendizado e totalmente gratuito.

Softwares – Independente da linguagem de programação que você escolher, você vai precisar instalar o interpretador e uma IDE. Se a sua escolha for pelo R, por exemplo, além de instalar a linguagem, você poderá instalar o R Studio. O mesmo vale para outras linguagens de programação. É possível criar seus scripts de Data Science 100% online, via browser, usando o Jupyter Notebook. Mas nem sempre você pode estar online e ter suas ferramentas instaladas localmente vai trazer uma série de vantagens. Além disso, considere instalar:

– Editores de texto: Sublime, Atom, Notepad++
– Software para Máquinas Virtuais: VirtualBox
– Git e Github: para criar seu portfólio de projetos em Data Science
– Suite Office: Microsoft Office, Libre Office

Com exceção do Microsoft Office, todas as demais ferramentas são gratuitas.

Passo 3: Estatística e Matemática

Conhecimentos de Estatística e Matemática fazem parte do pacote essencial para quem pretende trabalhar como Cientista de Dados. Modelos estatísticos e algoritmos de Machine Learning, dependem de conhecimentos em regressão linear, regressão múltipla, clustering, Álgebra Linear, etc… Você precisa ser especialista em Estatística ou Matemática ou mesmo ter feito uma graduação nestas áreas? A resposta é não. Apesar dessas áreas permitirem uma compreensão mais abrangente, é possível aprender estes conceitos e aplica-los, ao longo da sua jornada de aprendizagem em Data Science. Você não precisa aprender todos os tópicos relacionados à Estatística ou Matemática.

Existem muitas formas de aprender os conceitos de Estatística e Matemática aplicada e isso leva tempo. Para qualquer aspirante a Cientista de Dados a recomendação é aprender Estatísticas codificando, de preferência em Python ou R, de forma que você possa aplicar imediatamente um conceito aprendido. Nada substitui uma graduação em Estatística ou Matemática claro, mas você pode aprender os conceitos que serão usados no seu dia a dia em Data Science, aplicando estes conceitos através de uma linguagem de programação. Data Science é uma área multi-disciplinar.

No fim deste artigo, você encontra alguns recursos indicados por nosso time de especialistas!Analytics

Passo 4: Big Data

Big Data é a matéria prima da Ciência de Dados. A profissão de Cientista de Dados, surgiu da necessidade de criar novos métodos de análise do imenso volume de dados que vem crescendo exponencialmente. Técnicas analíticas já existem há muitas décadas (talvez há séculos), mas nunca na história da humanidade, gerou-se tantos dados como atualmente. Novas formas de coleta, armazenamento e análise de dados são necessárias e o Big Data está revolucionando o mundo atual, pois com tantos dados a nossa disposição, podemos tomar decisões em tempo real e isso gera impacto direto na vida de todos nós.

O Cientista de Dados vai consumir Big Data, ou seja, vai utilizar o Big Data como matéria prima, aplicar diversas técnicas e colher insights. Mas a responsabilidade por coletar e armazenar os dados normalmente é do Engenheiro de Dados. Criação de clusters Hadoop, streaming de dados com Spark, integração entre diferentes fontes de dados são todas atribuições novas e normalmente exercidas por Engenheiros de Dados. Mas é importante que o Cientista de Dados conheça bem como funciona a infraestrutura que armazena os dados que serão analisados, pois isso pode fazer a diferença na hora de analisar 1 trilhão de registros, por exemplo.

Hadoop – O Hadoop está se tornando o coração da infraestrutura de Big Data, o que vai revolucionar o sistema tradicional de armazenamento em bancos de dados como conhecemos hoje. Além de gratuito, o Hadoop foi criado para ser usado em hardware de baixo custo, uma combinação essencial para empresas que buscam reduzir seus custos de infraestrutura de TI e ainda capitalizar os benefícios do Big Data.

Spark – Spark é um projeto open source, mantido por uma comunidade de desenvolvedores que foi criado em 2009 na Universidade da Califórnia, Berkeley. O Spark foi concebido com o principal objetivo de ser veloz, tanto no processamento de queries quanto de algoritmos, além de processamento em memória e eficiente recuperação de falha. É atualmente um dos assuntos mais quentes em Data Science e vem ganhando muita popularidade.

Bancos de Dados NoSQL – Bancos de Dados tradicionais RDBMS (Relational Database Management Systems) são foram projetados para tratar grandes quantidades de dados (Big Data). Bancos de Dados tradicionais foram projetados somente para tratar conjuntos de dados que possam ser armazenados em linhas e colunas e portanto, possam ser consultados através do uso de queries utilizando linguagem SQL (Structured Query Language). Bancos de Dados relacionais não são capazes de tratar dados não-estruturados ou semi-estruturados. Ou seja, Bancos de Dados relacionais simplesmente não possuem funcionalidades necessárias para atender os requisitos do Big Data, dados gerados em grande volume e alta velocidade. Esta é a lacuna preenchida por Bancos de Dados NoSQL, como o MongoDB por exemplo. Bancos de Dados NoSQL, são bancos de dados distribuídos e não-relacionais, que foram projetados para atender os requerimentos deste novo mundo de dados em que vivemos.

Bancos de Dados Relacionais e Data Warehouses – Nas últimas décadas, todos os dados corporativos tem sido armazenados em bancos de dados relacionais e soluções de Business Intelligence usaram DataWarehouses para criar soluções analíticas. Estes dados estruturados, serão fonte de dados para Data Science e daí a importância do conhecimento em linguagem SQL, a linguagem padrão para consultar estes tipos de dados.

Como Cientista de Dados, você precisa ser especialista em todas as tecnologias? Não. Mas parte do trabalho do Cientista de Dados, será coletar dados do HDFS (Hadoop File system), criar RDD’s no Spark, aplicar algoritmos de Machine Learning em streaming de dados, cruzar dados não estruturados coletados de redes sociais, com bancos de dados de CRM, etc…portanto, o Cientista de Dados precisa estar confortável com a forma como os dados estão armazenados e extrair da tecnologia o melhor que ela pode oferecer.

Passo 5: Linguagem de Programação e Machine Learning

Existem diversas ferramentas de análise e o número de soluções não para de crescer. Mas a recomendação para quem está iniciando, é obter o conhecimento básico, antes de tentar usar ferramentas de análise ou pacotes comerciais, de forma a conseguir extrair o melhor destas ferramentas. Algumas linguagens de programação se tornaram ícones em Ciência de Dados, como Python e R, por diversas razões: são gratuitas, contam com uma comunidade ativa e crescente, já atravessaram o período de maturação, são amplamente utilizadas, tanto no meio acadêmico quanto no meio empresarial e se especializaram em Data Science.

Python – É uma linguagem de uso geral, que tem recebido nos últimos anos, mais e mais módulos e pacotes para Data Science como Pandas, Matplotlib, Scikit-Learn e Stats Models. Python é mais fácil de aprender em comparação a outras linguagens, tem uma comunidade ativa, muita documentação disponível (inclusive em português) e pode ser usada para outras atividades além de Data Science.

Linguagem R – Linguagem estatística, que existe há mais de 30 anos. Sua capacidade de processar estatísticas de grandes volumes de dados e criar gráficos sofisticados, fizeram com que gigantes do mercado de tecnologia, como Oracle e Microsoft, adotassem R como linguagem padrão para análises estatísticas. Um dos problemas mais comuns que as pessoas enfrentam em aprender R é a falta de um guia. As pessoas não sabem, por onde começar, como proceder e nem que caminho seguir. Há uma sobrecarga de bons recursos gratuitos disponíveis na Internet e isso torna o caminho de aprendizado muito mais tortuoso.

Por exemplo: a plataforma de Aprendizado de Máquina da Microsoft (Microsoft Azure Machine Learning), possui uma série de módulos Python e R, prontos para uso. O conhecimento de pelo menos uma destas linguagens é fundamental.

Outras linguagens como Julia, Scala e Java também são muito utilizadas em Data Science, mas se estiver começando, opte pelas linguagens R ou Python. Estas linguagens vão permitir uma base sólida, fazendo com o que o profissional avance para soluções comerciais como SAS, Microsoft Azure Machine Learning, Oracle Advanced Analytics, Microstrategy, SAP Predictive Analytics, Tibco Analytics, entre outros.

Se você já possui conhecimento em Matlab, Octave, Stata ou Minitab, saiba que seu conhecimento já pode ser utilizado em Data Science.

Uma dica importante: não tente aprender tudo! Selecione 2 ou 3 ferramentas e se dedique ao aprendizado delas de forma detalhada.

E claro, não dá para falar em Data Science, sem falar em Machine Learning.

Machine Learning (ou Aprendizado de Máquina) é uma das tecnologias atuais mais fascinantes. Você provavelmente usa algoritmos de aprendizado várias vezes por dia sem saber. Sempre que você usa um site de busca como “Google” ou “Bing“, uma das razões para funcionarem tão bem é um algoritmo de aprendizado. Um algoritmo implementado pelo “Google” aprendeu a classificar páginas web. Toda vez que você usa o aplicativo para “marcar” pessoas nas fotos, do “Facebook” e ele reconhece as fotos de seus amigos, isto também é Machine Learning. Toda vez que o filtro de spam do seu email filtra toneladas de mensagens indesejadas, isto também é um algoritmo de aprendizado.

Algumas razões para o crescimento Machine Learning são o crescimento da web e da automação. Isso significa que temos conjuntos de dados maiores do que nunca. Por exemplo, muitas empresas estão coletando dados de clicks na web, também chamados dados de “clickstream”, e estão criando algoritmos para minerar esses dados e gerar sistemas de recomendação, que “aprendem” sobre os usuários e oferecem produtos que muito provavelmente eles estão buscando. O Netflix é um dos exemplos mais bem sucedidos de aplicação de Machine Learning. Cada vez que você assiste um filme ou faz uma avaliação, o sistema “aprende” seu gosto e passa a oferecer filmes de forma personalizada para cada usuário.

Existem diversos algoritmos de aprendizagem de máquina, dependendo se a aprendizagem é supervisionada ou não supervisionada, tais como: Linear Regression, Ordinary Least Squares Regression (OLSR), Logistic Regression, Classification and Regression Tree (CART), Naive Bayes, Gaussian Naive Bayes, k-Nearest Neighbour (kNN), k-Means, Bootstrapped Aggregation (Bagging), Natural Language Processing (NLP), Principal Component Analysis (PCA), Principal Component Regression (PCR), Back-Propagation e muito mais.

Cada algoritmo será ideal para determinado tipo de dado e de acordo com a análise pretendida. Não há necessidade de aprender todos os algoritmos. Mas é importante compreender os conceitos e como implementa-los. Daí a importância da Matemática e da Estatística. Confira as dicas no fim do artigo.

Passo 6: Conhecimento de Negócios

Qual o objetivo da sua análise? Para que você vai coletar montanhas de dados e aplicar modelos de análise? Que problema você pretende resolver, analisando dados? O principal objetivo da Ciência de Dados, é resolver problemas. As empresas não vão iniciar um projeto de Data Science, se isso não for relevante para o negócio. Portanto, o Cientista de Dados deve estar familiarizado com a área de negócio para a qual ele está iniciando um projeto, utilizando Data Science.

Normalmente o mercado interpreta de forma equivocada este requerimento para a profissão de Cientista de Dados, fazendo crer que o profissional precisa ser expert em determinado segmento de negócio. Mas aqui vale fazer algumas considerações importantes. Primeiro, os profissionais de Business Intelligence sempre tiverem este requerimento, conhecer bem uma área de negócio, a fim de coletar os KPI’s (indicadores) e com isso prover soluções BI que atendessem as necessidades do cliente. Isso não mudou, o que mudou foi a forma como a análise é feita, uma vez que o Big Data entrou na equação. Em segundo, dada a amplitude de projetos de Data Science e Big Data, dificilmente haverá um único profissional atuando e sim uma equipe de Data Science, normalmente liderada pelo Cientista de Dados. E no Data Science Team, diferentes perfis irão atuar, como por exemplo especialistas em segmentos de negócio.

A dica aqui é simples. Procure compreender a área de negócio na qual você pretende atuar como Cientista de Dados. Se vai trabalhar em uma mineradora por exemplo, quais são so principais indicadores? De onde vem os dados? Que problemas a empresa precisa resolver? Que tipos de dados devem ser analisados e correlacionados? Como técnicas de Machine Learning podem ser empregadas para melhorar o faturamento da empresa? Como a análise de dados permite oferecer um serviço melhor aos clientes? Cada área de negócio tem as suas particularidades e uma compreensão ampla disso, vai permitir um trabalho que realmente gere valor.

Passo 7: Técnicas de Apresentação e Visualização de Dados

Com a massiva quantidade de dados aumentando a cada dia, um grande desafio vem surgindo para aqueles responsáveis por analisar, sumarizar e apresentar os dados: fazer com que a informação gerada, possa ser facilmente compreendida.

E uma das tarefas mais importantes do trabalho do Cientista de Dados, é ser capaz de transmitir tudo aquilo que os dados querem dizer. E às vezes os dados querem dizer coisas diferentes, para públicos diferentes. Pode parecer fácil em princípio. Hoje temos à nossa disposição os mais variados recursos para apresentação e exatamente aí que está o desafio. Nunca foi tão fácil gerar tabelas e gráficos, com diferentes estruturas, formatos, tamanhos, cores e fontes. Os gráficos estão deixando de ser gráficos e se tornando infográficos. Ter um volume cada vez maior de dados à nossa disposição, não torna mais fácil a apresentação da informação gerada. Pelo contrário, torna a tarefa mais complicada. Quase uma arte.

Uma das tarefas do Cientista de Dados, é apresentar seus resultados. Ninguém melhor que o profissional que faz a análise, desde a coleta, limpeza e armazenamento dos dados, até a aplicação de modelos estatísticos, para explicar seus resultados. Uma visualização efetiva de dados, pode ser a diferença entre sucesso e falha nas decisões de negócio. Particularmente, eu acredito que em breve, a capacidade de comunicar e contar as histórias dos dados, será uma das características mais valorizadas e buscadas pelas empresas. Técnicas de apresentação é um dos skills que fará a diferença na hora de contratar um Cientista de Dados, à medida que o conhecimento técnico estiver difundido.

O Cientista de Dados deve ser um contador de histórias e deve ser capaz de contar a mesma história de maneiras diferentes. O profissional que for capaz de unir as habilidades técnicas necessárias para análise de dados, com a capacidade de contar histórias, será um profissional único. Este é o verdadeiro conceito de unicórnio, atribuído aos Cientistas de Dados.

Diversas ferramentas possuem funcionalidades avançadas para visualização de dados: Pentaho, Tableau, QlikView, Microsoft Excel, Microsoft Power BI, Microstrategy, Weka, NetworkX, Gephi, bibliotecas Java Script (D3.js, Chart.js, Dygraphs), além de visualizações alto nível que podem ser feitas em Python ou R.

É importante não apenas estar familiarizado com uma ou mais ferramentas para visualizar dados, mas também os princípios por trás da codificação visual de dados e comunicação de informações.

Passo 8: Pratique!!

Não há outra forma de aprender qualquer que seja o assunto. É preciso praticar, testar, experimentar, cometer erros, aprender com eles, testar novamente, interagir com a comunidade.

Ufa. Se você chegou até aqui, parabéns! Agora você compreende melhor porque o Cientista de Dados é uma profissão em ascensão e porque sua remuneração está entre as maiores em qualquer pesquisa que se faça? Mas ainda não terminamos, continue sua leitura:

Erros que devem ser evitados ao longo da caminhada:

1- Achar que o aprendizado é fácil e rápido – Em nenhuma profissão, o aprendizado é rápido e fácil. Adquirir conhecimento e experiência requer tempo, esforço, investimento e bastante dedicação. Não caia nesta armadilha. Comece sua preparação hoje mesmo, mas esteja ciente que adquirir conhecimento leva tempo.

2- Aprender muitos conceitos ao mesmo tempo – Este é o erro mais comum. Por se tratar de uma área interdisciplinar, há normalmente a tendência em querer aprender muita coisa ao mesmo tempo. Não foque em quantidade e sim qualidade. Aprenda um conceito, consolide, pratique e só então avance para outra área de estudo. O começo será mais difícil, mas à medida que aprende e adquire experiência, o aprendizado de novas ferramentas fica mais fácil.

3- Começar por problemas muito complexos – A solução de problemas mais complexos em Data Science, requer tempo e experiência. Não tente fazer isso no começo da sua jornada.

4- Focar apenas na programação – Data Science não é apenas programação. Outros conceitos são tão importantes quanto. Estatística é importante. Visualização de dados e apresentação são importantes. Tenha seu foco em outras áreas e não apenas programação.

E como estudar?

Antes de investir em formação analítica, tome essas medidas para ter certeza de obter o valor real do seu investimento.

1. Defina suas metas. Como diz o ditado: “Quem não sabe para onde vai, qualquer caminho serve!”. Você fez a auto avaliação sugerida lá no início do texto? Qual foi o resultado? Quais são as áreas que você precisa se dedicar? Como será sua disponibilidade? Qual seu objetivo? Sei que são muitas perguntas, mas elas precisam ser respondidas, antes de definir sua trilha de aprendizagem.

2. Participe de comunidades. Cientistas de Dados costumam se encontrar em Meetups e em alguns blogs (links abaixo). Estas comunidades vão permitir a troca de experiências e isso é muito valioso.

3. Experimente. Enquanto você não executar um algoritmo de aprendizado de máquina em um dataset com milhões de registros, não criar um algoritmo de limpeza e transformação de dados, não coletar streaming de dados de redes sociais, você não vai compreender como as coisas funcionam. Experimente! Aprenda, faça, erre, faça novamente e quando você menos esperar, você vai ser capaz de analisar dados e contribuir para a empresa onde trabalha ou para seu próprio negócio.

Use as informações que você recolheu para selecionar opções de treinamento que ajudam você a alcançar seus objetivos, sem perder tempo e dinheiro.

Conhecimento em Ciência de Dados requer tempo e dedicação. O treinamento que você escolher deve ser um mix de fundamentação teórica, com prática e experimentação.

Recursos

Existem muitos recursos disponíveis para aprender Data Science e tantos recursos acabam gerando sobrecarga nos iniciantes, que podem perder o foco. Separamos aqui uma lista com as que consideramos as melhores fontes de aprendizagem em Data Science.

Blogs:

Data Science Central: http://www.datasciencecentral.com
KDD Nuggets: http://www.kdnuggets.com
Artigos sobre R: http://www.r-bloggers.com
Python Brasil: http://python.org.br

Estatística:

Statistics: http://www.statistics.com
Simply Statistics: http://simplystatistics.org

Machine Learning:

Machine Learning Coursera: https://www.coursera.org/learn/machine-learning
Deep Learning: http://deeplearning.net/
Deep Learning Book: http://www.deeplearningbook.com.br

Vídeos e Competições:

Top 10 TED Talks for Data Scientists: http://www.kdnuggets.com/2016/02/top-10-tedtalks-data-scientists.html
Data Science for Social Goods: http://dssg.uchicago.edu
Kaggle: https://www.kaggle.com
Data Science Game: http://www.datasciencegame.com

Capacitação:

Data Science from Harvard: http://cs109.github.io/2014
Visualização de Dados: https://columbiadatascience.com/category/course-topics/data-visualization
Open Data Science Master: http://datasciencemasters.org
Big Data e Social Analytics MIT: http://getsmarter.mit.edu/big-data-and-social-analytics-course-aw
Metis Data Science: http://www.thisismetis.com
Zipfian Academy: http://www.zipfianacademy.com
e-Setorial Business Analytics: http://www.e-setorial.com.br/servicos

Fonte http://datascienceacademy.com.br

Escrito em 23 Novembro 2014.

Clientes

A e-Setorial já prestou, ao longo de seus 20 anos de existência, inúmeros serviços a empresas e/ou instituições nas áreas de educação, educação à distância, varejo, tecnologia da informação, publicidade, saúde, entre diversas outras.

Escrito em 04 Junho 2018.

Como 'Simpsons' consegue prever o futuro da tecnologia e do mundo?

Simpsons previu Trump presidente em 2000

Viagem no tempo, coincidência, análise de Big Data... Muitas as razões são especuladas como brincadeira para a série no ar há décadas continuar surpreendendo seus telespectadores com previsões que pareciam inimagináveis.

William Edwards Deming

"Em Deus nós confiamos; todos os outros devem trazer dados."

"In God we trust; all others must bring data."

A lista de vezes em que "Os Simpsons" previram o futuro da tecnologia e da sociedade em geral é extensa. Volta e meia vemos casos do tipo – já rolou com a eleição de Donald Trump, com smartwatches, correções automáticas no celular... Mas como o desenho consegue acertar tanto?

O site Mic conversou com ex-executivo dos Simpsons, um estatístico e um professor de matemática para tentar entender o que está por trás de tantos acertos. E as razões são mais mundanas do que você imagina.

1 - É tudo questão de quantidade

Episódio futurístico de 1995 tem Lisa falando com sua mãe por um telefone que continha uma tela de vídeo em tempo real
A série "Os Simpsons" está no ar desde 1989. São mais de 600 episódios já mostrados na TV. Em cada episódio, há uma quantidade enorme de piadas. Deu pra entender, né? Quanto mais conteúdo, mais chance de pelo alguma das cenas retratadas em certos episódios estar certa.

"Nós fizemos um zilhão de episódios de televisão, então são muitas oportunidades para fazer previsões. Não acho que alguém fale das previsões que os Simpsons erraram, mas a lista é muito mais longa do que as coisas que foram certas", apontou ao site Daniel Chun, ex-executivo do seriado.

O número de previsões da série realmente não é baixo. Matt Zaremsky, professor assistente de matemática da Universidade de Albany, estima que o desenho fez mais de 120 mil piadas em suas 29 temporadas, levando como base uma média de 8,54 por minuto nas primeiras 12 temporadas. À conta, são adicionadas mais de 1.200 "previsões explícitas sobre o futuro".

"Dos episódios baseados no futuro, estimo em 500 no total as previsões. Dos outros episódios regulares, estimo uma por episódio, o que daria 624 (até a realização da entrevista)", aponta.

De todas as previsões, muitos citam como 20 o número de previsões acertadas, apesar de que o número pode e deve ser maior. Se forem consideradas 20 entre 1.224, a porcentagem de sucesso é de 1,6%.

Com 20 previsões acertadas entre 1.224, a porcentagem de sucesso é de 1,6%

Matt Zaremsky

"As estatísticas dizem que os Simpsons tiveram tantas piadas e previsões que essencialmente tiveram apenas sorte."

2 - O que é uma previsão?

Simpsons e uma espécie de Apple Watch em 1995
Outro tema levantado pelo site é que as pessoas são generosas com a palavra "previsão". Muitos artigos e vídeos são feitos sobre as profecias dos Simpsons, mas essas visões do futuro não são necessariamente chocantes ou específicas do seriado. Um exemplo citado é que o celular no pulso (que lembra os atuais smartwatches) em um episódio de 95 não é tão original.

"O exemplo é que o Simpsons tinha algo que parecia um Apple Watch. Bom, um dispositivo de comunicações no pulso remonta a até Dick Tracy (tira de quadrinhos que estreou em 1931) e os recursos do Apple Watch não vão ser exatamente os mesmos que os Simpsons tinham no relógio. Você tem que dizer se isso é uma previsão ou não", opina Gary Simon, professor aposentado de estatística da New York University Stern School of Business.

3 – O estilo da série

Chapéu com câmera em episódio de 1994 lembra muito as câmeras GoPro
Pelos Simpsons serem um cartoon, os roteiristas podem colocar no seriado qualquer celebridade da vida real nos episódios que quiserem – como ocorreu com Donald Trump em 2000. Os roteiristas também podem criar previsões realísticas diferentes porque a série se passa em dias atuais muito parecidos com a nossa sociedade do presente.

Obviamente, um cartoon pode fazer muito mais previsões do que dramas da TV que se passam no passado, como Downton Abbey. Programas de comédia também são escritos de uma maneira que os espectadores consideram mais realista, segundo Chun. Muitos médicos consideram a comédia Scrubs mais realista da vida em um hospital do que o drama ER, de acordo com o ex-executivo.

"Quando escreve um drama, o roteirista normalmente tenta ter princípios e trata uma sociedade que realmente respeita a moral, onde todos são muito sérios e atuam com máxima integridade em todos os momentos", aponta.

É claro que nos últimos anos a família Simpsons ganhou um concorrente de peso para prever o futuro: a série de ficção Black Mirror, atualmente na Netflix, mas que tem como função exatamente prever uma sociedade futurística baseada em nossas tecnologias atuais.

4 – O cinismo dos roteiristas

Espécie de autocorretor apareceu em episódio de 1994 com um aparelho Newton da Apple
Uma parte das previsões acertadas do Simpsons também é associada ao estilo dos roteiristas. Eles são cínicos e retratam sua visão de mundo no seriado.

"Existe uma visão de mundo que os roteiristas dividem com alguns princípios básicos. Entre eles, de que as pessoas são gananciosas e que as corporações são terríveis e têm uma tendência de arruinar tudo. A corrupção é desenfreada e a sociedade como um todo tem a memória de um peixe", cita Chun, ex-executivo do seriado.

Alguma semelhança com a realidade? Bom, então enquanto a sociedade seguir desta maneira, os Simpsons continuarão acertando.

Fonte:
https://tecnologia.uol.com.br

Escrito em 05 Fevereiro 2016.

Como usar Data Science para revelar perfis comportamentais?

Em junho deste ano, a empresa Tail Target, em parceria com grupos de usuário, fez um estudo sobre o perfil do desenvolvedor Java no Brasil. Para isso, divulgou entre os desenvolvedores um link que deveria ser clicado por quem quisesse participar da pesquisa.

Este link não continha uma pergunta sequer nem levava para nenhum questionário. Imediatamente, choveram e-mails avisando que o link divulgado estava errado. Não estava. Em menos de uma semana estava pronto um estudo completo que mostrava os interesses, demografia e estilo de vida dos desenvolvedores. Mágica? Não, Data Science.

Data Science é um novo campo que alia Big Data, processamento estatístico e inteligência artificial para encontrar informações e detectar padrões. É cada vez mais comum encontrar grandes empresas cuja tomada de decisão está baseada em Data Science.

Para outras, Data Science é fundamental para a própria existência do seu negócio. No Netflix, 75% da audiência vem do seu algoritmo de recomendação, que é um ótimo exemplo de Data Science aplicada. A plataforma de relacionamentos e-Harmony usa Data Science para encontrar o par ideal para uma pessoa e já é responsável por 5% dos casamentos nos EUA.

O estudo sobre o perfil do desenvolvedor Java analisou dados de navegação anônimos de centenas de pessoas que visitaram um dos sites sobre desenvolvimento Java que estavam sendo monitorados. Fazendo uma análise sobre que outros sites estas pessoas visitavam, algoritmos de inteligência artificial detectaram padrões que permitiram traçar um perfil comportamental dessas pessoas.

Segundo esse estudo, 88% dos desenvolvedores Java brasileiros são homens e apenas 12% são mulheres. Os adultos representam a maioria desses desenvolvedores (44%), seguidos de jovens adultos (30%) e adolescentes (25%). Finanças, tecnologia, futebol, viagens e TV, nessa ordem, são os assuntos que mais interessam os desenvolvedores.

A surpresa nesse estudo veio ao medir os microssegmentos que mais interessavam aos desenvolvedores homens e mulheres. Entre os homens, os principais microssegmentos são TV Aberta, novelas, carros de alta renda, séries de TV e viagens internacionais. Já as mulheres preferem ler sobre TV Aberta, TV a cabo, cabelo e maquiagem. Ou seja, os desenvolvedores homens são noveleiros. As desenvolvedoras não.

Os algoritmos aplicados não coletam informações demográficas nem qualquer informação fornecida pelos usuários. O que eles fazem é processar registros de acesso a milhares de sites e executar uma série de algoritmos de inteligência artificial que tentam adivinhar as informações demográficas e os interesses baseado no comportamento online dessas pessoas.

Obviamente existe uma margem de erro nesses algoritmos, mas eles têm se tornado cada vez mais precisos. Depois da publicação deste estudo, um pesquisador da Universidade de Kent enviou os dados de uma pesquisa similar feita em 2003. Esse estudo usou métodos tradicionais: entrevistas e questionários para encontrar a demografia do desenvolvedor Java. O estudo de 2003 identificou que 88% dos desenvolvedores eram homens. Esse é exatamente o mesmo número encontrado pelos algoritmos que fizeram o mesmo levantamento usando dados comportamentais.

*Fabiane Nardon é PhD em Engenharia Eletrônica pela Escola Politécnica da USP, Mestre em Ciência da Computação pela Universidade Federal do Rio Grande do Sul e Bacharel em Ciência da Computação pela Universidade de Passo Fundo. Desde 2012, é a Cientista Chefe da Tail Target.

fonte

Escrito em 18 Janeiro 2018.

Digital Analytics: desmistificando o fabuloso mundo das métricas digitais

Web Analytics, Digital Marketing Analytics, Online Analytics, Business Intelligence, Big Data, Google Analytics… São tantos nomes e misturebas desenfreadas que é difícil entender de fato o que faz, ou não, parte do universo das métricas digitais.

Pra tirar essa bagunça da frente e ajudar a simplificar o conceito, principalmente mostrar que vai muito além de ferramentas, adaptei esse artigo no qual compartilho os seguintes assuntos com você:

Digital Analytics em 140 caracteres
Digital Analytics é o mesmo que usar o Google Analytics?
Digital Analytics é o mesmo que Web Analytics?
E Business Intelligence / BI, é Digital Analytics?
Posso chamar só de Analytics?
Direto ao ponto: o que é Digital Analytics?
Aplicações de Digital Analytics
Bônus: como começar
Referências

1. Digital Analytics em 140 caracteres

"Utilização de dados para a otimização recorrente da experiência online dos seus usuários."

Experiência online pode ser vender, utilizar um app, postar em uma rede social, clicar em um anúncio etc.

Usuário pode ser um cliente, um funcionário, um parceiro etc.

De fato, Digital Analytics não é nem de perto um bicho de sete cabeças.

2. Então é o mesmo que usar o Google Analytics?

Não. Usar o Google Analytics para a tomada de decisão de melhorias no seu site faz parte do escopo de Digital Analytics, mas é apenas uma das possíveis aplicações desse universo todo potentoso.

Analytics Maturity Model publicado na Twinkle Magazine

Explicando visualmente:

Este é um modelo criado por um profissional de renome no mercado, o Stéphane Hamel, que foi diretor em uma das consultorias mais prestigiadas do segmento, a Cardinal Path.

O Online Analytics Maturity Model mostra pra gente que Digital (ou Online) Analytics vai muito além de ferramentas (tools) e tecnologia. Contempla também do gerenciamento de times a processos e metodologias. Logo o Google Analytics é "só" um aspecto de uma dessas pontas desse gráfico.

Só esse tema merece um belo post no futuro, mas acho que deu para ter uma noção né?

3. É o mesmo que Web Analytics?

Web Analytics & Digital Analytics são sinônimos, porém o último a gente pode dizer que é a versão melhorada do primeiro, que ficou muito datado.

O termo "Web" é muito ligado à WWW (World Wide Web) e consequentemente ao browser, porém hoje a gente respira mobilidade e internet das coisas (IoT), então nada mais justo que ampliar de "Web" para "Digital".

Isso não é algo que tô puxando da cartola não, uma das maiores associações do mercado, a Digital Analytics Association (DAA), mudou do seu antigo nome "Web Analytics Association" (WAA) para o atual em 2012 justamente por esse motivo.

Logo, se você é mais Old School e prefere continuar usando o termo Web Analytics, tem problema não. Provavelmente você já usou mouse de bolinha e monitor CRT no seu passado longínquo e, assim como eu, pode ser um pouco mais apegado ao vocabulário tech-clássico.

4. E Business Intelligence / BI?

Não. E sim.

Confesso que é um pouco revoltante a descarada prostituição e buzzwordificação do termo. Tudo quanto é agência digital do novo século faz, vende e contrata gente de BI: de analista de BI, estagiário de BI, gerente de Business Intelligence, programador BI…

Aí você vai ver na descrição da função, é pra tirar relatório no Google Analytics, analisar desempenho de mídia ou confeccionar lindas e coloridas planilhas de Excel. Melhor falar que a vaga é para Digital Analytics (ou Online Analytics, ou Web Analytics ao melhor estilo mouse com bolinha).

Revoltas à parte, Business Intelligence está para o Sistema Solar assim como Digital Analytics está para o planeta Terra (#AmoAnalytics). Um está incluído no outro, mas o primeiro é monstruosamente maior.

“(…) a set of techniques and tools for the acquisition and transformation of raw data into meaningful and useful information for business analysis purposes”

Este é o "Tweet" na Wikipedia sobre Business Intelligence, e se você tiver alguns minutos de paciência verá que BI é mais amplo, complexo e encorpado que o nosso querido fitness Digital Analytics, mas isso não deixa em nada o último desinteressante, mesmo que a gente não chegue a comentar aqui sobre Ralph Kimball ou William Inmon, as duas maiores referências no tema... então bora continuar com nossa lupa analisando o nosso planeta azul de métricas.

[revolta ON] Só pra não perder o hábito: você usar o Google Analytics pra gerar relatórios de performance do seu site e dizer que faz BI seria como você fazer a arte de um cartão de visitas da empresa do seu tio (sim, você é o sobrinho) e dizer para os amiguinhos que faz planejamento e desenvolvimento estratégico de comunicação e publicidade. [/revolta OFF]

E o Big Data?

Você pode praticar Digital Analytics e Big Data ao mesmo tempo, uma vez que o último se refere a uma quantidade elefântica de dados. Ou seria baleística-azulística?

Transcendendo a biologia da coisa, Big Data, que virou outra buzzword, está ligada da coleta à extração de dados a partir de uma volume realmente monstruoso de dados, com intuito de fazer descobertas (a.k.a. gerar insights). Logo o Big Data é praticável tanto no escopo de Digital Analytics como em Business Intelligence.
Entenda melhor este processo seguindo este link.

5. Posso chamar só de Analytics?

Ô se pode. Deve. É nome short, tá na moda também. Ousaria dizer que "Analytics" é sexy. O que tenho reparado é que ficou chic, cool, descolado, e que cada vez mais ganha novos prefixos.

Veja se você já se deparou com algum desses aí:

Digital Marketing Analytics
Startup Analytics
Online Business Analytics
eCommerce Analytics
App Analytics

Só de usar, já dá uma embelezada né? #AnalyticsSuaLinda

E o significado é o mesmo pra tudo, porém já está segmentado no seu devido contexto:

"Utilização de dados para a otimização da experiência online dos seus usuários [no App / no Ecommerce / na Startup / etc…]"

6. Afinal de contas, sem enrolação, do que se trata Digital Analytics?

Agora vamos à parte mais teórica do texto, só pra deixá-lo um pouco mais sério:

A gente aprendeu antes que

Digital Analytics tem um bocado de nomes doidos, que você pode escolher na maioria das vezes como chamá-lo, mas por favor não use o termo BI pra se referir a tarefas como gerar relatórios no GA, ou ainda atestar que o CTR escapuliu do CPC que foi enquadrado pelo CPA.

E agora vamos aprender que

De uma forma bem objetiva, Digital Analytics compreende um conjunto de técnicas, processos e metodologias que visam a utilização de dados em ambientes digitais para a otimização recorrente e (melhor) tomada de decisão, percorrendo ao menos 3 áreas ou estágios:

Coleta de dados (Data Capture): ferramentas, armazenamento de dados, integridade, implementações técnicas, modelagem etc.
Visualização dos dados (Data Reporting): relatórios, painéis de controle (dashboards), monitoramento, alertas etc.
Análise dos dados (Data Analysis): geração de insights, criação de planos de ação e otimização, formação de base de conhecimento, aprendizado etc.

Avinash Kaushik

em seu livro Digital Analytics 2.0

"Digital analytics is the analysis of qualitative and quantitative data from your business and the competition to drive a continual improvement of the online experience that your customers and potential customers have which translates to your desired outcomes (both online and offline)"

Em tradução livre e descompromissada, seria algo como "Digital Analytics é a análise de dados quantitativos e qualitativos do seu negócio e dos concorrentes orientada ao melhoramento contínuo da experiência dos seus clientes e potenciais clientes que se traduz no seu retorno desejado (ambos online e offline).

E fechamos esta parte teórica com mais uma definição:

Digital Analytics Association

What is Digital Analytics?

"The science of analysis using data to understand historical patterns with an eye to improving performance and predicting the future. The analysis of digital data refers to information collected in interactive channels (online, mobile, social, etc.). Digital Analytics has become an integral part of core business strategies and maintaining a competitive edge. Digital data started the Big Data meme as it heralded the onslaught of Volume, Variety and Velocity, opening the door to new types of correlative discovery much wider. Digital Analytics is a moving target of innovation and exploration. That’s what makes it fascinating."

Realmente fascinante!

[Modo Preguiça ON] Link para o Google Tradutor

7. Que tal demonstrar algumas aplicações?

Exemplo de Dashboard postado por ∆ Studio–JQ ∆ no Dribble

Vamos explorar mais a fundo em outras postagens, porém para ficar fácil ligar o nome à coisa, alguns exemplos de aplicações de Digital Analytics:

Desenvolver dashboards (painéis de métricas).
Gerar relatórios de desempenho de mídia.
Implementar ferramentas de analytics com as melhores práticas de mercado.
Planejar e definir os indicadores chave de performance (KPI's) do seu site ou campanha.
Integrar diferentes fontes de dados em um Data Warehouse.
Utilizar os dados coletados para criar novos planejamentos de comunicação digital.
Criar e planejar testes A/B definindo métricas de sucesso.
Formar uma base de conhecimento do comportamento de navegação do seu usuário.
Desenvolver automações (e-mails, conteúdo personalizado, formulários de lead etc.) com base neste mesmo comportamento de navegação.
Criar públicos e segmentos de audiência para Remarketing.
E a lista vai longe…

Você deve ter notado vários itens acima são táticas ou ações de Marketing Digital, Inbound Marketing e/ou Growth Hacking. Não tem jeito, todos estão relacionados, ligados nessa [termo duramente censurado] gostosa capicce?

No final, a coisa funciona mais ou menos assim: você pode praticar marketing digital ou inbound sem nem olhar para Digital Analytics (shame on you). Mas na maioria das vezes, a prática de Digital Analytics estará sempre associada a outros temas. Sem dúvida uma bela de uma companhia!

8. **Bônus — Como começar?

Aproveitando toda a nova onda de Inbound & Fórmula de Lançamento, marotamente vou compartilhar 2 bônus com você:\

a. Curso oficial do Google

Se já não está praticando hoje nenhuma das atividades de Digital Analytics, ou se já está, mas quer aprofundar seus conhecimentos, minha recomendação top estrela na testa é sempre a mesma: comece pelo curso oficial do Google, o Digital Analytics Fundamentals .

É free. É top. É online e, pra quem prefere, tem legenda em português. Mas não se acostume com traduções, pois a maior parte do conteúdo de Digital Analytics na web está em inglês.

b. Avaliação de Digital Analytics Maturity

Exemplo de Relatório da Ferramenta DigitalAnalyticsMaturity.org

Mais um 0800, mas dessa vez se você não se sente confortável em ler em inglês nem tente.

Essa é uma ferramenta free de auto avaliação do modelo de maturidade de Analytics, citado anteriormente.

Espero humildemente que este artigo tenha contribuído um pouquinho mais na sua jornada pelo nirvana Analítico.

Tem sugestões e referências? Elogios de montão? Críticas vulcânicas? Deixe seu comentário!

"Muito obrigado e até a próxima!
May the Analytics be with you!!!"

9. Referências

Pra desenvolver esse texto usei as referências legalmente surripiadas e devidamente creditadas:

Escrito em 19 Dezembro 2007.

Enriquecimento de Dados

O serviço de enriquecimento e atualização de dados permite adicionar ou atualizar informações existentes ou complementares na sua base de clientes, tornando seus registros mais completos e atualizados. Desta forma, otimizando os resultados e possibilitando ações de marketing segmentadas.

Com informações mais ricas, será possível analisar o comportamento de seus potenciais clientes, seus hábitos de consumo, estilo de vida, poder de compra, dentre diversos outros atributos.

Os dados também poderão ser enriquecidos através de rotinas periódicas, possibilitando a existência de dados sempre atualizados.

Como funciona

Base de dados: recebimento da base de dados desatualizada.
Higienização: os dados duplicados, corrompidos e incompletos são retirados.
Captação e enriquecimento de diversas fontes: os dados desatualizados ou incorretos são corrigidos e as informações em branco são preenchidas - como, por exemplo, a inclusão do 9º dígito de celulares.
Atualização dos dados: a base de dados é atualizada ou reconstruída.
Base dados atualizada!

Vantagens

Confiabilidade na origem da informação.
Melhoria da qualidade da base de dados.
Rotinas de cruzamento de bases.
Direcionamento na prospecção de clientes.
Informações para inteligência de mercado.
Maior assertividade na oferta de produtos e serviços.
Maior objetividade nos processos de gestão na entrada em novos mercados.
Diminuição nos registros de inadimplência.
Maior sucesso na execução das políticas de crédito e cobrança.
Redução de gastos com correspondências e com telemarketing.

Atributos

Através do processo de enriquecimento de dados, atualizamos atributos diretamente em seu banco de dados, tais como:

Pessoa Jurídica	Pessoa Física
CNPJ; Razão social; Inscrição estadual; CNAE; Natureza jurídica; Porte empresarial; Nome fantasia; Data de abertura; Matriz/filial; Endereço; Telefones; E-mails; Quantidade de funcionários; Restrição financeira; Quadro societário; Principal executivo.	CPF; Nome; Nome da mãe; Data de nascimento; Gênero; Estado civil; Profissão; Grau de escolaridade; Telefones; E-mail; Situação do CPF.

contratar

Escrito em 27 Julho 2016.

Não posso fazer tijolos sem barro

Sherlock Holmes

"Dados! Dados!", gritou impaciente.
"Eu não posso fazer tijolos sem barro."
As Faias Cor de Cobre

E você? Como tomas suas decisões?
Tem o apoio de informações precisas sobre o seu negócio?

conheça nossos serviços

Escrito em 30 Janeiro 2017.

O estudo psicológico que deu a vitória a Trump

Donald Trump e o livro 1984, de George Orwell (Divulgação/Reuters)

"Com 70 curtidas, Kosinski sabe mais sobre um indivíduo do que seus amigos mais próximos. Com a análise de 150 curtidas, descobre mais do que seus familiares."

A campanha do bilionário analisou o comportamento de cada cidadão no Facebook para fazer propaganda política individualizada. E a privacidade, como fica?

Donald Trump, quando candidato a presidente, tinha uma estratégia de campanha espantosa para os puristas: quase não gastava com publicidade na televisão e esnobava especialistas em pesquisas de opinião. Ele fazia parecer que suas declarações de impacto eram fruto da sua compreensão profunda do que chama de “cidadãos esquecidos”.

A revista alemã Das Magazin, no entanto, parece ter encontrado a chave do marketing político de Trump: uma empresa britânica chamada Cambridge Analytica, especializada em colher e analisar dados pessoais na internet e em transformá-los em matéria prima para micro-publicidade online — ou seja, propaganda política individualizada. Alguém lembrou da distopia criada por George Orwell no livro 1984? É isso e muito mais.

Tudo começou com um estudante de psicologia polonês da Universidade Cambridge, na Inglaterra. Durante o seu doutorado em psicometria (a tentativa científica de medir a personalidade de uma pessoa), Michal Kosinski criou com um colega um app do Facebook que incentivava os usuários a responder a um questionário psicológico em troca de um “perfil” de personalidade. Milhões de pessoas responderam, e com base nesse material Kosinski desenvolveu um método que permite descobrir características individuais apenas com a análise das curtidas no Facebook. Com 70 curtidas, Kosinski sabe mais sobre um indivíduo do que seus amigos mais próximos. Com a análise de 150 curtidas, descobre mais do que seus familiares.

Em 2014, Aleksandr Kogan, um professor assistente de Cambridge, procurou Kosinski e lhe propôs participação num projeto muito bem pago para analisar o perfil de 10 milhões de americanos no Facebook. A empresa que fazia a oferta era especializada em eleições. Kosinski recusou a oferta e denunciou o colega para a direção da faculdade. Para ele, o uso do seu método em eleições era uma forma de manipulação. Aleksandr se mudou para Singapura. Kosinski foi lecionar na Universidade Stanford, na Califórnia.

Eis que, em novembro de 2015, Kosinski ouve falar de uma empresa que estava prestando serviços de análise de dados para a campanha pela saída da Inglaterra da União Europeia. Tratava-se da mesma empresa que o havia procurado um ano antes: Cambridge Analytica. Como ele temia, seu método estava sendo utilizado para manipular eleitores — e, como ficou claro em junho de 2016 com a vitória do voto pelo Brexit, com sucesso.

Em setembro de 2016, a Cambridge Analytica ganhou novo holofote em um congresso científico em Nova York. Um dos palestrantes, Alexander Nix, CEO da Cambridge Analytica, explicou na ocasião como estava cruzando dados pessoais de cidadãos americanos para usá-los na pré-campanha presidencial de Donald Trump. E fez uma alegação estarrecedora: por meio do cruzamento de dados comprados de diferentes fontes com o histórico de curtidas no Facebook, sua empresa conseguiu elaborar o psicograma completo de cada um dos adultos americanos — nada menos que 220 milhões de pessoas. Sua equipe era capaz de definir os gostos de consumo, as opiniões políticas, os hábitos e os traços culturais de cada cidadão do país com idade para votar.

Um exemplo de como esses dados foram utilizados ao longo da campanha: no dia do terceiro debate presidencial entre Trump e sua adversária Hillary Clinton, a equipe digital do republicano enviou 175.000 variações de anúncios publicitários online, cada um para grupos específicos de cidadãos. As diferenças entre esses anúncios eram sutis, mas desenhadas para atingir em cheio seus alvos, com o objetivo de sensibilizá-los segundo seus maiores medos, esperanças e preferências.

A Cambridge Analytica, segundo disse seu CEO aos autores da reportagem da Das Magazin, recebeu 15 milhões de dólares do comitê de Trump pelo serviço.

Esse uso político dos dados das redes sociais é eticamente condenável ou em nada se diferencia dos dilemas tradicionais do marketing político? Esse é um debate que está só começando.

fonte

Escrito em 18 Maio 2015.

Pentaho Day 2015: Um evento dedicado à troca de ideias sobre desenvolvimento Open Source e Pentaho.

A Comunidade Pentaho, qual a e-Setorial está inserida, vem se reunindo desde 2008 para trocar experiências, com o intuíto de fortalecer o grupo. Afinal, precisamos realizar um trabalho excelente para que sejamos reconhecidos como fortes e capazes de realizar grandes feitos com desenvolvimento Open Source. E nada como uma boa troca de ideias e conhecimentos para a obtenção de insights.

No último final de semana, nos dias 15 e 16 de maio, estivemos em Curitiba (PR) para participar do Pentaho Day 2015. Profissionais da área da tecnologia vieram de diversas áreas do Brasil e do mundo. Em média 500 participantes fizeram o maior Pentaho Day da história do evento.

A organização foi algo que chamou atenção logo de início: desde os e-mails com lembretes antes do evento, o credenciamento divido por ordem alfabética, a divisão das atrações por iniciante/avançado, a estrutura dos auditórios e salas de aula da Universidade Positivo.

Leonardo Matt (Assespro-Paraná), Lincoln Paulo Martins Moreira (Sucesu-Pr), Marcio Junior Vieira (Ambiente Livre Tecnologia), Christian Capelini (Universidade Positivo) e Pedro Alves (Pentaho) abriram o evento com uma breve introdução antes de iniciarem as atrações efetivamente. Nomes como Caio Moreno, Marcio Junior Vieira e Marcello Pontes foram responsáveis pela transmissão de conteúdos para os participantes, através de paletras, mini-cursos e apresentações de cases.

^{(palestrantes Pentaho Day 2015)}

Temas específicos foram abordados: Pentaho Data Integration, Modelagem de Dados, CGG & Pentaho Reports, Dashboards Ctools, plug-ins, Amazon Redshift, entre outros. Também foram pincelados o funcionamento de tecnologias complementares.

Além disso por diversos momentos o networking foi facilitado, tanto durante os coffees e quanto durante o jantar de confraternização ao final do primeiro dia de evento.

_{(coffee break)}

^{(jantar pós primeiro dia de evento)}

E pelo visto, não fomos os únicos animados.

can't wait! RT @pmalves: Almost all set to start #pentahoday15 pic.twitter.com/nYy63WyOd6
— Pentaho (@Pentaho) 13 maio 2015

Foto deste final de tarde na @univ_positivo #pentahoday15 #pentahoday pic.twitter.com/yrD0PpUMTb
— Francisco A da Silva (@Fafanete) 15 maio 2015

Obrigada por terem organizado um dos melhores eventos do ano. #pentahoday #pentahoday15 pic.twitter.com/xbRCgtCOj2
— Tytha M. (@tythamonteiro) 16 maio 2015

O #Pentahoday15 foi sensacional!!! Já estou animado para o próximo!!! Ano que vem será onde? Brasília? Rio? Floripa? BH? @Pentaho @pmalves
— Caio Moreno de Souza (@caiomsouza) 16 maio 2015

A união do grupo é visível. Temos um objetivo em comum: antes de concorrentes, somos responsáveis pelo fortalecimento Comunidade Pentaho e Open Source. Encontros como esse são muito importantes, mais do que apenas transmissão de conhecimento: o networking e a troca de ideias podem ser a porta de entrada para grandes inovações, tanto para empresas quanto para a sociedade.

^{(foto oficial do evento/fonte: facebook Pentaho Brasil)}

Escrito em 19 Dezembro 2007.

Serviços

Em busca da informação gerencial estratégica, reunimos as técnicas mais modernas de software, processos e pessoas especializadas para conceber soluções completas de acordo com a sua necessidade. O objetivo é fazer você concentrar seus esforços naquilo que importa: o seu produto ou serviço!

A e-Setorial disponibiliza uma completa gama de serviços voltados para:

Escrito em 19 Dezembro 2007.

Soluções de Apoio à Decisão - Business Intelligence-BI

A especialidade da e-Setorial é transformar dados em informações úteis para auxiliar a tomada de decisões, utilizando software livre para criar soluções de alto desempenho e tecnologia de ponta, sem custos de licença.

Estudamos e mapeamos todos os processos envolvidos, entregando soluções completas de acordo com a sua necessidade. Inclusive os requisitos de segurança e registro dos sistemas de gestão ISO 9001, 14001 e 18001.

A partir da integração de dados oriundos de diversas fontes, é possível organizá-los, categorizá-los e filtrá-los em uma única plataforma, assegurando a confiabilidade da decisão tomada.

Também chamados de Decision Suport System (DSS), os Sistemas de Apoio à Decisão (SAD) se utilizam de uma série de conceitos, técnicas e ferramentas para transformar dados em informações úteis para auxiliar a tomada de decisões. Aqui na e-Setorial gostamos de chamar o resultado do nosso trabalho de Soluções de Apoio à Decisão devido ao carater definitivo, eficaz e eficiente que atingem nas instituições onde atuamos.

Para a elaboração de um sistema deste tipo, normalmente muitos profissionais são envolvidos, principalmente nas áreas da Tecnologia da Informação e Comunicação (TIC) e de Negócios e, especificamente, nas áreas de Business Intelligence (BI), Business Analytics (BA), Data Mining, Machine Learning, Estatística, Banco de Dados, Infraestrutura de Software, Inteligência Competitiva, Marketing, Engenharia e Gestão do Conhecimento, entre outras.

A interação de distintos perfis de profissionais garante, além da performance e segurança, que os pontos importantes para a instituição (Indicadores Chave - KPI) sejam definidos pelas áreas que têm o devido conhecimento, maximizando o sucesso dos projetos.

Workflow

Fontes: extração de dados de qualquer origem.
Coletor: responsável pela coleta dos dados.
Transformação: limpa, desnormaliza e pré-calcula os dados antes de serem carregados ao data warehouse. Assim, as análises são otimizadas - possuindo dados mais fáceis, limpos e consistentes.
Data Warehouse: bancos de dados analíticos.
Cache em memória: as métricas mais utilizadas são lidas e calculadas com antecedência a fim de assegurar uma performance otimizada.
Camada de metadados: capacidade de alteração nas nomenclaturas dos dados, de forma a facilitar a compreensão da equipe tomadora de decisões.
Visualização: depois de processados, os dados estão prontos para serem consumidos. Oferecemos ferramentas visuais intuitivas que permitem a análise e compartilhamento das informações com sua equipe em toda a rede.
Insights inteligentes para melhorar seus resultados.

Vantagens

Painéis interativos, com informações concisas.
Confiabilidade nas informações.
Percepções oportunas, precisas, valiosas e práticas.
Integração de dados de diversas fontes em um único armazém de dados.
Todos os dados são atualizados diariamente.
Agilidade no processo de tomada de decisões.
Simplificação de processos e redução de custos.
Entenda quem são seus melhores clientes, funcionários e produtos.
Informação detalhada e de fácil acesso.
Possibilidade de integração com softwares pré-existentes.

Cubo Analítico

Com todos os Indicadores Chave (KPI) definidos, todas as regras de negócio documentadas e a origem de todos os dados conhecida, se inicia o desenvolvimento do SAD. A primeira etapa consiste em ler os dados de todas as fontes definidas no projeto, integrando-os em um grande armazém de dados, o Data Warehouse (DW). Nestas etapas contemplamos os itens 1 a 4 do workflow.

A partir daí vem a grande sacada do Business Intelligence: são criados os Cubos Analíticos, também chamados de Cubos Multidimensionais, um para cada fato a ser analisado e sem limite de quantidade de Dimensões.

Um único cubo deve ser capaz de oferecer, com muita agilidade, todas as informações que um gestor necessita sobre o fato que o cubo analisa. #Todas.

O exemplo ao lado é uma representação gráfica (gif) de um cubo de Movimentações Financeiras composto por apenas 3 dimensões:

Tipo de Movimentação Financeira (o que);
Data (quando);
Localidade (onde).

Cada uma das dimensões pode ser utilizada para filtrar os dados e selecionar apenas o período desejado. A porção em vermelho corresponde a seleção feita e no último quadro do gif percebemos o quadrado que indica a intersecção de todos os filtros, ou seja, a resposta desejada.

Filtros aplicados:

Tipo de Movimentação = Vendas;

Data = Ano de 2017;

Localidade = Estado de São Paulo.

Painéis Interativos

Agora que o cubo analítico é capaz de dar todas as respostas necessárias ao gestor, a próxima etapa é criar painéis interativos (dashboards) que permitam ao próprio usuário refinar suas consultas, simplesmente selecionando por exemplo o Ano e o Mês, sempre com a possibilidade de filtrar ainda mais os dados, clicando nos gráficos (de barras, pizza, etc.) e obtendo respostas precisas e praticamente automáticas, pois todas as técnicas e ferramentas utilizadas permitem que estes dados sejam pré-computados e de fácil acesso.

Tendências e desvios do padrão nos dados da instituiçao são facilmente encontrados, visualmente, de forma clara e intuitiva, conforme exemplos de dashboards abaixo, alguns da e-Setorial e outros da Pentaho:

Conclusão

"Uma Solução de Apoio à Decisão não precisa custar milhões de dólares tampouco exigir a venda casada de equipamentos, treinamentos, consultorias e serviços. Pelo contrário, com software livre pode-se atingir resultados excelentes e sustentáveis utilizando o equipamento já existente, com qualquer sistema operacional do mercado, podendo ser acessado desde celulares e computadores até mesmo em grandes painéis televisores. Isso tudo com toda a segurança e liberdade de quem tem todo o código fonte em seu poder."

E você?
Vai tomar melhores decisões e se destacar da concorrência?
Tome decisões inteligentes.

entre em contato

Go open source