`
linguagem
` `
topico
` `
nome
`Datamining`
` `
titulo
`Datamining`
` `
descritor
`Datamining tarefa metodos ferramentas
`
` `
lead
`Apoio para descoberta do conhecimento atraves da avaliação do resultado da atividade que utiliza técnicas estatisticas e computacionais para descobrir padrões e tendencias a partir de grandes quantidades de dados.
Pespectivas: estatistica, de banco de dados e aprendizado de maquina`
` `
melhorar
`
`
` `
referencia
`
`
` `
referencia
`
`
` `
origem
`WDMining.xml`
` `
` `
topico
` `
titulo
`Ação a ser tomada para descoberta de conhecimento`
` `
desc
`
Problema resolvido
Atender a um objetivo
Exemplo: melhorar estratégia de retenção de clientes
Exemplos:
oferta de um novo aparelho
sugestão de um plano mais adquado
migração para um plano de desconto
Mineração:
Saida:
Lista com clientes a contactar
Entrada:
Todas as variaveis de analise
Num, tipo, varivael, periodo historico
Exemplos:
1, aparelho, tecnologai(A/D)
2, conta, plano
3, demografica, idade
4, sac, solicatações de atendimento, 4 meses (d-4 a d-1)
Atividades:
Modelo preditivo de Churn (classificação)
Prob Churn=Função matemática (perfil do cliente)
Segmentação dos Churners
Modelo de rentabilidade (valor)
Simulação para re-adequação de planos
Performance do modelo escolhido
Atividades variantes
Técnicas (regressão logistica, arvore de decisão, rede neurais)
Metodos de transformações de variaveis
Critérios para eleminação de valores aberrantes
Critérios para preenchimento de valores nulos
Amostra
Conjunto de registros onde metodo é desenvolvido
Conjunto de teste
Conjunto de validação
Seleção,Extração e Transformação
Saidas:
Todas as variaveis de analise
Entradas:
Datawarehouse (DW)
CDR
Billing
SAC
Atividades:
Analise das base
Junção de colunas
Filtros
Consistência
Novas variaveis`
` `
` `
topico
` `
titulo
`Processo KDD`
` `
desc
`
`
` `
` `
topico
` `
titulo
`Processo CRISP-DM `
` `
desc
`
`
` `
` `
topico
` `
titulo
`Descoberta, conformidade e aprimoramento`
` `
desc
`
`
` `
` `
topico
` `
titulo
`Evolução das tecnicas de visualização`
` `
desc
`
`
` `
` `
topico
` `
titulo
`Tarefas`
` `
desc
`
Descrição
Classificação
Estimação ou regressão
Predição
Agrupamento (Clustering)
Associação`
` `
` `
topico
` `
titulo
`Metodos ou técnicas`
` `
desc
`
Aprendizado supervisionado (preditivo, ) e não supervisionado (descritivo, precisão de pre-categorização) e semisupervisionados
Classificação de acordo com as tarefas que executam:
Associações
Classificações
Arvore de decisão - classificação
Algoritimos: ID3, C4.5, SLIQ, SPRINT, BOAT.
Bayesiana - simples e de alto poder preditivo
Algoritimos: naive Bayes, Bayesian Belief Networks.
Baseadas em regras (tabela de decisão)- estrutura de muitas variaveis
Algoritimos: AQ, CN2, RIPPER.
Rede neurais - independe de valores certos, identifica padrões para os quia nunca forma treinados. Tem camadas de entrada, escondida e saida
Algoritimos: backpropagation.
SVM (support vector machine)- clasificação e predição
Classificação por regras de associação - busca padrão de associações entre itens (conceito de frequencia) e categorias.
Algoritimos: CBA, CMAR, CPAR, CARM.
Aprendizado tardio (lasy learners) - aprendizado incremental. Usado em suporte a usuários, medicina, engenharia, direito
Algoritimos: kNN,CBR
Algoritimo genético - teoria da evolução - só os mais fortes sobrevivem ou outro critério de parada.
Conjuntos aproximados - Valores discretos, imprecisos ou errados. Aproxima altos e baixos.
Conjuntos nebulosos (Fuzzy set) - Grau de flexibilidade entre categorias. Ex: 10 a 30-baixo 20 a 50 - medio 40 a 70 - alto
Predições numéricas
Regressão linear - Relação entree as variaveis preditoras e a resposta seguem comportamento linear. Ex. y= b + wx
Regressão não linear - função polinomial. outros: Logistic Regression, Poisson Regression, Log-Linear models
Agrupamento
Metodos de Particionamento - n registros com k agrupamento em que k<= n
Algoritimos: k-Means , k-Medoids (PAM, CLARA)
Metodos hierarquicos - dendograma
Aglomerativos (AGNES, CURE) e Divisivos (DIANA)
Metodos baseados na densidade - DBSCAN, OPTTICS, DENCLUE
Metodos baseados em grade - STING, WaveCluster
Metdos baseados em modelos - EM, COBWEB, CLASSIT`
` `
` `
topico
` `
titulo
`Estruturas complexas`
` `
desc
`
Fluxo de dados
Series temporais
Grafos
Relacionamentos
Dados multirelacionais
Objetos
Dados espaciais
Dados multimidia
Textos
Internet`
` `
` `
topico
` `
titulo
`Ferramentas`
` `
desc
`
Clementine - SPSS suporta CRISP-DM
SAS enterprise miner suite- mais conhecida
SAS Text Miler - mineraçã de texto
WEKA - livre - melhor da livre
Oracle data mining -
KXEN Analytic Framework
IBM intelligent Miner
Pimiento- livre- mineração de texto
MDR- livre - interações entre atributos
LingPipe- livre - analise linguistica
KNIME - livre- implementa paradigma pipilining`
` `
` `
topico
` `
titulo
`Big Data`
` `
desc
`
plataformas baseadas em MapReduce, computação paralela e tecnologias associadas como sistemas de arquivos distribuidos e NoSQL
Hadoop - processamento em batch - GFS-> HDFS, MapReduce _> MapReduce, BigTable-> HBase
Hive - rigor Sql
Pig- controle de alto nivel do Hadoop
Mahout - datamining
Banco de dados colunar -
orientado a colunas- Mais efiente qudo menos colunas e substituir alguns valores da coluna
orientado a linhas - mais eficiente qdo muitas colunas de uma linha é solicitada e inserção de novas linhas`
` `
` `
`