`
linguagem` `
topico` `
nome`Datamining`
` `
titulo`Datamining`
` `
descritor`Datamining tarefa metodos ferramentas
`
` `
lead`Apoio para descoberta do conhecimento atraves da avaliação do resultado da atividade que utiliza técnicas estatisticas e computacionais para descobrir padrões e tendencias a partir de grandes quantidades de dados.
Pespectivas: estatistica, de banco de dados e aprendizado de maquina`
` `
melhorar`Melhorar`
` `
referencia`
`
` `
referencia`
`
` `
origem`WDMining.xml`
` `
` `
topico` `
titulo`Ação a ser tomada para descoberta de conhecimento`
` `
desc
  • Problema resolvido
    Atender a um objetivo
    • Exemplo: melhorar estratégia de retenção de clientes
      • Exemplos:
        • oferta de um novo aparelho
        • sugestão de um plano mais adquado
        • migração para um plano de desconto
  • Mineração:
    Saida:
    • Lista com clientes a contactar
    Entrada:
    • Todas as variaveis de analise
      Num, tipo, varivael, periodo historico
      Exemplos:
      • 1, aparelho, tecnologai(A/D)
      • 2, conta, plano
      • 3, demografica, idade
      • 4, sac, solicatações de atendimento, 4 meses (d-4 a d-1)
    Atividades:
    • Modelo preditivo de Churn (classificação)
      Prob Churn=Função matemática (perfil do cliente)
    • Segmentação dos Churners
    • Modelo de rentabilidade (valor)
    • Simulação para re-adequação de planos
    • Performance do modelo escolhido
    Atividades variantes
    • Técnicas (regressão logistica, arvore de decisão, rede neurais)
    • Metodos de transformações de variaveis
    • Critérios para eleminação de valores aberrantes
    • Critérios para preenchimento de valores nulos
    Amostra
    • Conjunto de registros  onde metodo é desenvolvido
    • Conjunto de teste
    • Conjunto de validação

  • Seleção,Extração e Transformação
    • Saidas:
      Todas as variaveis de analise
    • Entradas:
      • Datawarehouse (DW)
      • CDR
      • Billing
      • SAC
    • Atividades:
      • Analise das base
      • Junção de colunas
      • Filtros
      • Consistência
      • Novas variaveis`
` `
` `
topico` `
titulo`Processo KDD`
` `
desc`
`
` `
` `
topico` `
titulo`Processo CRISP-DM `
` `
desc`
`
` `
` `
topico` `
titulo`Descoberta, conformidade e aprimoramento`
` `
desc` `
` `
` `
topico` `
titulo`Evolução das tecnicas de visualização`
` `
desc` `
` `
` `
topico` `
titulo`Tarefas`
` `
desc
  • Descrição
  • Classificação
  • Estimação ou regressão
  • Predição
  • Agrupamento (Clustering)
  • Associação`
` `
` `
topico` `
titulo`Metodos ou técnicas`
` `
desc`

Aprendizado supervisionado (preditivo, ) e não supervisionado (descritivo, precisão de pre-categorização) e semisupervisionados
Classificação de acordo com as tarefas que executam:
  • Associações
  • Classificações
    • Arvore de decisão - classificação
      Algoritimos: ID3, C4.5, SLIQ, SPRINT, BOAT.
    • Bayesiana - simples e de alto poder preditivo
    • Algoritimos: naive Bayes, Bayesian Belief Networks.
    • Baseadas em regras (tabela de decisão)- estrutura de muitas variaveis
      Algoritimos: AQ, CN2, RIPPER.
    • Rede neurais - independe de valores certos, identifica padrões para os quia nunca forma treinados. Tem camadas de entrada, escondida e saida
      Algoritimos: backpropagation.
    • SVM (support vector machine)- clasificação e predição
    • Classificação por regras de associação - busca padrão de associações entre itens (conceito de frequencia) e categorias.
      Algoritimos: CBA, CMAR, CPAR, CARM.
    • Aprendizado tardio (lasy learners) - aprendizado incremental. Usado em suporte a usuários, medicina, engenharia, direito
      Algoritimos: kNN,CBR
    • Algoritimo genético - teoria da evolução - só os mais fortes sobrevivem ou outro critério de parada.
    • Conjuntos aproximados - Valores discretos, imprecisos ou errados. Aproxima altos e baixos.
    • Conjuntos nebulosos (Fuzzy set) - Grau de flexibilidade entre categorias. Ex: 10 a 30-baixo 20 a 50 - medio 40 a 70 - alto
  • Predições numéricas
    • Regressão linear - Relação entree as variaveis preditoras e a resposta seguem comportamento linear. Ex. y= b + wx
    • Regressão não linear - função polinomial. outros: Logistic Regression, Poisson Regression, Log-Linear models
  • Agrupamento
    • Metodos de Particionamento - n registros com k agrupamento em que k<= n
      Algoritimos: k-Means , k-Medoids (PAM, CLARA)
    • Metodos hierarquicos - dendograma
      Aglomerativos (AGNES, CURE) e Divisivos (DIANA)
    • Metodos baseados na densidade - DBSCAN, OPTTICS, DENCLUE
    • Metodos baseados em grade - STING, WaveCluster
    • Metdos baseados em modelos - EM, COBWEB, CLASSIT`
` `
` `
topico` `
titulo`Estruturas complexas`
` `
desc
  • Fluxo de dados
  • Series temporais
  • Grafos
  • Relacionamentos
  • Dados multirelacionais
  • Objetos
  • Dados espaciais
  • Dados multimidia
  • Textos
  • Internet`
` `
` `
topico` `
titulo`Ferramentas`
` `
desc
  • Clementine - SPSS suporta CRISP-DM
  • SAS enterprise miner suite- mais conhecida
  • SAS Text Miler - mineraçã de texto
  • WEKA - livre - melhor da livre
  • Oracle data mining -
  • KXEN Analytic Framework
  • IBM intelligent Miner
  • Pimiento- livre- mineração de texto
  • MDR- livre - interações entre atributos
  • LingPipe- livre - analise linguistica
  • KNIME - livre- implementa paradigma pipilining`
` `
` `
topico` `
titulo`Big Data`
` `
desc
  • plataformas baseadas em MapReduce, computação paralela e tecnologias associadas como sistemas de arquivos distribuidos e NoSQL
  • Hadoop - processamento em batch - GFS-> HDFS, MapReduce _> MapReduce, BigTable-> HBase
  • Hive - rigor Sql
  • Pig- controle de alto nivel do Hadoop
  • Mahout - datamining
  • Banco de dados colunar -
    orientado a colunas- Mais efiente qudo menos colunas e substituir alguns valores da coluna
    orientado a linhas - mais eficiente qdo muitas colunas de uma linha é solicitada e inserção de novas linhas`
` `
` `
`