Arquivo.Xml.Html

linguagem` `

topico` `

nome`Datamining`

` `

titulo`Datamining`

` `

descritor`Datamining tarefa metodos ferramentas
`

` `

lead`Apoio para descoberta do conhecimento atraves da avaliação do resultado da atividade que utiliza técnicas estatisticas e computacionais para descobrir padrões e tendencias a partir de grandes quantidades de dados.
Contexto: estatistica, de banco de dados e aprendizado de maquina
Exemplos`

` `

melhorar`

` `

referencia`
`

` `

referencia`
`

` `

origem`WDMining.xml`

` `

topico` `

titulo`Ação a ser tomada para descoberta de conhecimento`

` `

desc`

Problema resolvido
Atender a um objetivo
- Exemplo: melhorar estratégia de retenção de clientes
  - Exemplos:
    - oferta de um novo aparelho
    - sugestão de um plano mais adquado
    - migração para um plano de desconto
- Exemplo: melhorar estratégia de retenção de alunos
  - Exemplos:
    - verificação do porque e para onde estão saindo
    - ofertar novas modalidades de cursos
Mineração:
Saida:
- Lista com clientes a contactar
Entrada:
- Todas as variaveis de analise
  Num, tipo, varivael, periodo historico
  Exemplos:
  - 1, aparelho, tecnologai(A/D)
  - 2, conta, plano
  - 3, demografica, idade
  - 4, sac, solicatações de atendimento, 4 meses (d-4 a d-1)
Atividades:
- Modelo preditivo de Churn (classificação)
  Prob Churn=Função matemática (perfil do cliente)
- Segmentação dos Churners
- Modelo de rentabilidade (valor)
- Simulação para re-adequação de planos
- Performance do modelo escolhido
Atividades variantes
- Técnicas (regressão logistica, arvore de decisão, rede neurais)
- Metodos de transformações de variaveis
- Critérios para eleminação de valores aberrantes
- Critérios para preenchimento de valores nulos
Amostra
- Conjunto de registros onde metodo é desenvolvido
- Conjunto de teste
- Conjunto de validação
Seleção,Extração e Transformação
- Saidas:
  Todas as variaveis de analise
- Entradas:
  - Datawarehouse (DW)
  - CDR
  - Billing
  - SAC
- Atividades:
  - Analise das base
  - Junção de colunas
  - Filtros
  - Consistência
  - Novas variaveis`

` `

topico` `

titulo`Tarefas KDD`

` `

desc`
Exemplos das tarefas knowledge-discovery in databases(KDD)

Descrição
Classificação
Estimação ou regressão
Predição
Agrupamento (Clustering)
Associação`

` `

topico` `

titulo`Processo KDD`

` `

desc`

` `

topico` `

titulo`Processo CRISP-DM `

` `

desc`

` `

topico` `

titulo`Descoberta, conformidade e aprimoramento`

` `

desc`

` `

topico` `

titulo`Evolução das tecnicas de visualização`

` `

desc`

` `

topico` `

titulo`Metodos ou técnicas`

` `

desc`

Aprendizado supervisionado (preditivo, ) e não supervisionado (descritivo, precisão de pre-categorização) e semisupervisionados
Classificação de acordo com as tarefas que executam:

Associações
Classificações
- Arvore de decisão - classificação
  Algoritimos: ID3, C4.5, SLIQ, SPRINT, BOAT.
- Bayesiana - simples e de alto poder preditivo
- Algoritimos: naive Bayes, Bayesian Belief Networks.
- Baseadas em regras (tabela de decisão)- estrutura de muitas variaveis
  Algoritimos: AQ, CN2, RIPPER.
- Rede neurais - independe de valores certos, identifica padrões para os quia nunca forma treinados. Tem camadas de entrada, escondida e saida
  Algoritimos: backpropagation.
- SVM (support vector machine)- clasificação e predição
- Classificação por regras de associação - busca padrão de associações entre itens (conceito de frequencia) e categorias.
  Algoritimos: CBA, CMAR, CPAR, CARM.
- Aprendizado tardio (lasy learners) - aprendizado incremental. Usado em suporte a usuários, medicina, engenharia, direito
  Algoritimos: kNN,CBR
- Algoritimo genético - teoria da evolução - só os mais fortes sobrevivem ou outro critério de parada.
- Conjuntos aproximados - Valores discretos, imprecisos ou errados. Aproxima altos e baixos.
- Conjuntos nebulosos (Fuzzy set) - Grau de flexibilidade entre categorias. Ex: 10 a 30-baixo 20 a 50 - medio 40 a 70 - alto

Predições numéricas
- Regressão linear - Relação entree as variaveis preditoras e a resposta seguem comportamento linear. Ex. y= b + wx
- Regressão não linear - função polinomial. outros: Logistic Regression, Poisson Regression, Log-Linear models
Agrupamento
- Metodos de Particionamento - n registros com k agrupamento em que k<= n
  Algoritimos: k-Means , k-Medoids (PAM, CLARA)
- Metodos hierarquicos - dendograma
  Aglomerativos (AGNES, CURE) e Divisivos (DIANA)
- Metodos baseados na densidade - DBSCAN, OPTTICS, DENCLUE
- Metodos baseados em grade - STING, WaveCluster
- Metdos baseados em modelos - EM, COBWEB, CLASSIT`

` `

topico` `

titulo`Estruturas complexas`

` `

desc`

Fluxo de dados
Series temporais
Grafos
Relacionamentos
Dados multirelacionais
Objetos
Dados espaciais
Dados multimidia
Textos
Internet`

` `

topico` `

titulo`Ferramentas`

` `

desc`

Clementine - SPSS suporta CRISP-DM
SAS enterprise miner suite- mais conhecida
SAS Text Miler - mineraçã de texto
WEKA - livre - melhor da livre
Oracle data mining -
KXEN Analytic Framework
IBM intelligent Miner
Pimiento- livre- mineração de texto
MDR- livre - interações entre atributos
LingPipe- livre - analise linguistica
KNIME - livre- implementa paradigma pipilining`

` `

topico` `

titulo`Big Data`

` `

desc`

plataformas baseadas em MapReduce, computação paralela e tecnologias associadas como sistemas de arquivos distribuidos e NoSQL
Hadoop - processamento em batch - GFS-> HDFS, MapReduce _> MapReduce, BigTable-> HBase
Hive - rigor Sql
Pig- controle de alto nivel do Hadoop
Mahout - datamining
Banco de dados colunar -
orientado a colunas- Mais efiente qudo menos colunas e substituir alguns valores da coluna
orientado a linhas - mais eficiente qdo muitas colunas de uma linha é solicitada e inserção de novas linhas`

` `