`
linguagem` `
topico` `
nome`RI - Recuperação da Informação`
` `
titulo`RI`
` `
descritor`recuperacao informacao`
` `
lead`Representação, armazenamento, organização e acesso a itens de informação, como: documentos, página.s Web, catálogos online, registros estruturados e semiestruturados, objetos de mídia e etc.
Atualmente: modelagem, classificação de textos, arquitetura de sistemas, interfaces do usuário`
` `
melhorar`Melhorar`
` `
referencia`RI conceitos e tecnologia das maquinas de busca,
`
` `
referencia`An introduction to information retrival`
` `
origem`RI.xml`
` `
` `
topico` `
titulo` Visão do usuário`
` `
desc` Busca por informação de interesse:
  • Usuário
    • Busca
      • Navegação
      • Busca
    • Navegação
      • Busca
      • Navegação
  • Coleção de documentos
    • Busca
      • Navegação
      • Busca
    • Navegação
      • Busca
      • Navegação
     

`
` `
` `
topico` `
titulo` Taxonomia de modelos de RI`
` `
desc`
  • Propriedade do documento
    • Texto
      • Modelos cássicos de RI (Texto não estruturado)
        • Booleano - Teoria dos conjuntos
          • Fuzzy
          • Booleano estendido
          • Baseados em conjunto
        • Vetorial - Algébrico
          • Vetorial generalizado
          • Indexação semântica latente
          • Redes neurais
        • Probabilístico
          • BM25
          • Modelos de linguagem
          • Divergência de aleatoriedade
          • Redes bayesianas
      • Texto Semiestruturado
        • Nodos proximais, outros
        • baseados em Xml
    • Links
      • Web
        • Page rank
        • Hubs e autoridades
    • Multimídia
      • Recuperação multimídia
        • Recuperação de imagens
        • Recuperação de audio e música
        • Recuperação de vídio
`
` `
` `
topico` `
titulo` Abordagem de RI`
` `
desc`
  • RI Clássica
    • Modelagem --> Avaliação da recuperação -->Realimentação de relevância & expansão de consultas
  • Documentos & consultas
    • Documentos: linguagens & propriedades --> Consultas: linguagens & propriedades --> Classificação de textos
  • Indexação & Buscas
  • Coleta & Recuperação na Web
    • Recuperação na Web --> Coleta na Web
`
` `
` `
topico` `
titulo`Caracteristicas de um modelo de RI`
` `
desc
Modelo de RI = [D, Q, F, R(qi, dj)]

onde:
D- conjunto composto por visões lógicas (ou representações) dos documentos. Representações chamada de Documentos.
Q - conjunto composto por visões lógicas (ou representações) das necessidadesde informação dos usuários. Representações chamada de consultas.
F - arcabouço para modelar as representações dos documentos, das consultas e dos relacionamentos como: conjuntos e relações booleanas, vetores e operações de algebra linear, espaços amostrais e distribuições de probabilidades.
R(qi, dj) - função de ranqueamento que associa um número real à representação de uma consulta e de um documento


Grau de similiraridade(número real) =  Ranquemento(qi, dj)     recebe como entrada as representação das consultas (qi) e do documento (dj) e atribui um grau de similiradade ao documento dj em relação á consulta qi


`
` `
` `
topico` `
titulo`Arquitetura do software de um sistema de RI`
` `
desc

A coleta é um módulo adicional para os sitemas de RI para a Web, bem como as máquinas de busca.

`
` `
` `
topico` `
titulo` Processo de indexação, recuperação e ranqueamanto de documentos`
` `
desc`
  `
` `
` `
topico` `
titulo` Conceitos básico`
` `
desc`
  • Termos de indexação ou palavra-chave
    • É uma palavra ou um grupo de palavras consecutivasem um documento. É qq palavra da coleção. Pode ser tópicos e são pré selecionadas.
  • Vocabulário (V)
    É o conjunto de todos os termos de indexação distintos na coleção. V={k1,....,kn}. O tamanho do vocabulário é t. Onde k é um termo de indexação genérico.
  • Matriz de termos e documento


    • d1
      d2

      k1
      f1,1
      f1,2
      k2
      [
      f2,1
      f2,2
      ]
      k3

      f3,1
      f3,3


`
` `
` `
topico` `
titulo` Modelo booleano`
` `
desc`
  • É um modelo de recuperação simples baseado na teoria dos conjuntos e na algebra booleana.
  •  Uma consulta é uma expressão Booleana convencional sobre os termos da indexação.
    similaridade(dj,q) =



    1
    se Ec(q) | c(q)=c(dj)
    sim(dj,q)= {




    0
    caso contrário

`
` `
` `
topico` `
titulo` Ponderação de termos`
` `
desc`
  • A fim de caracterizar a importancia dos termos, um peso wi,j,  wi,j > 0 á assoado a qq termo de indexação ki de um documento dj da coleção. Se wi,j = 0 o termo de indexação ki não aparece no documento.
  • A frequencia de documento para um termo ki é o numero de documentos nos quais ele ocorre e é indicado simplesmente como ni. note que ni<= Fv
    • Fi = somatório de j=1 até N para Fi,j
`
` `
` `
topico` `
titulo` Ponderação TF-IDF`
` `
desc`
  • TF termo frequencia   IDF frquencia inversa do documento
`
` `
` `
`