A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo.

Apresentações semelhantes


Apresentação em tema: "DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo."— Transcrição da apresentação:

1 DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo Fechine Régis de Araújo Universidade Federal de Campina Grande Departamento de Sistemas e Computação Curso de Pós-Graduação em Ciência da Computação

2 DSC/CCT/UFCG 2 2 Recuperação da Informação Tópico Conceitos Básicos e IA

3 DSC/CCT/UFCG 3 Recuperação da informação significa a operação pela qual se seleciona documentos, sobre tópicos específicos, a partir do acervo, em função da demanda do usuário. O processo de recuperação de informação consiste em identificar, no conjunto de documentos(corpus) de um sistema, quais atendem à necessidade de informação do usuário. Recuperação da Informação

4 DSC/CCT/UFCG 4 SRI – Etapas Principais Aquisição (seleção) dos documentos Preparação dos documentos Indexação dos documentos Armazenamento Recuperação Busca (casamento com a consulta do usuário) Ordenação dos documentos recuperados

5 DSC/CCT/UFCG 5 SRI – Tarefas e Modelos (FERNEDA, 2003)

6 DSC/CCT/UFCG 6 Baseado na lógica booleana. Considera uma consulta como uma expressão booleana convencional formada com os conectivos lógicos AND, OR e NOT. Sua estratégia de recuperação é baseada no critério de decisão binária. SRI – Modelo Booleano

7 DSC/CCT/UFCG 7 (FERNEDA, 2003) SRI – Modelo Booleano...

8 DSC/CCT/UFCG 8 Associa pesos aos termos de indexação e aos termos da expressão de busca. O resultado da utilização destes pesos é a ordenação dos documentos pelo grau de similaridade em relação à expressão de busca. Cada elemento do vetor é normalizado para assumir valores entre 0 e 1. Para o cálculo do peso é considerado o n° de vezes que o termo aparece no documento e o n° de vezes que o termo aparece no corpus de documentos. SRI – Modelo Vetorial

9 DSC/CCT/UFCG 9 A representação gráfica de dois documentos: DOC1, com termos de indexação t1 e t3, com pesos 0.3 e 0.5, e DOC2 com termos de indexação t1, t2 e t3, com pesos 0.5, 0.4 e 0.3, dá-se: SRI – Modelo Vetorial...

10 DSC/CCT/UFCG 10 Se for utilizada uma expressão de busca eBUSCA=(0.2,0.35,0.1), juntamente com os documentos DOC1 e DOC2, em um espaço vetorial formado pelos termos t1, t2 e t3, tem-se a representação gráfica a seguir: SRI – Modelo Vetorial...

11 DSC/CCT/UFCG 11 Grau de similaridade: cosseno do ângulo entre documentos ou entre consultas e documentos: w i,x é o peso do i-ésimo elemento do vetor x e w i,y é o peso do i-ésimo elemento do vetor y. SRI – Modelo Vetorial...

12 DSC/CCT/UFCG 12 SRI – Modelo Vetorial...

13 DSC/CCT/UFCG 13 SRI – Modelo Vetorial... Cálculo dos Pesos: Método TF-IDF Term Frequency (TF) - Frequência do termo no documento - Quanto maior, mais relevante é o termo para descrever o documento Inverse Document Frequency (IDF) - Inverso da frequência do termo entre os documentos da coleção -Termo que aparece em muitos documentos não é útil para distinguir relevância Peso associado ao termo tenta balancear os dois fatores

14 DSC/CCT/UFCG 14 É possível restringir a quantidade de documentos recuperados definindo um limite mínimo para o valor de similaridade. Um limite de 0.5, indica que uma expressão de busca obterá como resultado apenas os documentos cujo valor de similaridade for superior a 50%. SRI – Modelo Vetorial...

15 DSC/CCT/UFCG 15 O Modelo Probabilístico representa o processo de recuperação de informação sob um ponto de vista probabilístico, ou seja, calcula a probabilidade de que o documento seja relevante para a consulta. SRI – Modelo Probabilístico

16 DSC/CCT/UFCG 16 Dada uma expressão de busca, podem-se dividir os N documentos de um corpus em quatro subconjuntos: o conjunto dos documentos relevantes (Rel) o conjunto dos documentos recuperados (Rec) o conjunto dos documentos relevantes e recuperados (RR) e o conjunto dos documentos não relevantes e não recuperados. SRI – Modelo Probabilístico...

17 DSC/CCT/UFCG 17 O resultado ideal de uma busca é o conjunto que contenha todos e apenas os documentos relevantes para o usuário, isto é, todo o conjunto Rel. SRI – Modelo Probabilístico...

18 DSC/CCT/UFCG 18 Após obter os resultados da primeira busca, é possível melhorar os resultados a partir de interações com o usuário. Seja Rel o conjunto de documentos relevantes, e o complemento de Rel, a probabilidade de um documento d ser relevante em relação à expressão de busca é designada por p(Rel|d). SRI – Modelo Probabilístico...

19 DSC/CCT/UFCG 19 A similaridade (sim) de um documento d em relação à expressão de busca eBUSCA é definida como: SRI – Modelo Probabilístico...

20 DSC/CCT/UFCG 20 Sistemas Especialistas Algoritmos Genéticos Redes Neurais SRI – Outros Modelos

21 DSC/CCT/UFCG 21 A recuperação de informação é um processo cuja eficiência depende grande parte do conhecimento sobre o assunto. SRI – Sistemas Especialistas... Exemplo: Sistema IOTA Esses conceitos são identificados utilizando-se cálculos estatísticos de co-ocorrência de pares de palavras. Se duas palavras aparecerem próximas em vários documentos do corpus então elas possuem um certo relacionamento.

22 DSC/CCT/UFCG 22 Exemplo: Sistema RUBRIC Rule-Basic Retrieval of Information by Computer O usuário é capaz de construir sua própria base de conhecimento sobre um determinado assunto a partir da especificação e organização de conceitos na forma de uma rede de frames. SRI – Sistemas Especialistas...

23 DSC/CCT/UFCG 23 Exemplo: Sistema RUBRIC Para cada conceito (frame) o usuário define um conjunto de regras do tipo se...então que caracteriza o conceito. Ex: Se recuperação e informação então recuperação de informação (0.5) Aparecendo as palavrasrecuperação e informação no mesmo documento, a probabilidade de se tratar de recuperação de informação é de 50%. SRI – Sistemas Especialistas...

24 DSC/CCT/UFCG 24 As representações dos documentos podem ser vistas como um tipo de um código genético. Nesse código genético um cromossomo é representado por um vetor binário, em que cada elemento armazena o valor 0 ou 1 (presença ou ausência de um determinado termo na representação do documento). SRI – Algoritmos Genéticos

25 DSC/CCT/UFCG 25 SRI – Algoritmos Genéticos...

26 DSC/CCT/UFCG 26 Uma tarefa comum para um sistema de recuperação de informação é pesquisar documentos relevantes que satisfazem uma determinada expressão de busca a partir dos termos de indexação. Essa organização pode ser comparada a uma estrutura de uma rede neural. SRI – Redes Neurais

27 DSC/CCT/UFCG 27 (FERNEDA, 2003 ) Entrada da rede neural Saída da rede neural SRI – Redes Neurais...

28 DSC/CCT/UFCG 28 Recuperar informação implica operar seletivamente um estoque de informação, o que envolve processos cognitivos que dificilmente podem ser formalizados através de um algoritmo. Mesmo que um modelo computacional de recuperação da informação tenha como base algum tipo de vocabulário e organização lógica, a equiparação dos significados supostamente implícitos depende de uma análise intelectual. SRI – Considerações Finais


Carregar ppt "DSC/CCT/UFC G Inteligência Artificial Recuperação da Informação (Conceitos Básicos) Prof. a Joseana Macêdo Fechine Régis de Araújo Prof. a Joseana Macêdo."

Apresentações semelhantes


Anúncios Google