A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini

Apresentações semelhantes


Apresentação em tema: "1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini"— Transcrição da apresentação:

1 1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini

2 2 de 38 Rogerio Salvini (INF/UFG) Tópicos Mineração de dados/KDD Programação Lógica Indutiva (ILP) Aplicações

3 3 de 38 Rogerio Salvini (INF/UFG) KDD Na realidade, Mineração de Dados é parte de um processo maior, chamado Descoberta de Conhecimento em Bases de Dados (KDD) - apesar de alguns autores utilizarem o termo intercambiavelmente. KDD é o processo não-trivial de identificar em dados padrões que sejam válidos, novos (previamente desconhecidos), potencialmente úteis e compreensíveis, visando melhorar o entendimento de um problema ou um procedimento de tomada de decisão.

4 4 de 38 Rogerio Salvini (INF/UFG) KDD O processo de KDD é interativo, iterativo, cognitivo e exploratório, envolvendo vários passos com muitas decisões sendo feitas pelo analista (que é um especialista do domínio dos dados, ou um especialista de análise dos dados): –compreender o domínio; –preparar o conjunto dos dados; –descobrir padrões (mineração de dados); –pós-processar os padrões descobertos, e –implantação do conhecimento descoberto.

5 5 de 38 Rogerio Salvini (INF/UFG) KDD

6 6 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados Mineração de dados (DM) é a etapa responsável pela seleção dos métodos a serem utilizados para localizar padrões nos dados, seguida da efetiva busca por padrões de interesse numa forma particular de representação, juntamente com a busca pelo melhor ajuste dos parâmetros do algoritmo para a tarefa em questão.

7 7 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados DM utiliza técnicas e algoritmos de diferentes áreas do conhecimento, principalmente Inteligência Artificial (especialmente Aprendizagem de Máquina), Banco de Dados (recursos para manipular grandes bases de dados) e Estatística.

8 8 de 38 Rogerio Salvini (INF/UFG) Aprendizado de máquina Área da Inteligência Artificial que estuda métodos computacionais para adquirir novos conhecimentos de forma automática Um sistema de Aprendizado de Máquina (ML) é um programa de computador que toma decisões baseado em experiências acumuladas contidas em casos resolvidos com sucesso Esses casos constituem o conjunto de exemplos de treinamento fornecidos ao algoritmo de aprendizado

9 9 de 38 Rogerio Salvini (INF/UFG) Aprendizado supervisionado No aprendizado supervisionado é fornecido ao algoritmo de aprendizado um conjunto de exemplos de treinamento descritos por um vetor de valores de características, ou atributos, e pelo rótulo da classe associada Baseado no conjunto de treinamento o algoritmo de aprendizado induz a classificação de uma hipótese capaz de determinar corretamente a classe de novos exemplos ainda não rotulados

10 10 de 38 Rogerio Salvini (INF/UFG) Linguagens de descrição Ao solucionar problemas com o uso do computador, é importante definir como traduzi- los em termos computacionais Linguagens de descrição são necessárias para descrever exemplos, hipóteses e conhecimento do domínio Em geral, essas linguagens podem ser divididas em dois tipos: –Baseada em atributo-valor ou proposicional –Relacional

11 11 de 38 Rogerio Salvini (INF/UFG) Linguagens de descrição O formato atributo-valor é a linguagem de descrição de objetos mais frequentemente utilizada em ML Objetos, ou exemplos, são descritos em termos de atributos e valores desses atributos, por meio de um vetor, contendo valores para os atributos de um determinado exemplo e um rótulo que atribui uma classe ao exemplo

12 12 de 38 Rogerio Salvini (INF/UFG) Linguagens de descrição A descrição relacional é baseada na Linguagem de Primeira Ordem da Lógica Clássica Objetos são descritos em termos de seus componentes e relações entre esses componentes Principais características: –Alta expressividade para representar conceitos –Capacidade de representação do conhecimento do domínio (background knowledge) Sistemas de aprendizado relacional –Programação Lógica Indutiva (ILP)

13 13 de 38 Rogerio Salvini (INF/UFG) Programação Lógica Indutiva Programação Lógica Indutiva (ILP) é uma área de interseção de pesquisas entre Aprendizado de Máquina e Programação Lógica ILP traz duas grandes vantagens: –produz classificadores que são de fácil entendimento por especialistas –consegue resolver problemas de aprendizado multi-relacional

14 14 de 38 Rogerio Salvini (INF/UFG) Programação Lógica Indutiva Sistemas ILP têm sido usados com sucesso na extração de modelos relacionais de dados em áreas como: –Bioinformática –Engenharia –Processamento de Linguagem Natural –Meio Ambiente –Engenharia de Software –Aprendizado de Padrões e Link Discovery –Alias Identification

15 15 de 38 Rogerio Salvini (INF/UFG) Programação Lógica Indutiva Dados: –um conjunto de exemplos positivos, –um conjunto de exemplos negativos, –a descrição destes exemplos (BK), e –um conjunto de restrições que define a forma como um classificador deve ser construído Produzir um classificador representado em Lógica de Primeira Ordem, que prove todos os exemplos positivos e nenhum exemplo negativo

16 16 de 38 Rogerio Salvini (INF/UFG) Trens de Michalski A tarefa é encontrar uma regra capaz de predizer, dada as propriedades dos seus vagões, se o trem está viajando para Leste

17 17 de 38 Rogerio Salvini (INF/UFG) Trens de Michalski Conhecimento prévio (BK): has_car(east1,car_11). shape(car_11,rectangle). open_car(car_11). long(car_11). load(car_11,rectangle,3). wheels(car_11,2). has_car(east1,car_12). short(car_12). closed(car_12).... short(car_14).

18 18 de 38 Rogerio Salvini (INF/UFG) Trens de Michalski Exemplos positivos eastbound(east1) eastbound(east2) eastbound(east3) eastbound(east4) eastbound(east5) Exemplos negativos eastbound(west6) eastbound(west7) eastbound(west8) eastbound(west9) eastbound(west10)

19 19 de 38 Rogerio Salvini (INF/UFG) Trens de Michalski eastbound(A) :- has_car(A,B), short(B), closed(B).

20 20 de 38 Rogerio Salvini (INF/UFG) Relação filha Um exemplo relacional simples é o aprendizado da relação filha(A,B), que estabelece que uma pessoa A é filha da pessoa B, em termos do conhecimento prévio das relações feminino e progenitor.

21 21 de 38 Rogerio Salvini (INF/UFG) Relação filha Exemplos positivos filha(maria,ana) filha(carol,jose) Exemplos negativos filha(jose,ana) filha(carol,ana) Conhecimento prévio (BK) progenitor(ana,maria) feminino(ana) progenitor(ana,jose) feminino(maria) progenitor(jose,carol) feminino(carol) progenitor(jose,carlos)

22 22 de 38 Rogerio Salvini (INF/UFG) Relação filha Assim, é possível induzir a seguinte hipótese: filha(A,B) :- feminino(A), progenitor(B,A). que é interpretada como: A é filha de B se A é do sexo feminino e B é progenitor de A.

23 23 de 38 Rogerio Salvini (INF/UFG) Protein Predizer quais genes codificam para proteínas envolvidas no metabolismo. Conhecimento prévio do gene G235580: chromosome('G235580','11') complex('G235580','Respiration chain complexes') essential('G235580','Non-Essential') interaction('G235580','G236280','Physical', ' ') motif('G235580','PS00504') phenotype('G235580','"Auxotrophies, carbon and"')

24 24 de 38 Rogerio Salvini (INF/UFG) Cláusula saturada do exemplo: [metabolism(G235580)] [bottom clause] metabolism(A) :- essential(A,'Non-Essential'), complex(A,'Respiration chain complexes'), phenotype(A,'"Auxotrophies, carbon and"'), motif(A,'PS00504'), chromosome(A,'11'), interaction(A,B,C,D), essential(B,'Non- Essential'), intertype(C,'Physical'), phenotype(B,'"Auxotrophies, carbon and"'), chromosome(B,'2'), interaction(B,E,C,G), interaction(B,A,C,D), interaction(B,F,C,H), essential(E,'Non-Essential'), essential(F,'Non-Essential'), complex(E,'Respiration chain complexes'), complex(F,'Respiration chain complexes'), phenotype(E,'"Auxotrophies, carbon and"'), motif(E,'PS00197'), motif(F,'PS01000'), chromosome(E,'12'), chromosome(F,'11'), interaction(E,B,C,G), interaction(F,B,C,H). [literals] [25] Protein

25 25 de 38 Rogerio Salvini (INF/UFG) Regra gerada: metabolism(A) :- phenotype(A,'"Auxotrophies, carbon and"'), interaction(A,B,_,_), essential(B,'Non- Essential'), chromosome(B,'4'). que pode ser interpretada como: O gene A está envolvido no metabolismo se A tem fenótipo "Auxotrophies, carbon and" e A interage com um gene B e B não é essencial e B está no cromossomo 4 Protein

26 26 de 38 Rogerio Salvini (INF/UFG) Banco de dados relacional real de mamografias, extraída do "National Mammography Database" (NMD) americano em um trabalho conjunto com a Universidade de Wisconsin-Madison exames de pacientes 435 anormalidades malignas e anormalidades benignas num total de exemplos Tarefa: predizer se uma anormalidade é maligna Mamografias

27 27 de 38 Rogerio Salvini (INF/UFG) Breast Imaging Reporting and Data System (BI-RADS) CategoriaSignificado BI-RADS 0Necessita imagem adicional BI-RADS 1Negativo BI-RADS 2Benigno BI-RADS 3Provavelmente benigno BI-RADS 4Suspeito BI-RADS 5Altamente sugestivo de malignância

28 28 de 38 Rogerio Salvini (INF/UFG) Glossário BI-RADS (43 descritores organizados hierarquicamente)

29 29 de 38 Rogerio Salvini (INF/UFG) Mamografias O sistema ILP gerou várias regras, de onde um radiologista especialista identificou duas potencialmente interessantes. Estas regras foram:

30 30 de 38 Rogerio Salvini (INF/UFG) Regra 1 is_malignant(A) :- 'BIRADS_category'(A,b5), 'MassPAO'(A,present), 'Age'(A,age6570), previous_finding(A,B,C), 'MassesShape'(B,none), 'Calc_Punctate'(B,notPresent), previous_finding(A,C), 'BIRADS_category'(C,b3).

31 31 de 38 Rogerio Salvini (INF/UFG) Regra 1 Esta regra declara que se um achado (A) era: –classificado como BI-RADS 5, –tinha uma massa presente em um paciente que: –tinha idade entre 65 e 70 –tinha duas mamografias anteriores (B, C) e a mamografia anterior (B): –não tinha forma de massa descrita –não tinha calcificações pontuadas e a mamografia anterior (C): –foi classificada como BI-RADS 3 então ele é maligno.

32 32 de 38 Rogerio Salvini (INF/UFG) Regra 1 Esta regra é interessante pois ela acha um relacionamento entre um achado malígno em um paciente que teve uma anormalidade anterior julgada como provavelmente benigna. Isto pode representar um atraso no diagnóstico se a anormalidade interpretada como provavelmente benigna corresponde à achada depois diagnosticada como câncer.

33 33 de 38 Rogerio Salvini (INF/UFG) Regra 2 is_malignant(A) :- 'BIRADS_category'(A,b5), 'MassPAO'(A,present), 'MassesDensity'(A,high), 'HO_BreastCA'(A,hxDCorLC), in_same_mammogram(A,B), 'Calc_Pleomorphic'(B,notPresent), 'Calc_Punctate'(B,notPresent).

34 34 de 38 Rogerio Salvini (INF/UFG) Regra 2 Esta regra declara que se o achado (A) era: –classificado como BI-RADS 5, –tinha uma massa presente –tinha uma massa com alta densidade em um paciente que: –tinha um histórico anterior de câncer de mama –tinha um achado extra na mesma mamografia (B) e o achado extra (B): –não tinha microcalcificações pleomórficas –não tinha calcificações pontuadas então ele é maligno.

35 35 de 38 Rogerio Salvini (INF/UFG) Regra 2 Esta regra é interessante pois ela acha um relacionamento entre malignância e alta densidade de massas. Em geral, densidade de massa não tinha sido anteriormente pensada como sendo uma característica altamente preditiva.

36 36 de 38 Rogerio Salvini (INF/UFG) Transtorno Afetivo Bipolar (TAB) Projeto PROMAN Dados longitudinais de 150 pacientes MasculinoFemininoTOTAL TAB I70 (88,6%)147 (89,1%)217 (88,9%) TAB II9 (11,4%)18 (10,9%)27 (11,1%) Total79 (100%)165 (100%)244 (100%)

37 37 de 38 Rogerio Salvini (INF/UFG) Transtorno Afetivo Bipolar (TAB) Dados Iniciais: 284 variáveis –sócio-demográficas –história clínica geral –história clínica TAB –SCID – comorbidade psiquiátricas (atual e passado) –avaliação de estado do humor (depressão e mania) –qualidade de vida Dados de Seguimento –36 variáveis categóricas de estado de humor – DSMV – depressão, mania, categoria do episódio, medicamentos – fármaco e dose –Escala de depressão do humor: HAMILTON (17, 21 e 31 itens – escores de 0-4; 0-2) –Escala de Mania: YOUNG (11 itens – 0-8; 0-4) –Critérios do DSM-IV –Conduta

38 38 de 38 Rogerio Salvini (INF/UFG)

39 39 de 38 Rogerio Salvini (INF/UFG)


Carregar ppt "1 de 38 Rogerio Salvini (INF/UFG) Mineração de Dados no Transtorno Afetivo Bipolar Rogerio Salvini"

Apresentações semelhantes


Anúncios Google