A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Mineração de Dados no Transtorno Afetivo Bipolar

Apresentações semelhantes


Apresentação em tema: "Mineração de Dados no Transtorno Afetivo Bipolar"— Transcrição da apresentação:

1 Mineração de Dados no Transtorno Afetivo Bipolar
Rogerio Salvini

2 Tópicos Mineração de dados/KDD Programação Lógica Indutiva (ILP)
Aplicações

3 KDD Na realidade, Mineração de Dados é parte de um processo maior, chamado Descoberta de Conhecimento em Bases de Dados (KDD) - apesar de alguns autores utilizarem o termo intercambiavelmente. KDD é o processo não-trivial de identificar em dados padrões que sejam válidos, novos (previamente desconhecidos), potencialmente úteis e compreensíveis, visando melhorar o entendimento de um problema ou um procedimento de tomada de decisão.

4 KDD O processo de KDD é interativo, iterativo, cognitivo e exploratório, envolvendo vários passos com muitas decisões sendo feitas pelo analista (que é um especialista do domínio dos dados, ou um especialista de análise dos dados): compreender o domínio; preparar o conjunto dos dados; descobrir padrões (mineração de dados); pós-processar os padrões descobertos, e implantação do conhecimento descoberto.

5 KDD

6 Mineração de Dados Mineração de dados (DM) é a etapa responsável pela seleção dos métodos a serem utilizados para localizar padrões nos dados, seguida da efetiva busca por padrões de interesse numa forma particular de representação, juntamente com a busca pelo melhor ajuste dos parâmetros do algoritmo para a tarefa em questão.

7 Mineração de Dados DM utiliza técnicas e algoritmos de diferentes áreas do conhecimento, principalmente Inteligência Artificial (especialmente Aprendizagem de Máquina), Banco de Dados (recursos para manipular grandes bases de dados) e Estatística.

8 Aprendizado de máquina
Área da Inteligência Artificial que estuda métodos computacionais para adquirir novos conhecimentos de forma automática Um sistema de Aprendizado de Máquina (ML) é um programa de computador que toma decisões baseado em experiências acumuladas contidas em casos resolvidos com sucesso Esses casos constituem o conjunto de exemplos de treinamento fornecidos ao algoritmo de aprendizado

9 Aprendizado supervisionado
No aprendizado supervisionado é fornecido ao algoritmo de aprendizado um conjunto de exemplos de treinamento descritos por um vetor de valores de características, ou atributos, e pelo rótulo da classe associada Baseado no conjunto de treinamento o algoritmo de aprendizado induz a classificação de uma hipótese capaz de determinar corretamente a classe de novos exemplos ainda não rotulados

10 Linguagens de descrição
Ao solucionar problemas com o uso do computador, é importante definir como traduzi-los em termos computacionais Linguagens de descrição são necessárias para descrever exemplos, hipóteses e conhecimento do domínio Em geral, essas linguagens podem ser divididas em dois tipos: Baseada em atributo-valor ou proposicional Relacional

11 Linguagens de descrição
O formato atributo-valor é a linguagem de descrição de objetos mais frequentemente utilizada em ML Objetos, ou exemplos, são descritos em termos de atributos e valores desses atributos, por meio de um vetor, contendo valores para os atributos de um determinado exemplo e um rótulo que atribui uma classe ao exemplo

12 Linguagens de descrição
A descrição relacional é baseada na Linguagem de Primeira Ordem da Lógica Clássica Objetos são descritos em termos de seus componentes e relações entre esses componentes Principais características: Alta expressividade para representar conceitos Capacidade de representação do conhecimento do domínio (background knowledge) Sistemas de aprendizado relacional Programação Lógica Indutiva (ILP)

13 Programação Lógica Indutiva
Programação Lógica Indutiva (ILP) é uma área de interseção de pesquisas entre Aprendizado de Máquina e Programação Lógica ILP traz duas grandes vantagens: produz classificadores que são de fácil entendimento por especialistas consegue resolver problemas de aprendizado multi-relacional

14 Programação Lógica Indutiva
Sistemas ILP têm sido usados com sucesso na extração de modelos relacionais de dados em áreas como: Bioinformática Engenharia Processamento de Linguagem Natural Meio Ambiente Engenharia de Software Aprendizado de Padrões e Link Discovery Alias Identification

15 Programação Lógica Indutiva
Dados: um conjunto de exemplos positivos, um conjunto de exemplos negativos, a descrição destes exemplos (BK), e um conjunto de restrições que define a forma como um classificador deve ser construído Produzir um classificador representado em Lógica de Primeira Ordem, que prove todos os exemplos positivos e nenhum exemplo negativo

16 Trens de Michalski A tarefa é encontrar uma regra capaz de predizer, dada as propriedades dos seus vagões, se o trem está viajando para Leste

17 Trens de Michalski Conhecimento prévio (BK): has_car(east1,car_11).
shape(car_11,rectangle). open_car(car_11). long(car_11). load(car_11,rectangle,3). wheels(car_11,2). has_car(east1,car_12). short(car_12). closed(car_12). ... short(car_14).

18 Trens de Michalski Exemplos positivos Exemplos negativos
eastbound(east1) eastbound(east2) eastbound(east3) eastbound(east4) eastbound(east5) Exemplos negativos eastbound(west6) eastbound(west7) eastbound(west8) eastbound(west9) eastbound(west10)

19 Trens de Michalski eastbound(A) :- has_car(A,B), short(B), closed(B).

20 Relação filha Um exemplo relacional simples é o aprendizado da relação filha(A,B), que estabelece que uma pessoa A é filha da pessoa B, em termos do conhecimento prévio das relações feminino e progenitor.

21 Relação filha Conhecimento prévio (BK) Exemplos positivos
progenitor(ana,maria) feminino(ana) progenitor(ana,jose) feminino(maria) progenitor(jose,carol) feminino(carol) progenitor(jose,carlos) Exemplos positivos filha(maria,ana) filha(carol,jose) Exemplos negativos filha(jose,ana) filha(carol,ana)

22 Relação filha Assim, é possível induzir a seguinte hipótese:
filha(A,B) :- feminino(A), progenitor(B,A). que é interpretada como: A é filha de B se A é do sexo feminino e B é progenitor de A.

23 Protein Predizer quais genes codificam para proteínas envolvidas no metabolismo. Conhecimento prévio do gene “G235580”: chromosome('G235580','11') complex('G235580','Respiration chain complexes') essential('G235580','Non-Essential') interaction('G235580','G236280','Physical', ' ') motif('G235580','PS00504') phenotype('G235580','"Auxotrophies, carbon and"')

24 Protein Cláusula saturada do exemplo: [metabolism(G235580)]
[bottom clause] metabolism(A) :- essential(A,'Non-Essential'), complex(A,'Respiration chain complexes'), phenotype(A,'"Auxotrophies, carbon and"'), motif(A,'PS00504'), chromosome(A,'11'), interaction(A,B,C,D), essential(B,'Non-Essential'), intertype(C,'Physical'), phenotype(B,'"Auxotrophies, carbon and"'), chromosome(B,'2'), interaction(B,E,C,G), interaction(B,A,C,D), interaction(B,F,C,H), essential(E,'Non-Essential'), essential(F,'Non-Essential'), complex(E,'Respiration chain complexes'), complex(F,'Respiration chain complexes'), phenotype(E,'"Auxotrophies, carbon and"'), motif(E,'PS00197'), motif(F,'PS01000'), chromosome(E,'12'), chromosome(F,'11'), interaction(E,B,C,G), interaction(F,B,C,H). [literals] [25]

25 Protein Regra gerada: metabolism(A) :- phenotype(A,'"Auxotrophies, carbon and"'), interaction(A,B,_,_), essential(B,'Non-Essential'), chromosome(B,'4'). que pode ser interpretada como: O gene A está envolvido no metabolismo se A tem fenótipo "Auxotrophies, carbon and" e A interage com um gene B e B não é essencial e B está no cromossomo 4

26 Mamografias Banco de dados relacional real de mamografias, extraída do "National Mammography Database" (NMD) americano em um trabalho conjunto com a Universidade de Wisconsin-Madison 47669 exames de pacientes 435 anormalidades malignas e anormalidades benignas num total de exemplos Tarefa: predizer se uma anormalidade é maligna

27 Breast Imaging Reporting and Data System (BI-RADS)
Categoria Significado BI-RADS 0 Necessita imagem adicional BI-RADS 1 Negativo BI-RADS 2 Benigno BI-RADS 3 Provavelmente benigno BI-RADS 4 Suspeito BI-RADS 5 Altamente sugestivo de malignância

28 Glossário BI-RADS (43 descritores organizados hierarquicamente)

29 Mamografias O sistema ILP gerou várias regras, de onde um radiologista especialista identificou duas potencialmente interessantes. Estas regras foram:

30 Regra 1 is_malignant(A) :-
'BIRADS_category'(A,b5), 'MassPAO'(A,present), 'Age'(A,age6570), previous_finding(A,B,C), 'MassesShape'(B,none), 'Calc_Punctate'(B,notPresent), previous_finding(A,C), 'BIRADS_category'(C,b3).

31 Regra 1 Esta regra declara que se um achado (A) era:
classificado como BI-RADS 5, tinha uma massa presente em um paciente que: tinha idade entre 65 e 70 tinha duas mamografias anteriores (B, C) e a mamografia anterior (B): não tinha forma de massa descrita não tinha calcificações pontuadas e a mamografia anterior (C): foi classificada como BI-RADS 3 então ele é maligno.

32 Regra 1 Esta regra é interessante pois ela acha um relacionamento entre um achado malígno em um paciente que teve uma anormalidade anterior julgada como provavelmente benigna. Isto pode representar um atraso no diagnóstico se a anormalidade interpretada como provavelmente benigna corresponde à achada depois diagnosticada como câncer.

33 Regra 2 is_malignant(A) :- 'BIRADS_category'(A,b5),
'MassPAO'(A,present), 'MassesDensity'(A,high), 'HO_BreastCA'(A,hxDCorLC), in_same_mammogram(A,B), 'Calc_Pleomorphic'(B,notPresent), 'Calc_Punctate'(B,notPresent).

34 Regra 2 Esta regra declara que se o achado (A) era:
classificado como BI-RADS 5, tinha uma massa presente tinha uma massa com alta densidade em um paciente que: tinha um histórico anterior de câncer de mama tinha um achado extra na mesma mamografia (B) e o achado extra (B): não tinha microcalcificações pleomórficas não tinha calcificações pontuadas então ele é maligno.

35 Regra 2 Esta regra é interessante pois ela acha um relacionamento entre malignância e alta densidade de massas. Em geral, densidade de massa não tinha sido anteriormente pensada como sendo uma característica altamente preditiva.

36 Transtorno Afetivo Bipolar (TAB)
Projeto PROMAN Dados longitudinais de 150 pacientes Masculino Feminino TOTAL TAB I 70 (88,6%) 147 (89,1%) 217 (88,9%) TAB II 9 (11,4%) 18 (10,9%) 27 (11,1%) Total 79 (100%) 165 (100%) 244 (100%)

37 Transtorno Afetivo Bipolar (TAB)
Dados Iniciais: 284 variáveis sócio-demográficas história clínica geral história clínica TAB SCID – comorbidade psiquiátricas (atual e passado) avaliação de estado do humor (depressão e mania) qualidade de vida Dados de Seguimento 36 variáveis categóricas de estado de humor – DSMV – depressão, mania, categoria do episódio, medicamentos – fármaco e dose Escala de depressão do humor: HAMILTON (17, 21 e 31 itens – escores de 0-4; 0-2) Escala de Mania: YOUNG (11 itens – 0-8; 0-4) Critérios do DSM-IV Conduta

38

39


Carregar ppt "Mineração de Dados no Transtorno Afetivo Bipolar"

Apresentações semelhantes


Anúncios Google