A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

1 Reconhecimento de Padrões. Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais.

Apresentações semelhantes


Apresentação em tema: "1 Reconhecimento de Padrões. Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais."— Transcrição da apresentação:

1 1 Reconhecimento de Padrões

2 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II2 Introdução O que é RP ? RP engloba uma literatura tão vasta que sua definição é polêmica. RP está ligada a busca de regularidades Deste tempos pré-históricos, o homem buscou regularidades em que pudesse confiar e que lhe desse uma sensação de segurança num mundo hostil.

3 3 Distâncias na Aprendizagem Automática

4 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II4 Sumario Pesquisa nos dados Princípio da similaridade Distâncias e Métrica de Distâncias Um modelo unificado de distância

5 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II5 Pesquisa nos dados Pesquisar dados é fundamental na Ciência da Computação Tradicionalmente BD organizadas em dados estruturados Evolução Tec. de Informação: dados não estruturados: Pesquisa por similaridade ou proximidade (similarity/proximity searching) Procurar objetos que são parecidos ou próximos Similaridade modelada como função da distância que satisfaz desigualdade do triângulo. Objetos formam espaço métrico

6 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II6 Espaço métrico U ma função d(x,y) não negativa que descreve a distância entre pontos vizinhos num conjunto constitui uma métrica Espaço métrico um conjunto que possui uma métrica: (S, d) Formado por conjunto S de objetos válidos com uma função de distância global d(x, y) > 0 onde a distância entre pontos está definida. Satisfaz x, y, z S: (I) d(x, y) 0 não negativa (II) d(x, y) = d(y, x) simetria (III) d(x, x) = 0 reflexividade (IV) x y d(x, y) > 0 estritamente positiva (V) d(x, y) d(x, z) + d(z, y) desigualdade triangular

7 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II7 Se os objetos do espaço métrico têm k coordenadas de valores reais, então temos um espaço métrico especial chamado Espaço Vectorial (vector space) e os vectores: VECTOR K-DIMENSIONAL r= (A 1 |v 1, A 2 |v 2,..,A i |v i,.,A x |v k, c L ) Em qualquer espaço métrico podemos definir Bolas Abertas: B(x; r) = {y | d(x, y) < r} x, r =raio da bola

8 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II8 O O O O O O O O O O O O O O O O O O O OO A1A1 A2A2 Objetos no espaço 2-dimensional

9 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II9 Objetos no espaço 3-dimensional O O O O O O O O O O O O O A2A2 A1A1 A3A3

10 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II10 Principio da Similaridade A similaridade é uma medida continua de uma simetria imperfeita. (Sendo a simetria uma medida de algo que não é possível distinguir) Aplicado nas mais diversas ciências: Medicina e Homeopatia : A lei dos similares Psicologia cognitiva: comportamento Estrutura molecular: entropia e similaridade Percepção visual Geometria computacional Teoria da Informação: entropia - similaridade - informação Reconhecimento de Padrões: métodos baseados em casos

11 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II11 O Principio de similaridade afirma que as coisas que partilham características visuais tais como a forma, o tamanho, a cor, textura, valor ou orientação, serão vistas como pertencentes a um todo. No exemplo a direita as duas linhas enchidas dão aos nossos olhos a impressão de duas linhas horizontais, mesmo se todos os círculos presentes são equidistantes entre eles. No exemplo a esquerda, os círculos maiores aparecem pertencer juntos pela sua similaridade em tamanho. (fonte: Gestalt principles, Bonnie Skaalid)

12 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II12 Principio da Similaridade e Classificação Um registo pertence à classe c, se o(s) registo(s) mais próximo(s) no espaço n-dimensional dos registos conhecidos (treino) pertence à mesma classe c Utiliza: Abstração matemática de distância

13 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II13 Aplicações na Pesquisa por Similaridade Bases de Dados estruturadas pesquisa de chave, intervalo, proximidade Objetos Multimédia Imagens, impressões digitais, áudio, SIG Texto livre não estruturado Conceitos semânticos, palavras relevantes, pronuncia Biologia computacional: sequências DNA e proteínas Reconhecimento de Padrões e Funções de Aproximação Compressão de áudio e vídeo: enviando frames e sub-frames num canal de comunicação

14 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II14 A distância entre dois pontos é o comprimento da linha que os conecta. No caso de vetores: muitas funções para calcular as distâncias Estruturas de pesquisa para espaços vectoriais : SAM kd-trees, R-trees, X-trees, quad-trees,... A mais utilizada é aquela da família de distâncias Minkowski: L s ((x 1,...,x k ),(y 1,...,y k )) = No caso de vectores é conhecida como norma L 2 ||x|| 2 ou Euclidiana Distâncias

15 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II15 Distâncias L= 1, Manhattan (City block) L = 2, Euclidiana L =, Chebychev Mahalanobis

16 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II16 Canberra Quadrática Correlação Chi-quadrado E ainda Hamming, Edit, Housdorff distances

17 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II17 Pesquisas de interesse nos espaços métricos: 1) Pesquisa por intervalos: (q, r) d Obter todos os objetos que estão a uma distância r de q. { x S | d(q, x) r } 2) Pesquisa do Vizinho mais Próximo: (Nearest Neighbor ou NN): Obter os objetos mais perto de q S. { x S, | y S, d(q, x) d(q, y) } 3) k-NN: Tirar os k objetos mais próximos de q S obter um conjunto A S tal que |A|= k, e x A, y S - A, d(q, x) d(q, y)

18 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II18 Espaço: (n), construção: (n log n), query: (n ) pesquisa q Exemplo de pesquisa de intervalo para 2 (q, r) d q, r é um número real indicando o raio (tolerância) da pesquisa {x, d(q, x) r}

19 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II19 Conjunto dos pontos a uma mesma distância do centro. Depende do tipo de distância

20 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II20 Árvore BKT : pesquisa de intervalo para funções discretas Dados pesquisa q e distancia r, percorremos todos os filhos i tais que: d(p, q) - r i d(p, q) + r (recursivamente) p pesquisa Para cada distância i > 0: i = { x, d(x, p) = i } q p = raiz 7 6, 10 5,11 4,8,9, i = Espaço: (n), constr: (n log n), query: (n )

21 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II21 Árvore VPT : pesquisa para funções distância continuas árvore binária recursiva com qualquer objeto p como raiz Calcula-se a mediana do conjunto de todas as distâncias: M = mediana {d(p, x) x S} sub-árvore esq: d(p, x) <= M sub-árvore dir: d(p, x) > M Pesquisa: d = d(q, p). if d - r >= M -----> esquerda if d + r > M -----> direita p p Espaço: (n), constr: (n log n), query: (log n), r pequeno 3.1

22 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II22 Pesquisa método Vizinho mais próximo (NN) Principio de similaridade Aprendizagem com dados de treino A1A1 A2A2

23 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II23 NN: Método de pesquisa por incremento do raio Procurar q com raio fixo r = a i (a > 1), a começar com i = 0; Incrementar até obter S k = {x S, r = a i } O valor do raio pode ser refinado mais tarde entre: r= a i-1 e r = a i Complexidade aumenta rapidamente com r por isto incremento pode ser a --> 1

24 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II24 NN: Backtracking com raio descrescente Iniciar a procura numa estrutura qualquer com raio r* = Cada vez q comparado com elemento p, atualiza raio de pesquisa: r* min((r*, d(q, p)) e continua a pesquisa agora com este raio reduzido..... Importante encontrar rapidamente os objetos próximos A complexidade da procura dependerá da estrutura de dados utilizada

25 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II25 k-Nearest Neighbors: aprendizagem "preguiçosa" Ideia: manter os k objetos mais próximos de q, Fixando o valor de r* como a distância máxima entre aqueles elementos e q. Inicialmente raio r* = Cada novo objeto relevante, é inserido como um dos k vizinhos mais próximos. Complexidade classificação: ( n x m) n=registos, m atributos

26 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II26 Árvores k- dimensionais Uma árvore binária onde os nós correspondem a regiões no espaço n-dimensional A raiz da árvore corresponde a todo o espaço Os dois filhos num nó correspondem a divisão em uma dimensão [2,5] [6,3][3,8] [8,9] [2,5] [6,3] [3,8] [8,9] Exemplo árvore 2-dimensional

27 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II27 Procura nas Árvores k-d (kd-trees) Primeira aproximação: procura o nó que contém o alvo x Objeto que contem o nó onde está o alvo Voltamos ao pai do nó atual Solução possível só se há interseção entre o círculo e a área do pai não precisamos calcular para este algoritmo volta ao nó anterior (acima da horizontal ) Procura NN num kd-tree (log n)

28 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II28 Procura nas Árvores k-d (kd-trees) Primeira aproximação: procura o nó que contém o alvo Pesquisando nós em uma kd-tree x Só uns poucos nós são pesquisados

29 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II29 Procura nas Árvores k-d (kd-trees) Primeira aproximação: procura o nó que contem o alvo Pesquisando nós em uma kd-tree Uma má distribuição dos objectos faz com que quase todos os nós sejam pesquisados

30 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II30 Dados Index Indexação em espaços métricos Todos os algoritmos utilizando índices partilham o conjunto S em subconjuntos Em geral:

31 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II31 Pesquisar em classes candidatas Pesquisa Percorrer o Índice q

32 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II32 Modelo unificado [Chávez et al, 2001] Todos algoritmos utilizando índices na pesquisa proximidade, constróem relações equivalentes. A pesquisa só se concentra em algumas classes relações equivalentes : Dado conjunto definimos uma partição ( ) = { 1, 2,... n } uma colecção de conjuntos disjuntos cuja união é i = e i j, i j =. Cada elemento da partição: classe equivalente Uma relação é um subconjunto do produto externo x de. Dois elementos x,y estão relacionados x~y, se o par (x, y) está no subconjunto. A relação equivalente x y, se para x, y satisfaz: Reflexividade: (x x) Simetria: (x y y x) Transitividade: (x y y z x z)

33 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II33 Relações equivalentes são de 2 tipos: a) Relacões são definidas em termos de distâncias a um "pivot" Dois objetos são equivalentes se estão a mesma distância de todos os pivots x y d(x, p) = d(y, p) e a relação de equivalência do pivot: x {p i } y d(x, p i ) = d(y, p i) b) Baseadas na proximidade a "grupos" Baseadas na relação de equivalência de Voronoi Grupos ou centros : {g 1, g 2,..,gm} X (g i ) y closest(x, {g i } = closest(y, {g i }) Onde closest(x, S) = {w S, w' S, d(z, w) d(z, w')}

34 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II34 Relações equivalentes tipo "pivot" A distância d(x, y) não pode nunca ser menor que: d(x, y) |d(x, p) - d(y, p)| para qualquer elemento p, devido à desigualdade triangular. Alternativamente as relações equivalentes podem ser consideradas como as projeções no espaço vetorial k onde k = número de pivots utilizados ver--->

35 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II35 d(x, p 1 ) Mapear um espaço métrico em um "vector space" com métrica L utilizando dois pivots Como saber se elemento u ? Procuramos aleatoriamente em pivots se: |d(q, p i ) - d(u, p i ) | > r, logo por desig. Triângulo sabemos d(q, u) > r sem ter que avaliar d(q, u) Distâncias aos pivots: pre-processamento!! p1p1 p2p2 a1a1 b2b2 b1b1 a2a2 b2b2 a2a2 a1a1 b1b1 d(x, p 2 ) q

36 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II Localidade classes equivalentes Uma classe pode incluir varias células "Localidade": Quanto é que as classes se parecem com as células. Fig.: Relação equivalente criada pela intersecção de anéis centrados em dois "pivots" e a transformação na pesquisa

37 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II37 Diagrama de Voronoi A divisão de um plano com n pontos em n polígonos convexos, tal que cada polígono contém exatamente um ponto e cada ponto em um dado polígono está mais próximo do seu ponto central que de qualquer outro.

38 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II38 Ex.: A região de um ponto chamada Polígono de Voronoi é dada por: V(pi) = { P | d(P, pi) < d(P, Pj), j i}

39 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II39 Relações equivalentes de Voronoi Definir relações equivalentes respeito a proximidade dum dado conjunto chamados "centros" ou "grupos" A relação equivalente de Voronoi baseada em centros: {c 1, c 2,..,c m } é: x ~{c i } y proximo(x, {c i }) = proximo(y, {c i }) Onde próximo(z, S) = {w S, w' S, d(z, w) d(z, w')} A relação equivalente de Voronoi portanto, divide o espaço numa partição para cada c i, isto é, dos pontos que têm c i como o seu centro mais próximo.

40 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II40 Partição de Voronoi com 4 centros e dois queries O espaço é dividido com uma partição para cada c i. A classe dos pontos que têm c i como seu centro mais próximo é ela própria. Encontramos [q] procurando o vizinho mais próximo de q no conjunto de centros c i : o conjunto de classes intersectadas pelos círculos das pesquisas. q1q1 q2q2 c1c1 c3c3 c2c2 c4c4

41 Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais II41 E que acontece quando os dados são simbólicos ou os domínios são infinitos? "verde" "branco" "vermelho Esquerda Direita Cima Baixo O que fazemos para calcular as distâncias?


Carregar ppt "1 Reconhecimento de Padrões. Universidade Federal do Paraná Setor de Tecnologia Departamento de Engenharia Elétrica TE073 – Processamento Digital de Sinais."

Apresentações semelhantes


Anúncios Google