Uma Visão de Análise de Dados Simbólicos Byron Leite Dantas Bezerra Sérgio Ricardo de Melo Queiroz.

Uma Visão de Análise de Dados Simbólicos Byron Leite Dantas Bezerra Sérgio Ricardo de Melo Queiroz

Roteiro Idéia básica Objetos de Primeira e Segunda ordens A Entrada de Análise de Dados Simbólicos Tabela de Dados Simbólicos Origens dos Dados Simbólicos Principais Saídas dos Algoritmos de Análise de Dados Simbólicos Descrições Simbólicas Objetos Simbólicos SODAS Principais passos para a Análise de Dados Simbólicos Exemplos de funções Visão Estrutural e Componentes

A Idéia Básica Aristotle Organon (IV B.C.) separou claramente: indivíduos de primeira ordem (como um cavalo ou uma pessoa quaisquer), cada qual correspondendo a um único indivíduo do mundo; de indivíduos de segunda ordem (como o cavalo ou a pessoa, de forma geral), correspondendo a uma classe de indivíduos do mundo.

Exemplo de Indivíduos de Primeira Ordem

Obtendo os Indivíduos de Segunda Ordem

Tabela de Dados Simbólicos “Distributions are the numbers of the future.” (Schweitzer, 1984) As células podem conter dados complexos Valores ponderados Valores associados a regras Taxonomias Intervalos Distribuições SDA

Exemplo de Tabela de Dados Simbólicos Quantitativo Simples, contínuo, intervalar, multivalorado Categórico Ordinal ou não, Multivalorado, Histograma Taxonomia Dependência hierárquica Dependência lógica Envolvem conhecimento a priori

Fontes de Dados Simbólicos A partir de variáveis categóricas Como tipo do empregado Obtido por clusterização De bancos de dados Consultas originando novas variáveis Do conhecimento do especialista De dados confidenciais Para esconder informações privadas. Ex: IBGE De dados estocásticos Distribuição de probabilidade De séries temporais Descrevendo intervalos de tempo

Principais Saídas dos Algoritmos SDAs SDA Objeto Simbólico

Modelam conceitos ou “entidades físicas” do mundo real Um conceito é definido por uma Intenção = que são as características inerentes do objeto simbólico uma Extensão = que é o conjunto de indivíduos que possuem essas características Exemplo: a(w) = [idade(w)  [30, 35] ]  [número de filhos(w)  2] Objetos Simbólicos

S = ( a, R, d C ) Objetos Simbólicos dCdC w y d R É um animal(w) = 99% sim a(w) = [y(w) R d C ]

Objetos Simbólicos Mundo Real Mundo Modelado Indivíduos -  Conceitos Descrições Objetos Simbólicos wdwdw dCdC T estrelas vermelhas S = (a,R,d C ) Ext(S) y R

Objetos Simbólicos S = ( a, R, d ) R é uma relação. Ex: , , , , ,  d é uma descrição   L  L a é um mapeamento de   L dependente de R e d, onde  é o conjunto de indivíduos e L é {true, false} ou [0,1].

Objetos Simbólicos Booleanos L L = {0,1}, ou seja, [y(w) R d]  L = {true, false} As variáveis simbólicas podem ser apenas: quantitativa simples, intervalares, categóricas ou multivaloradas. Exemplo a(w) = [y(w) R d] com R definida por [ d’ R d ] =  i =1, 2 [ d’ i R i d i ] e R i =  y(w) = (cor(w), altura(w)) d = ({R, B, Y}, [10,15] ) Indivíduo u = ({R, Y}, {21}) a(u) = [cor(u)  {R, B, Y}]  [altura(u)  [10,15]] = true  false = true.

Objetos Simbólicos Modais L L = [0,1], ou seja, [y(w) R d]  L = [0,1] As variáveis simbólicas podem ser complexas Exemplo a(w) = [y(w) R d] onde R é definida por [ d’ R d ] = Max i =1, 2 [ d’ i R i d i ] =  i =1, 2 [ d’ i R i d i ] Seja duas distribuições de probabilidade discretas d’ i = r e d i = q de k valores, a comparação entre duas distribuições é definida por r R i q =  j=1,k r j q j exp (r j - min (r j, q j )) y(w) = (idade(w), categoria(w)) d = ({(0.2)12, (0.8) [20,28]}, {(0.4) contratante, (0.6) funcionário}) a(u) = [idade(u) R 1 {(0.2)12, (0.8) [20,28]}]  * [SPC(u) R2{(0.4) contratante, (0.6) funcionário}]

Extensão de um Objeto Simbólico Caso Booleano EXT(a) = {w   / a(w) = true} Caso Modal EXT  (S) = {w   / a(w)   }.

SODAS – Symbolic Official Data Analysis System Protótipo disponível gratuitamente http://www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm Funcionalidades Construção de tabelas de dados simbólicos a partir de BD’s tradicionais Descrição de regras e hierarquias Análise dos através de métodos de análise de dados simbólicos Estatística descritiva Análise Fatorial Agrupamento Árvore de Decisão...

Interface do SODAS Barra de menus Métodos de análise disponíveis Aplicação dos métodos

Análise de dados com o SODAS 1° Passo: Possuir os dados em um BD relacional Exemplo: Dados sobre os filmes indicados ao Oscar.  Nome do filme, ator principal, diretor, ano, local de produção....

BD de Filmes: Esquema Relacional

Exemplo de indivíduo: Forrest Gump

Definição do contexto Indivíduos que deseja-se estudar: Categorias de filmes Cada gênero de filme representa uma categoria:  Drama, Ficção científica, Ação, Western,... A descrição de cada classe será obtida através da generalização de seus membros de 1a. Ordem

Generalização dos dados Nome do filme. Será desprezado Gênero. Variável que identifica a classe Outras variáveis. Usadas para descrever as classes.

Obtendo a tabela de dados simbólicos (1) (2)

Importando os dados (1) (2) (3)

Visualizando os dados importados os "Science-fiction"(10) = [Année = [1968:1999]] ^[Acteur_Principal = {"Arnold Schwarzenneger"(0.3), "Casper Van Dien"(0.1), (...)] ^[Lieu_Tournage = {"Mexique"(0.1), "USA"(0.1), "Tunisie"(0.1), "Californie"(0.4), "Londres"(0.3)}] ^[Continent_Tournage = {"Amérique du Nord"(0.5), "Amérique du Sud"(0.1), "Europe"(0.3), "Afrique"(0.1)}] ^[Nombre_Oscars = [0:6]] ^[Budget(K) = [6400:115000]] ^[Revenu(K) = [55000:922379]] ^[Oscars_Ecart = {"2-3"(0.1), "+ de 6"(0.1), "0-1"(0.8)}] ^[Budget_Ecart(K) = {"50001-100000"(0.5), "100001-150000"(0.1), "0-50000"(0.4)}] ^[Revenu_Ecart(K) = {"400001-500000"(0.1), "100001-200000"(0.3), "200001-300000"(0.1), "50001-100000"(0.2), "+ de 500001"(0.3)}] ^[Nom_Réalisateur = {"Kubrick"(0.1), "Lucas"(0.2), "Emmerich"(0.2),(...)}] ^[R_Région = {"South Shields"(0.1), "Stuttgart"(0.2), "Amsterdam"(0.2), (...)}] ^[R_Pays = {"Canada"(0.2), "USA"(0.3), "Pays-Bas"(0.2), "Angleterre"(0.1), "Allemagne"(0.2)}] ^[R_Age = [46:71]] ^[R_Tranche_Age = {"65-74"(0.1), "45-54"(0.4), "55-64"(0.5)}]

Adicionando Variáveis de Classe Dados já disponíveis sobre as classes Total de oscars Custo médio de um filme Arrecadação média

Adicionando Variáveis de Classe

Adicionando taxonomias Pays-Bas Amsterdam USA Californie, Chicago, Colorado, Maine, Michigan, New-York, Ohio, Oklahoma, Wisconsin Chine Guangzhou Inglaterra Londres, Ryde, South Shields, Stockton Austrália New South Walles Canada Ontario Allemagne Stuttgart

Adicionando taxonomias

Visualizando taxonomias

Exportando a tabela no formato SODAS

Aplicando métodos de análise de dados simbólicos Tabela de dados simbólicos pronta Finalmente podemos passar para a análise

Inserindo um método Arrastar o método desejado

SOE – Symbolic Object Editor Visualização da tabela de objetos simbólicos Visualização gráfica de cada objeto simbólico 2D 3D

STAT – Estatística Elementar para Objetos Simbólicos Freqüências relativas Variáveis intervalares Variáveis modais Capacidades max/min/média Variáveis modais Biplot Variáveis intervalares

DIV – Divisive Clustering Método de agrupamento hierárquico Divisivo Usuário informa número de classes desejado

PARTITION IN 5 CLUSTERS : -------------------------: Cluster 1 (n=2) : "Western" "Espionnage" Cluster 2 (n=4) : "Science-fiction" "Fantastique" "Comédie fantastique" "Film de guerre" Cluster 3 (n=1) : "Catastrophe" Cluster 4 (n=9) : "Suspense" "Comédie dramatique" "Film historique" "Policier" "Action" "Animation" "Comédie" "Aventure" "Comédie musicale" Cluster 5 (n=1) : "Drame" Explicated inertia : 93.120786 THE CLUSTERING TREE : --------------------- - the number noted at each node indicates the order of the divisions - Ng yes and Nd no +---- Classe 1 (Ng=2) ! !----3- [Budget(K) <= 15800.000000] ! ! ! +---- Classe 4 (Nd=9) ! !----1- [Budget(K) <= 59100.000000] ! ! +---- Classe 2 (Ng=4) ! ! ! !----4- [Budget(K) <= 89700.000000] ! ! ! ! ! +---- Classe 5 (Nd=1) ! ! !----2- [Budget(K) <= 120200.000000] ! +---- Classe 3 (Nd=1)

TREE – Árvores de decisão Fuzzy ou “Hard” Variável identificadora de classe Nominal Variáveis descritoras Todos os tipos

================================== | EDITION OF DECISION TREE | ================================== PARAMETERS : Learning Set : 17 Number of variables : 2 Max. number of nodes: 11 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set : 0.00 + --- IF ASSERTION IS TRUE (up) ! --- x [ ASSERTION ] ! + --- IF ASSERTION IS FALSE (down)

+---- [ 4 ]Catastrophe ! !----2[ Nombre_Oscars <= 0.000000] ! ! ! ! +---- [ 10 ]Action ! ! ! ! !----5[ Nombre_Oscars <= 1.000000] ! ! ! +---- [ 11 ]Western ! !----1[ Nombre_Oscars <= 1.000000] ! ! +---- [ 12 ]Western ! ! ! !----6[ Nombre_Oscars <= 2.000000] ! ! ! ! ! +---- [ 13 ]Comédie musicale ! ! !----3[ Budget(K) <= 76000.000000] ! +---- [ 7 ]Drame

SODAS: Resumo

Conclusão Análise de dados simbólicos Extensão da análise de dados tradicionais Dados mais complexos Estruturados, probabilísticos, intervalares, multinomiais Análise de dados tradicional Normalmente um caso especial da análise de dados simbólicos SODAS Implementa métodos de análise Existentes para dados tradicionais  Árvores de decisão, clustering, estatística descritiva Extendendo-os para dados simbólicos Ferramenta disponível gratuitamente Porém ainda “imatura”.

Uma Visão de Análise de Dados Simbólicos Byron Leite Dantas Bezerra Sérgio Ricardo de Melo Queiroz.

Apresentações semelhantes

Apresentação em tema: "Uma Visão de Análise de Dados Simbólicos Byron Leite Dantas Bezerra Sérgio Ricardo de Melo Queiroz."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback

Login

Autorizar-se através da rede social:

Uma Visão de Análise de Dados Simbólicos Byron Leite Dantas Bezerra Sérgio Ricardo de Melo Queiroz.

Apresentações semelhantes

Apresentação em tema: "Uma Visão de Análise de Dados Simbólicos Byron Leite Dantas Bezerra Sérgio Ricardo de Melo Queiroz."— Transcrição da apresentação:

Apresentações semelhantes

Sobre projeto

Feedback