A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Conceitos, Técnicas e Aplicação.

Apresentações semelhantes


Apresentação em tema: "Conceitos, Técnicas e Aplicação."— Transcrição da apresentação:

1 Conceitos, Técnicas e Aplicação.
DATA MINING Gilson Buarte, Ronney Silva e Marcus Rocha

2 INTRODUÇÃO Desde que a informática tomou conta de nossas vidas, imensos volumes de informação têm sido sistematicamente coletados e armazenados. É calculado que este volume dobra a cada 20 meses. O simples Armazenamento e Recuperação dessa informação já traz um grande benefício. Contudo, apenas recuperar informação de maneira geral não propicia todas as vantagens possíveis.

3 DATA MINING O QUE É ?

4 DATA MINING - O QUE É ? Talvez a definição mais importante de Data Mining tenha sido elaborada por Usama Fayyad em 1996: "...o processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis”. A Mineração de Dados é usualmente definida como um conjunto de técnicas automáticas de exploração de grandes massas de dados de forma a descobrir novos padrões, relações, associações, estruturas, mudanças e anomalias.

5 DATA MINING VALOR ESTRATÉGICO

6 Posicionamento lógico de diferentes fases da tomada de decisão com seu valor potencial para as dimensões tática e estratégica de uma organização.

7 DATA MINING - VALOR O valor da informação para apoiar a tomada de decisão aumenta a partir da base da pirâmide. Uma decisão baseada em dados nas camadas mais baixas, onde há tipicamente milhões de registros de dados, não possui muito valor agregado; já aquela apoiada em dados altamente resumidos nas camadas superiores da pirâmide tem probabilidade de alto valor estratégico.

8 Tradicional Pirâmide da Informação, onde se pode notar o natural aumento de abstração conforme subimos de nível.

9 Agora é possível… CONCEITOS

10 DATA MINING - CONCEITOS
Ainda que as técnicas da Mineração de Dados sejam antigas, foi apenas nos últimos anos que passaram a ser usadas como exploração de dados, por vários motivos: - O volume de dados disponível atualmente é enorme Mineração de Dados é uma técnica que só se aplica a grandes massas de dados, pois necessita disto para calibrar seus algoritmos e extrair dos dados conclusões confiáveis. - Os dados estão sendo organizados Com a tecnologia do Dataware House, os dados de várias fontes estão sendo organizados e padronizados de forma a possibilitar sua organização dirigida para o auxílio à decisão. As técnicas mineração de dados necessitam de bancos de dados limpos, padronizados e organizados.

11 DATA MINING - CONCEITOS
- Recursos computacionais mais potentes A mineração de dados necessita de muitos recursos computacionais para operar seus algoritmos sobre grandes quantidades de dados. A queda de preços e o avanço da área de banco de dados, construindo bancos de dados distribuídos, auxiliou em muito à mineração de dados. - A competição empresarial exige técnicas mais modernas de decisão As empresas da área de finanças, varejo, telecomunicações e seguro experimentam a cada dia mais competição e com isso uma grande quantidade de informação em seus bancos de dados. - Programas comerciais de mineração de dados já podem ser adquiridos Embora esta “técnica” seja antiga, devido os custos de implementação os sistemas de mineração de dados encontravam-se apenas nas universidades e centro de pesquisas, hoje já é possível encontrar comercialmente.

12 Onde e quando começar? ETAPAS DE D.M

13 DATA MINING - ETAPAS Em 1996, um conjunto de três empresas especializadas no então jovem e imaturo mercado de data mining, desenvolveram um modelo de processos genéricos, com o intuito de padronizar as etapas do processo de mineração de dados, dando início ao denominado projeto CRISP-DM (CRoss Industry Standard Process for Data Mining) [The CRISP-DM Consortium, 2000]. Este projeto desenvolveu um modelo de processo de mineração de dados industrial e livre de ferramenta. Modelo de negócios 

14

15 DATA MINING - ETAPAS Business Understanding (O negócio) - Essa fase inicial tem o foco no entendimento do negócio que visa obter conhecimento sobre os objetivos do negócio e seus requisitos, e então converter esse conhecimento em uma definição de um problema de mineração de dados. Data Understanding (Seleção de dados) - Essa fase se inicia com uma coleta inicial de dados, e com procedimentos e atividades visando a familiarização com os dados, para identificar possíveis problemas de qualidade, ou detectar subconjuntos interessantes para formar hipóteses.

16 DATA MINING - ETAPAS Data Preparation (Limpeza de dados) - Essa fase visa a limpeza, transformação, integração e formatação dos dados da etapa anterior. É a atividade pela qual os ruídos, dados estranhos ou inconsistentes são tratados. A utilização de Data Warehouses facilita em muito esta etapa do processo de mineração de dados, que costuma ser a fase que exige mais esforço, correspondendo geralmente a mais de 50% do trabalho.

17 DATA MINING - ETAPAS Modeling - (Modelagem de Dados) - visa a aplicação de técnicas de modelagem sobre o conjunto de dados preparado na etapa anterior. Nessa fase, várias técnicas de modelagem são selecionadas e aplicadas, e seus parâmetros são calibrados para se obter valores otimizados. EVALUATION (Avaliação do processo) - visa garantir que o modelo gerado atenda às expectativas da organização. Os resultados do processo de descoberta do conhecimento podem ser mostrados de diversas formas. Porém, estas formas devem possibilitar uma análise criteriosa para identificar a necessidade de retornar a qualquer um dos estágios anteriores.

18 DATA MINING - ETAPAS Deployment (Execussão) - Esta fase consiste na definição das fases de implantação da Mineração de Dados. A criação do modelo não é o fim do projeto. Mesmo se a finalidade do modelo for apenas aumentar o conhecimento dos dados, o conhecimento ganho necessitará ser organizado e apresentado em uma maneira que o cliente possa usar.

19 Visão técnica

20 TÉCNICAS DE DATA MINING

21 DATA MINING - TÉCNICAS Existem 5 (cinco) técnicas gerais de mineração de dados que englobam todas as outras formas de apresentação e permitem uma visão mais global e apropriada ao assunto. São elas: Classificação, Estimativa, Previsão, Análise de Afinidades e Análise de Agrupamentos.

22 DATA MINING - TÉCNICAS 1 – CLASSIFICAÇÃO: A classificação é uma das mais utilizadas técnicas de mineração de dados, simplesmente porque é uma das mais realizadas tarefas humana no auxílio à compreensão do ambiente em que se vive. O ser humano está sempre classificando o que percebe a sua volta, criando classes de relações humanas diferentes (colegas de trabalho, amigos, familiares, por exemplo...) e dando a cada classe uma forma diferente de tratamento.

23 DATA MINING - TÉCNICAS 2 – ESTIMATIVA: A estimativa, ao contrário da classificação, está associada a respostas contínuas. Estimar algum índice é determinar seu valor mais provável diante de dados do passado ou de dados de outros índices semelhantes sobre os quais se tem conhecimento, ou seja, determinar da melhor forma possível um valor, baseando-se em outros valores de situações semelhantes. Os algoritmos de regressão e as redes neurais são bastante utilizados nestes casos.

24 DATA MINING - TÉCNICAS 3 – PREVISÃO:
A previsão, como tarefa típica de DM, está associada à avaliação de um valor futuro de uma variável a partir dos dados históricos do seu comportamento passado. Assim, pode-se prever, por exemplo: Se o índice bovespa subirá ou descerá no dia seguinte; Qual será o valor de determinada ação daqui a um determinado período de tempo; Número de clientes que serão perdidos por uma empresa em um dado horizonte futuro de tempo; Qual será a população de uma certa cidade daqui a dez anos, etc. Os algoritmos que podem ser utilizados aqui são, dentre outros, as redes neurais, a regressão, e as árvores de decisão.

25 DATA MINING - TÉCNICAS 4 – ANÁLISE DE AFINIDADE: A análise de afinidades preocupa-se em reconhecer padrões de ocorrência simultânea de determinados eventos nos dados em análise. Determinar que fatos ocorrem simultaneamente com probabilidade razoável (co-ocorrência) ou que itens de uma massa de dados estão presentes juntos com uma certa chance (correlação).

26 DATA MINING - TÉCNICAS 5 – ANÁLISE DE AGRUPAMENTO (Cluster):
A análise de agrupamentos visa formar grupos de objetos ou elementos mais homogêneos entre si. Na análise de agrupamentos, os grupos ou classes são construídos com base na semelhança entre os elementos, cabendo ao analisador das classes resultantes avaliar se estas significam algo útil. Por exemplo, agrupar sintomas pode gerar classes que não representem nenhuma doença explicitamente, uma vez que doenças diferentes podem possuir os mesmos sintomas.

27 TIPOS DE ALGORÍTMOS

28 DATA MINING - ALGORÍTMOS
Diversos tipos de algoritmos são utilizados nas diferentes técnicas da mineração de dados. Por serem os mais amplamente utilizados, apresentarei apenas dois: Redes Neurais e Árvore de Decisão.

29 DATA MINING - ALGORÍTMOS
REDES NEURAIS: As redes neurais são sistemas paralelos distribuídos, que tentam construir representações de modelos ou padrões achados nos dados. Estruturalmente, uma rede neural consiste em um número de unidades de processamento simples interconectadas (chamadas neurônios), que têm o objetivo de calcular determinadas funções matemáticas (funções de ativação). A aquisição de conhecimento a partir do ambiente é feita através de um processo de aprendizagem (treinamento). Na fase de treinamento, os pesos das conexões da rede vão sendo ajustados de forma que o conhecimento extraído dos dados possa ser representado internamente, através de interações repetidas, cada hora ajustando os parâmetros que definem a superfície.

30 DATA MINING - ALGORÍTMOS
ÁRVORE DE DECISÃO: Método de árvores de decisão representa um tipo de algoritmo de aprendizado de máquina que utiliza uma abordagem dividir-para-conquistar. Consiste em meios de representar resultados de mineração de dados na forma de árvore. Neste método, permite-se ao usuário definir o objeto de saída. Com isto, a partir de um grupo de dados é possível identificar o fator mais importante correlacionado a este objeto.

31 E agora exemplos na PRÁTICA? 

32 ALGUMAS FERRAMENTAS - SAS Enterprise Miner - IBM Intelligent Miner - Oracle Darwin Data Mining Software - Clementine

33 CONCLUSÃO Embora muito mitificado pelas comunidades de Desenvolvedores, devido a dificuldade de implementar e lecionar, tentamos neste trabalho, passar a base do que é a Mineração de Dados, seus conceitos, Etapas, Técnicas e mais. Ainda existe muita conceito à fundo para conhecer (Clustering, redes neurais, métodos genéticos, mineração em textos, roll up/drill down, etc), mas é importante notar que em praticamente todos esses casos o que se deseja é descobrir padrões em volumes de dados.

34 OBRIGADO


Carregar ppt "Conceitos, Técnicas e Aplicação."

Apresentações semelhantes


Anúncios Google