Visão geral da Lingüística de Corpus

Slides:



Advertisements
Apresentações semelhantes
O CONHECIMENTO SOBRE A LINGUAGEM Eduardo Guimarães Eni P. Orlandi
Advertisements

TENDÊNCIAS ATUAIS NA INVESTIGAÇÃO EM LINGUÍSTICA APLICADA Luís Guerra
Pesquisa Pesquisar Pesquisador
Relembrando... A Investigação como processo tem seis etapas sucessivas: Construção do problema Entendimento do problema: a partir de quais perspectivas.
Profª Ana Elisa Alencar Silva de Oliveira
Pesquisa Bibliográfica Disciplina de Metodologia da Pesquisa Profª Tereza Yoshiko Kakehashi 1.
Taxonomia Alberto Elizabete Ernesto Ivan Lillian Marcio Patricia
Linguagens Formais e Autômatos
2. O objecto de estudo da Linguística
Metodologia Científica
Subárea da linguística.
ESFERAS E GÊNEROS NO PLANO DE TRABALHO DOCENTE
RECUPERAÇÃO PARALELA LÍNGUA PORTUGUESA 17/03/2009
42ª Reunião da ABENO de Ensino Odontológico
Introdução a Teoria da Classificação
UNIDADE E PRODUÇÃO CIENTÍFICA.
ARTIGO CIENTÍFICO.
Introdução à Metodologia de Pesquisa Tecnológica
Pesquisa (cap. 8, Marconi e Lakatos)
I have a dream…. Belinda Maia.
Língua de escolarização: estudo comparativo
Cefet/ RJ Centro Federal de Educação Tecnológica Celso Suckow da Fonseca Curso: Ensino de Línguas Estrangeiras Disciplina: Metodologia do ensino.
PNLD – Programa Nacional do Livro Didático
Capítulo 6 Organização.
Plano Nacional de Leitura
Planejamento e Execução da Auditoria
Profa. Dra. Renata Medici
Metodologia Da Pesquisa Científica
visão global do projeto Professora: Geórgia Fortes
Linhas de Pesquisas Científicas Desenvolvidas no IFBA
IF696 - Integração de Dados e DW
Definição do Problema e Revisão Bibliográfica I
Disciplina: Metodologia da Pesquisa e Tecnologia
Pesquisa Científica Metodologia Científica na Ciência da Computação
Base de dados morfológicos de terminologias do português do Brasil.
Comportamento dos alunos do 8ª ano do ensino fundamental da E. E
METODOLOGIA DA PESQUISA CIENTÍFICA
Trabalho de conclusão de curso
Introdução a Questão Social
ORIENTAÇÃO PARA TCC’s Prof. CARLOS BUZETTO.
A PESQUISA E SUAS CLASSIFICAÇÕES
Trabalho de Conclusão do Curso
Metodologia Científica
Indexação Profa. Lillian Alvares Faculdade de Ciência da Informação
Faculdade de Ciência da Informação Universidade de Brasília
Professora Michelle Luz
Profa. Flávia Santos Metodologia da Pesquisa Extraído de: Roesch, Yin e metodologia da UFPR e UFSC Profa. Flávia Santos
Determinação, Detecção, Seleção e Promoção do Talento Esportivo
A Educação Matemática como Campo Profissional e Científico
FICHAMENTO.
Elaboração de relatório
PROPAI/PROPCCI-I 2S 2º semestre – 2011 Professores: Geraldo e Padu.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
METODOLOGIA CIENTÍFICA (ENG2510)
Matemática Aplicada às Ciências Sociais
Documentação direta e indireta e técnica do fichamento
Metodologia de Pesquisa Prof.Ludmila Rodrigues Antunes
Prof. Gabriela LottaPMCS Apresentação da disciplina e introdução Problemas Metodológicos em Ciências Sociais.
Professora Michelle Luz
ABORGAGENS PEDAGÓGICAS
MÉTODOS QUANTITATIVOS APLICADOS ÀS CIÊNCIAS MÉDICAS 5º MÓDULO.
Programa Nacional do Livro Didático – PNLD 2015/ Ensino Médio
C ARACTERIZAÇÃO DO PROFISSIONAL DA INFORMAÇÃO EM REPOSITÓRIOS DE ACESSO ABERTO NO B RASIL Elis Gabriela COPA SANTOS ¹ Ariadne Chloë FURNIVAL² ¹Graduanda.
PREPARAÇÃO DE UM ARTIGO CIENTÍFICO
LINGUÍSTICA APLICADA I. LINGUÍSTICA APLICADA HOJE: “[O] objeto de investigação da (LA) é a linguagem como prática social, seja no contexto de aprendizagem.
Finalidades da pesquisa científica
PROJETO DE PESQUISA Fundamentação e Estrutura Prof. Dr. Ariovaldo Lopes Pereira.
Indexação e Resumos: teoria e prática
A MOTIVAÇÃO PROPICIADA PELA ABORDAGEM DE UM TEMA DA FÍSICA MODERNA COM ALUNOS DO ENSINO MÉDIO Luciene Fernanda da Silva¹, Alice Assis² ¹ USP / Programa.
Programa de ensino de leitura crítica Para compreender as evidências sobre efetividade clínica O que não deve faltar em um bom estudo qualitativo 10 perguntas.
Transcrição da apresentação:

Visão geral da Lingüística de Corpus Discente: Flávia Orci Fernandes Docente: Prof. Dr. Roberto Gomes Camacho

Introdução Primeiro corpus lingüístico eletrônico: Brown University Standard Corpus of Present-day American English 1964 1 milhão de palavras Primeiro corpus eletrônico de linguagem falada: 220 mil palavras – atribuído a Sinclair

Objetivos do texto Apresentar uma retrospectiva da Lingüística de Corpus Apresentar os principais marcos de sua história Discutir algumas questões teóricas e práticas subjacentes à área

1.1. A Lingüística de Corpus e seu histórico Ocupação: coleta e exploração de corpora com o propósito de servirem para a pesquisa de uma língua ou variedade lingüística. Exploração da linguagem por meio de evidências empíricas, extraídas por computador.

Sentido original de “corpus”: CORPO Grécia antiga: definição do Corpus Helenístico por Alexandre, o Grande Antigüidade e Idade Média: produção de corpora de citações bíblicas Século XX: corpus coletados, mantidos e analisados manualmente, com ênfase no ensino de línguas

Corpus não-computadorizado que deu feição aos atuais: SEU (Survey of English Usage) Londres, a partir de 1959 1 milhão de palavras Organizado em fichas de papel Base para o desenvolvimento dos etiquetadores computadorizados contemporâneos 1989: London-Lund Corpus – parte falada computadorizada

Anos 50: teorias racionalistas da linguagem Críticas à LC: corpora “gigantescos” não eram confiáveis Invenção do computador tornou possível a compilação de maior quantidade de dados 1960: mainframe 1980: fitas magnéticas e microcomputadores pessoais

Atualidade: Grã-Bretanha – um dos centros de pesquisa mais desenvolvidos (Birminghan, Brighton, Lancaster, Liverpool, Londres) Países escandinavos Fora da Europa a LC não está tão desenvolvida EUA: força da lingüística gerativa-transformacional

EUA: desenvolvimento avançado na pesquisa em Processamento de Linguagem Natural (PLN) Brasil: estágios iniciais voltados à PLN e à Lingüística Compuatacional Parcerias entre empresas (finalidades comerciais) e universidades: pesquisas em LC ligadas à editoras Pioneiro: Cobuild – Universidade de Birmingham com a editora Collins

1.2. Corpora de língua inglesa Corpus Ano Palavras Composição Corpus of Spoken American English 1991 2 milhões Inglês americano falado BCN (British National Corpus) 1995 100 milhões Inglês britânico, escrito e falado Longman Written American Corpus 1997 Inglês americano escrito (jornais e livros) Bank of English 1987 450 milhões Inglês britânico

1.3. Corpora de língua portuguesa Corpus Palavras Comp. Loc. Corpus UNESP/Araraquara Usos do Português 200 milhões PB escrito UNESP, Araraquara NURC (Projeto de Estudo da Norma Lingüística e Letras) 570 mil PB falado USP, UFRJ, UFBA, UFPE, UFRGS PHPB (Projeto para a História do Português Brasileiro) Não disponível Port. Escrito UFPE, UFPBA, UFMG, UFRJ, EFSC, UFPB, USP Tycho Brahe Parsed Corpus of Historical Portuguese 1,o milhão Port. Antigo (1550 a 1850) Unicamp VARSUL (Variação Lingüística Urbana da Região Sul) Port. Falado UFSC, UFRGS, UFPR

Corpus Ano Palavras Composição IBORUNA 2007 Aprox. 1 milhão Português falado riopretano

1.4. Corpora de outras línguas Corpus Língua Palavras COSMAS (corpus Access Storage and Maintenance System) Alemão 1, 7 bilhão Frantext Francês 3.500 obras, do século XVI ao século XX, 80% literatura

1.5. Marcos da Lingüística de Corpus “A história da Lingüística de Corpus está condicionada à tecnologia, que permite não somente o armazenamento de corpora, mas também a sua exploração e, por isso, está relacionada à disponibilidade de ferramentas computacionais para análise de corpus, dentre as quais se destacam as seguintes.” (p. 15)

1.6. Definição de corpus Nem todo conjunto de dados é considerado corpus Arquivo Biblioteca eletrônica Corpus: uma parte da biblioteca eletrônica, construído a partir de um desenho explícito, com objetivos específicos Subcorpus: uma parte do corpus

“Um conjunto de dados lingüísticos (pertencentes ao uso oral ou escrito da língua, ou a ambos), sistematizados segundo determinados critérios, suficientemente extensos em amplitude e profundidade, de maneira que sejam representativos da totalidade do uso lingüístico ou de algum de seus âmbitos, dispostos de tal modo que possam ser processados por computador, com a finalidade de propiciar resultados vários e úteis para a descrição e análise” (p. 18)

Origem Propósito Composição Formatação Representatividade Extensão

Quatro pré-requisitos para a formação de um corpus computadorizado: 1) O corpus deve ser composto de textos autênticos, em linguagem natural. 2) Autenticidade dos textos subentende textos escritos por falantes nativos. 3) O conteúdo do corpus deve ser escolhido criteriosamente. 4) Representatividade.

1.7. Tipologia de Corpus MODO: falado; escrito TEMPO: sincrônico; diacrônico; contemporâneo; histórico SELEÇÃO: de amostragem; monitor; dinâmico ou orgânico; estático; equilibrado CONTEÚDO: especializado; regional ou dialetal; multilíngüe AUTORIA: de aprendiz; de língua nativa DISPOSIÇÃO INTERNA: paralelo; alinhado FINALIDADE: de estudo; de referência; de treinamento ou teste

Pluralidade de autoria Origem da autoria Meio Integralidade Especificidade Dialeto Equilíbrio Fechamento Renovação Temporalidade Tradução Intercalação

1.8. Representatividade de corpus “Não há critérios para a determinação da representatividade.” (p. 23) “A representatividade está ligada à questão da probabilidade.” (p. 23) Número de palavras Número de textos Número de gêneros

1.9. Extensão do corpus Abordagens: 1) Impressionística 2) Histórica 3) Estatística

1.10. Especificidade do corpus “Um modo de atingir a representatividade total de um corpus é incluir nele toda a linguagem.” (p. 27) “Os corpora gerais podem ser usados como fonte para criação de corpora especializados.” (p. 28) “(...) normalmente, corpora compilados em pequena escala por pesquisadores individuais acabam sendo mais representativos do que os respectivos subcorpora dos corpora gerais.” (p. 28)

1.11. Adequação do corpus “A adequação do corpus é tomada como dada. Assume-se que o corpus com o qual se esteja lidando e as perguntas feitas sejam adequados aos propósitos da investigação. Sem isso, a pesquisa não tem sentido.” (p. 29) Questionamento da validade de corpora gerais.

1.12. Teorias de linguagem e Lingüística de Corpus Lingüística Empírica = Abordagem empirista + linguagem como sistema probabilístico Oposição entre Halliday (probabilidade) e Chomsky (possibilidade) “A visão da linguagem como sistema probabilístico pressupõe que, embora muitos traços lingüísticos sejam possíveis teoricamente, ocorrem com a mesma freqüência.” (p. 31) Padronização

1.12. Teorias de linguagem e Lingüística de Corpus Lingüística de Corpus x lingüística chomskyana: Foco no desempenho lingüístico, em vez de competência Foco na descrição lingüística, em vez de universais lingüísticos Foco numa visão mais empirista do que racionalista da pesquisa científica

1.13. Estatuto da Lingüística de Corpus A LC é uma disciplina ou uma metodologia? Não se dedica a um assunto definido e não se resume a um conjunto de ferramentas: assim poderíamos classificá-la como PERSPECTIVA: “(...) é uma maneira de se checar a linguagem, e faz alusão ao conceito de teoria lingüística como janela que molda como enxergamos a linguagem.” (p. 37)

1.14. Tipos de pesquisa privilegiados São empíricos e analisam os padrões reais de uso em textos naturais. Utilizam coletâneas grandes e criteriosas de textos naturais, conhecidas por corpus, como a base da análise. Fazem uso extensivo de computadores na análise, empregando técnicas automáticas e interativas. Dependem de técnicas quantitativas e qualitativas.

1.14. Tipos de pesquisa privilegiados 1) Compilação de corpus 2) Desenvolvimento de ferramentas 3) Descrição da linguagem 4) Aplicação de corpora

1.15. Padrões de linguagem Quais os padrões lexicais dos quais a palavra faz parte? Em que estruturas ela aparece? Padronização como regularidade expressa na recorrência sistemática de unidades coocorrentes de várias ordens (lexical, gramatical, sintática, etc). Podem ser formalizados em colocação, coligação, prosódia semântica.

1.16. Comentários finais Painel geral do campo de investigação da Lingüística de Corpus Dificuldades: quantidades de trabalhos novos e debate de cunho teórico Proposta da Psicologia Cognitiva de Langacker – alternativa para explicação da padronização “todo corpus me ensinou coisas sobre a linguagem que eu não teria descoberto de nenhum outro modo” (FILLMORE, p. 35)