Corpus: definição e coleta

Slides:



Advertisements
Apresentações semelhantes
33 truques e segredos para você se tornar um Expert em AutoCAD!
Advertisements

Pesquisa Pesquisar Pesquisador
gerador de código intermediário
ORGANIZANDO A PESQUISA
Ana Frankenberg-Garcia
Conceitos de Lingüística Aplicada
Propriedades de Documentos
Visão geral da Lingüística de Corpus
Língua Inglesa Instrumental
Fernando Moraes e Ney Laert Vilar Calazans
Daisy Pail. Analisar as árvores do bosque na versão extented Individualizar os nodos função:forma Propor nodos que proporcionem maior uniformidade de.
Interfaces Conversacionais
Desenvolvimento de PROJETOS.
Criando corpora pessoais Corpógrafo – presente e futuro
Teorias de Letramentos em uso: o Currículo Básico da SEDU
Cefet/ RJ Centro Federal de Educação Tecnológica Celso Suckow da Fonseca Curso: Ensino de Línguas Estrangeiras Disciplina: Metodologia do ensino.
And now, the end is here E agora o fim está próximo, And so I face the final curtain E então eu encaro a última cortina. My friend, I'll say it clear.
Formas de Representação de Algoritmos
CFE CEGI BE BEL – Literacia Verbal
COM SOM Barbra Streisand Melhor visualização no Power Point 2000.
UNIVERSIDADE FEDERAL SANTA CATARINA Curso de Biblioteconomia Disciplina: Recuperação Da Informação Professora: Ursula Blattmann Acadêmicas:: Mara Suchy.
1: nome e descrição da marca, produto ou serviço
Avaliação Constituição dos grupos de trabalho:
Rozane Rodrigues Rebechi (USP - Mestrado)
Linguagens, códigos e suas tecnologias
IN PAIRS: Talk to a friend about what is happening in the pictures below. EM PARES: Converse com um amigo sobre o que está acontecendo nas figuras abaixo).
LÍNGUA INGLESA - REVISÃO
Meu primeiro Plugin para Revit
CEPRIL Definindo-se como um Centro de Pesquisas, Recursos, Documentação e Apoio, o CEPRIL foi criado e reconhecido pela PUC-SP na década de 1980 e, desde.
Wh- Questions e Short Answers
18/6/2014 Sites de Busca.
SIMPLE PRESENT O Simple Present é o equivalente, na língua inglesa, ao Presente do Indicativo, na língua portuguesa. O Simple Present é usado para indicar.
AQUISIÇÃO LÉXICO-CULTURAL DO INGLÊS ATRAVÉS DE MÚSICAS: (RE)TOMADAS DE POSIÇÕES PARA O TRABALHO EM SALA DE AULA Jean Santos PRADO (Bolsista PIBID/CAPES)
Recursos da Linguateca Diana Santos Porto, 4 de Outubro de 2005.
Electronic Tools for Translators in the 21st Century Francisca Almeida Milton Barcelos.
Aprendizagem por aconselhamento Communicative Approach
Base de dados morfológicos de terminologias do português do Brasil.
Inglês – Profa. Claudia Mendes
Teacher Cadu English Review
Universidade Federal de Santa Catarina Centro de Comunicação e Expressão Pós-Graduação em Estudos da Tradução OS EPISÓDIOS DE CHAVES TRADUZIDOS PARA O.
Bible Story Jesus' first miracle. One day there was a wedding in the city of Cana in Galilee, Jesus’ mother was there and so were Jesus’ disciples and.
suas Tecnologias - Inglês Possessive Adjectives/Possessive Pronouns
MY WAY Frank Sinatra MARILYNMONROEMARILYNMONROE Ligue o som.
Por: Gabriela Ferreira Jessica Olinda
DESAFIO Distinguir os sintagmas preposicionados (PP= Prepositional Phrases) que são complementos de verbos dos que são adjuntos. Ele trabalha em publicidade.
Com Som Colaboração de Lindalva Porto Canta: Gladys Knight (H. Bergman/M.Bergman/M. Hamlisch) Canta: Gladys Knight (H. Bergman/M.Bergman/M. Hamlisch)
Nomeação de arquivos – Cap 4.1.1
A Lexicon-Enhanced Method for Sentiment Classification: An Experiment on Online Product Reviews Bruno Andrade.
Interpretação Vs Tradução Confusão entre Tradução e Interpretação 1.Tradutor – Constante verificação, recurso a dicionários e glossários, corpora, base.
Seize The Day Aproveite o dia
Paradoxo da Internet Comentado por Joseph M. Newcomer In
Umberto Eco Viagem na irrealidade cotidiana
Simple Present x Present Continuous
HEY JUDE Hey Jude don't make it bad Hey Jude não piore as coisas Take a sad song and make it better Pegue uma canção triste e a torne melhor.
Gotas de Crystal Remember Lembre-se I will still be here Eu estarei aqui As long as you hold me Enquanto você me guardar In your memory Em sua lembrança.
Uma Interface em Linguagem Natural em Português para Pergunta-Resposta na Web Grupo de Inteligência Computacional Mestrado em Ciência da Computação Aluno:
Texto prescritivo Receita.
O Professor de Inglês Aprendendo e Ensinando
Can Must Verbos Modais Could Should.
Remember Lembre se Remember Lembre se I will still be here Eu estarei aqui I will still be here Eu estarei aqui As long as you hold me Enquanto você.
BOLO DE CHOCOLATE COM PUDIM DE LEITE EM BANHO-MARIA
Por que o jornal na escola?
QUESTION TAGS or TAG QUESTIONS
Funcionam como comparativos e mantem uma posição relativa em um escala de aumento ou diminuição. INCREASE (AUMENTO)= COUNTABLE NOUNS (SUBSTANTIVOS CONTÁVEIS):
By Búzios Slides Sincronizado com a Música All For Love Bryan Adams & Rod Stewart.
Adjectives of quantity: some / any
SISTEMA DE TRANSITIVIDADE: PARTICIPANTES PROCESSOS CIRCUNSTÂNCIAS.
O FADO Diogo Lopes 4º ano 4th grade. O fado é um símbolo mundialmente reconhecido de Portugal e tem um significado de destino e saudade. É esta última.
Where do I begin Por onde eu começo To tell a story of how great a love can be, A contar a história de quão grande um amor pode ser? The sweet love.
Abril 2016 Gabriel Mormilho Faculdade de Economia, Administração e Contabilidade da Universidade de São Paulo Departamento de Administração EAD5853 Análise.
Transcrição da apresentação:

Corpus: definição e coleta Tradução Técnica 2008 Stella E. O. Tagnin

O que é um corpus? (cf. Aurélio Eletrônico) (1) Conjunto de documentos, dados e informações sobre determinada matéria. (3) Conjunto de materiais significantes (enunciados lingüísticos, capas de revistas) constituído com vistas à análise semiológica.

O que é um corpus hoje? Uma coletânea de textos em formato eletrônico, compilada segundo critérios específicos, considerada representativa de uma língua (ou da parte que se pretende estudar), destinada à pesquisa

Critérios de compilação Origem: textos autênticos Objetivo: pesquisa População: seleção Formato: eletrônico Representatividade: de que, para quem? Extensão: de acordo com objetivos

A História dos Corpora Década de 60 – corpora de 1 milhão de palavras! Brown – inglês americano 200 textos de 5.000 palavras cada 15 categorias distintas LOB (Lancaster/Oslo/Bergen) – contrapartida em inglês britânico

Os Corpora Atuais BNC – 1995 – 100 milhões de palavras 90% língua escrita 10% língua falada Bank of English (Cobuild) Birmingham 1987 – 20 milhões de palavras Hoje perto de 500 milhões de palavras corpus aberto – em constante atualização

Qual a grande vantagem dos corpora? Observação da linguagem em uso - natural - contrapõe-se à introspecção Chomskyana - gramatical -

Qual é a diferença? Chomsky Halliday Competência Desempenho Universais lingüísticos Racionalismo Intuição - introspecção Possibilidade Halliday Desempenho Descrição lingüística Empirismo Observação Probabilidade

Corpus linguist vs armchair linguist “... I don’t think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore...”

Corpus linguist vs armchair linguist “... Every corpus [...] however small, has taught me facts that I couldn’t imagine finding out about in any other way.” (Fillmore, C.J. “Corpus linguistics” or “Computer-aided armchair linguistics”. In Svartvik, Jan (ed.) Directions in Corpus Linguistics, Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991, Berlin/NY: Mouton de Gruyter, 1992, 35-60)

texto natural fluente Lembrando... Na tradução técnica o que se almeja é um texto natural fluente

Para que servem os corpora? Detectar padrões lexicais Fraseológicos (colocações): palavras que co-ocorrem em freqüência maior do que esperada: sweeping victory, high and low > search high and low Terminológicos: lucros e perdas, controle de qualidade, plantas geneticamente modificadas (alteradas??) Compilação de dicionários e glossários

Para que servem os corpora? Detectar padrões gramaticais “coligações”: verbos seguidos de infinitivo ou gerúndio: begin + to vs. start + -ing Detectar a prosódia semântica: cause vs causar

Concordância family thinks Vicki Rock's former job at the plant caused her son's cancer. but he denies that the plant caused leukemia in families that have brought suits against the company One of two things could have caused this error: The Pobox.com user whose web site you Ok: BM caused TONS of problems over last few weeks…31: Holes that caused fuel leak on shuttle located in nozzle July 28: Columbia reduce deaths, injuries, property damage, economic losses and human suffering caused by natural disasters.

ventos mais fortes do oeste e aumento de tempestades violentas, causou danos sem precedentes nas propriedades situadas na costa de 1992 na região central dos Estados Unidos. Por isso, causou grande impacto a descoberta do oceanógrafo americano Dudley Chelton membro do conselho executivo deve fazer é "A nossa empresa causou uma primeira boa impressão em consumidores potenciais suficientes para garantir de 1995, quando já assumira a presidência do Banco Central, causou repercussão na imprensa o fato de ter passado o carnaval fato teve não teve a repercussão equivalente ao prejuízo que causou a centenas de empresas que hoje dependem prioritariamente da rede

Áreas de Pesquisa Lexicologia e lexicografia Estudos lexicais Compilação de dicionários   Estudos contrastivos Tradução Naturalidade da língua

Áreas de Pesquisa Tradução Normalização/ Simplificação/ Explicitação Estratégias de tradução Normas de tradução Ensino e treinamento Fontes de referência

Corpora Online Inglês BNC: http://sara.natcorp.ox.ac.uk/lookup.html COBUILD: http://www.collins.co.uk/Corpus/CorpusSearch.aspx WebCorp: http://www.webcorp.org.ul/webcorp.html

Corpora Online Português COMPARA: http://www.linguateca.pt/COMPARA Lácio-Web: http://www.nilc.icmc.usp.br/lacioweb

Dicionários baseados em corpora Oxford English Dictionary (2nd ed.), 1989 Longman Dictionary of Contemporary English (1980s) Macmillan English Dictionary (2002)

Os corpora quanto à língua monolíngües bilíngües multilíngües

Corpora monolíngües língua geral: jornalísticos e literários língua de especialidade: técnicos mistos traduções TEC - Translation English Corpus corpus de referência (depende da pesquisa) língua geral variedade de gêneros variedade de registros

Corpora multilíngüe comparáveis: paralelos: originais em duas ou mais línguas paralelos: originais + tradução/traduções

COMPARA Extratos de Ficção Português  Inglês Inglês Português Textos alinhados Originais Traduções Português 26 17 Inglês 15 27 Total 41 44 Palavras Originais Traduções O &T Português 395244 452763 848013 Inglês 456075 439083 895158 Ptg & Ing 851319 891846 1743171

Then – Então – Aí – Daí - Depois EBJB1(1018): Then there are the three live parrots, two at Trouville and one at Venice; plus the sick parakeet at Antibes. Há depois os três papagaios vivos, dois em Trouville e um em Veneza; mais o periquito doente em Antibes. EBJB1(1033): Then the parrot, returning its master's gaze with an unflinching eye, would murmur the cabbalistic word, and Henri's soul would be filled with the memory of his lost happiness. Então o papagaio, retribuindo o olhar ao dono com um olho inflexível, murmurava a palavra cabalística e a alma de Henri enchia-se com a memória da sua felicidade perdida. ESNG1(496): Then there was the matter of her job. Daí vinha a questão do seu emprego

Alguns sites úteis http://devoted.to/corpora Corpus Linguistics: http://www.humcorp.bham.ac.uk/ Bibliography http://www.athel.com/corpus_bibliography.html Text Corpora http://www.athel.com/corpus.html David Lee’s Bookmarks for Corpus-based Linguists: http://devoted.to/corpora

Projeto e Compilação de um Corpus 1. Objetivo do corpus perguntas de pesquisa   2. Projeto do corpus a. estático ou dinâmico b. falado ou escrito c. monolíngüe ou multilíngüe (comparável ou paralelo) d. gêneros e tipos de textos a serem incluídos

Projeto e Compilação de um Corpus 2. Projeto do corpus e. domínios a serem incluídos f. proporção dos textos g. quantidade de textos h. completos ou trechos i. extensão dos textos j. fonte dos textos k. tamanho do corpus

Projeto e Compilação de um Corpus Cabeçalho quais informações são relevantes para o projeto? que outras informações poderiam interessar a outros pesquisadores? - reusabilidade

Cabeçalho <Header> <title> <filename> </filename>  </title>     <author>          <name></name>     </author>     <sourceText>          <language></language>          <mode>[mode of delivery of textual content]</mode>         <publisher></publisher>          <pubPlace>[place of publication]</pubPlace>          <date></date> <copyright>[copyrights holder]</copyright>     </sourceText> </Header>   

<text> <header> <title> <fileName> JO-IF-ESP-esp_01 </fileName> <corpus> futebol </corpus> <nPages> 2 </nPages> <nWords> 935 </nWords> <sample> íntegra </sample> </title> <sourceText> <titleOfText> Santos no caminho certo </titleOfText> <language> PB </language> <source> O Estado de São Paulo </source> <pubPlace> http://www.estado.com.br </pubPlace> <date> 03.08.2004 </date> <status> Original </status> </sourceText> <author> <name> Válter Casagrande Júnior </name> <gender> Masculino </gender> <type> Individual </type> </author>

<textClassification> <textGenre> <genre> informativo </genre> </textGenre> <textType> Editorial </textType> <domain> <generalDomain defined="auto-def"> Generalidades </generalDomain> <specificDomain> Esporte </specificDomain> </domain> <distribution> Internet </distribution> </textClassification> </header>

Projeto e Compilação de um Corpus 4. Código de nomeação (Manual Lácio-Web) Meio de Divulgação, Gênero Textual, Fonte, Data JO-IF-FSP-mu-05fev99_01 Meio de divulgação: jornal Gênero textual: informativo Fonte: nome do periódico: Jornal “Folha de São Paulo” Caderno: “Mundo” Data: 05 de fevereiro de 1999 Primeiro texto (deste caderno, nesta data de publicação)

Projeto e Compilação de um Corpus 4. Código de nomeação RE-IF-NE-cea-mar01_05 Meio de divulgação: revista Gênero textual: informativo Fonte: Revista “Nova Escola” Caderno: “Cresça e Aconteça” Data: mês de março de 2001 Quinto texto (deste caderno, nesta data de publicação)

Projeto e Compilação de um Corpus 4. Código de nomeação RE-IF-CI-#-nov00_03 Meio de divulgação: revista Gênero textual: informativo Fonte: Revista “Cerâmica Industrial” Caderno: não há subdivisões no periódico Data: mês de novembro de 2000 Terceiro texto (deste caderno, nesta data de publicação)

Projeto e Compilação de um Corpus 4. Código de nomeação RE-IF-CI-#-agodez01_02 Meio de divulgação: revista Gênero textual: informativo Fonte: Revista “Cerâmica Industrial” Caderno: não há subdivisões no periódico Data: período compreendendo os meses de agosto a dezembro de 2001 Segundo texto (deste caderno, nesta data de publicação)

Projeto e Compilação de um Corpus 5. Etiquetagem morfossintática (POS-tagging) sintática (parsing) semântica discursiva terminológica  

Etiquetagem morfossintática Foi_VAUX cercada_PCP de_PREP|+ o_ART maior_ADJ sigilo_N a_ART chegada_N agência=de=publicidade_N Saatchi_NPROP $&_NPROP a_PREP|+ o_ART Brasil_NPROP ._. </s>

Etiquetagem semântica For the soup, preheat the oven to 160ºC (350ºF / moderate / Gas 4). <cut>Cut</cut> <veg>tomatoes</veg> lengthwise, discard seeds, place in a medium heatproof dish with <season>garlic</season>, olive oil, <season>salt</season>, <season>pepper</season>, and <herb>parsley</herb> and <herb>basil</herb> sprigs tied by the stems. <cook>Bake</cook> for approximately 1 hour, until <veg>tomatoes</veg> are soft and fragrant, let cool and refrigerate for 2 hours, or up to 2 days. Discard wilted herbs and blistered tomato skin and puree in a <appl>blender</appl> until a smooth paste is obtained (if you want a soup with a more delicate texture, press mixture through a sieve). Complete with cold water as to obtain 1 L (1 qt) of soup, adjust <season>salt</season> and <season>pepper</season>, correct the acidity by adding a pinch of <season>sugar</season>, and refrigerate for at least 1 hour, or overnight.

Etiquetagem semântica/terminológica Caponata (1 hour and 30 minutes) 1 onion 2 <term>celery stalks</term> 1 <term>red bell pepper </term> 4 fully ripe tomatoes, peeled and seeded 1 small deep green zucchini (courgette) 2 medium eggplants (aubergines) 2 tablespoons <term>pine nuts</term> 2 garlic cloves, <term>finely chopped</term> 1 <term>bay leaf</term> 1 teaspoon oregano ¼ cup <term>red wine vinegar</term> 1 tablespoon sugar 2 tablespoons capers 2 tablespoons <term>dark raisins</term> ½ cup slivered green olives 1 cup flat-leaf parsley leaves ½ cup basil leaves olive oil salt and black pepper <term>to taste</term>

Etiquetagem discursiva <titRec> Pudim de Leite Condensado </titRec> <coment> Pudim de leite condensado é uma sobremesa que dispensa elogios, ou qualquer palavra para definí-lo. É simplesmente o máximo!! </coment> <ingr> Ingredientes: 1 lata de leite condensado 1 lata de leite 3 ovos essência de baunilha 3 colheres de açúcar </ingr> <modFaz> Modo de Preparo: Coloque o açúcar numa forma própria para pudim e leve ao fogo brando para caramelizar a forma. Bater todos os outros ingredientes no liqüidificador. Despeje o conteúdo na forma caramelizada. Levar ao forno em banho-maria. </modFaz> <coment> Dica: para verificar se o pudim esta pronto, fure o pudim com um palito de dente, se o palito sair limpo, é que esta pronto, espere esfriar, desenforme e sirva. </coment>

Etiquetadores do Lácio-Web MXPOST (não está funcionando) TreeTagger Brill

Corpora de Aprendizes Aprendizes de Língua Estrangeira Aprendizes de Tradução Aprendizes de Língua Materna O Projeto ICLE (International Corpus of Learner English) http://cecl.fltr.ucl.ac.be/Cecl-Projects/Icle/icle.htm