A apresentação está carregando. Por favor, espere

A apresentação está carregando. Por favor, espere

Corpus: definição e coleta Tradução Técnica 2008 Stella E. O. Tagnin.

Apresentações semelhantes


Apresentação em tema: "Corpus: definição e coleta Tradução Técnica 2008 Stella E. O. Tagnin."— Transcrição da apresentação:

1

2 Corpus: definição e coleta Tradução Técnica 2008 Stella E. O. Tagnin

3 O que é um corpus? (cf. Aurélio Eletrônico) (1) Conjunto de documentos, dados e informações sobre determinada matéria. (3) Conjunto de materiais significantes (enunciados lingüísticos, capas de revistas) constituído com vistas à análise semiológica.

4 Uma coletânea de textos em formato eletrônico, compilada segundo critérios específicos, considerada representativa de uma língua (ou da parte que se pretende estudar), destinada à pesquisa O que é um corpus hoje?

5 Critérios de compilação Origem: textos autênticos Objetivo: pesquisa População: seleção Formato: eletrônico Representatividade: de que, para quem? Extensão: de acordo com objetivos

6 A História dos Corpora Década de 60 – corpora de 1 milhão de palavras! Brown – inglês americano –200 textos de palavras cada –15 categorias distintas LOB (Lancaster/Oslo/Bergen) – contrapartida em inglês britânico

7 Os Corpora Atuais BNC – 1995 – 100 milhões de palavras –90% língua escrita –10% língua falada Bank of English (Cobuild) –Birmingham 1987 – 20 milhões de palavras –Hoje perto de 500 milhões de palavras –corpus aberto – em constante atualização

8 Qual a grande vantagem dos corpora? Observação da linguagem em uso - natural - contrapõe-se à introspecção Chomskyana - gramatical -

9 Qual é a diferença? HallidayDesempenho Descrição lingüística EmpirismoObservaçãoProbabilidade ChomskyCompetência Universais lingüísticos Racionalismo Intuição - introspecção Possibilidade

10 Corpus linguist vs armchair linguist... I dont think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore...

11 Corpus linguist vs armchair linguist... Every corpus [...] however small, has taught me facts that I couldnt imagine finding out about in any other way. (Fillmore, C.J. Corpus linguistics or Computer-aided armchair linguistics. In Svartvik, Jan (ed.) Directions in Corpus Linguistics, Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991, Berlin/NY: Mouton de Gruyter, 1992, 35-60)

12 Lembrando... Na tradução técnica o que se almeja é um texto natural fluente

13 Para que servem os corpora? Detectar padrões lexicais –Fraseológicos (colocações): palavras que co-ocorrem em freqüência maior do que esperada: sweeping victory, high and low > search high and low –Terminológicos: lucros e perdas, controle de qualidade, plantas geneticamente modificadas (alteradas??) Compilação de dicionários e glossários

14 Para que servem os corpora? Detectar padrões gramaticais –coligações: verbos seguidos de infinitivo ou gerúndio: –begin + to vs. start + -ing Detectar a prosódia semântica: cause vs causar

15 Concordância family thinks Vicki Rock's former job at the plant caused her son's cancer. but he denies that the plant caused leukemia in families that have brought suits against the company One of two things could have caused this error: The Pobox.com user whose web site you Ok: BM caused TONS of problems over last few weeks…31: Holes that caused fuel leak on shuttle located in nozzle July 28: Columbia reduce deaths, injuries, property damage, economic losses and human suffering caused by natural disasters.

16 ventos mais fortes do oeste e aumento de tempestades violentas, causou danos sem precedentes nas propriedades situadas na costa de 1992 na região central dos Estados Unidos. Por isso, causou grande impacto a descoberta do oceanógrafo americano Dudley Chelton membro do conselho executivo deve fazer é "A nossa empresa causou uma primeira boa impressão em consumidores potenciais suficientes para garantir de 1995, quando já assumira a presidência do Banco Central, causou repercussão na imprensa o fato de ter passado o carnaval fato teve não teve a repercussão equivalente ao prejuízo que causou a centenas de empresas que hoje dependem prioritariamente da rede

17 Á reas de Pesquisa Á reas de Pesquisa Lexicologia e lexicografia Estudos lexicais Compila ç ão de dicion á rios Estudos contrastivos Tradu ç ão Naturalidade da l í ngua

18 Á reas de Pesquisa –Tradu ç ão –Normaliza ç ão/ Simplifica ç ão/ Explicita ç ão –Estrat é gias de tradu ç ão –Normas de tradu ç ão –Ensino e treinamento –Fontes de referência

19 Corpora Online Inglês BNC: COBUILD: pusSearch.aspx pusSearch.aspx pusSearch.aspx WebCorp:

20 Corpora Online Português COMPARA: Lácio-Web:

21 Dicionários baseados em corpora Oxford English Dictionary (2nd ed.), 1989 Longman Dictionary of Contemporary English (1980s) Macmillan English Dictionary (2002)

22 Os corpora quanto à língua –monolíngües –bilíngües –multilíngües

23 Corpora monolíngües língua geral: jornalísticos e literários língua geral: jornalísticos e literários língua de especialidade: técnicos língua de especialidade: técnicos mistos mistos traduções traduções –TEC - Translation English Corpus corpus de referência (depende da pesquisa) –língua geral –variedade de gêneros –variedade de registros

24 Corpora multilíngüe comparáveis: –o–o–o–originais em duas ou mais línguas paralelos: originais + tradução/traduções

25 COMPARA Extratos de Ficção Português Inglês Inglês Português Textos alinhados Originais Traduções Português2617 Inglês1527 Total4144 Palavras Originais Traduções O &T Português Inglês Ptg & Ing

26 Then – Então – Aí – Daí - Depois EBJB1EBJB1(1018): Then Then there are the three live parrots, two at Trouville and one at Venice; plus the sick parakeet at Antibes. depois Há depois os três papagaios vivos, dois em Trouville e um em Veneza; mais o periquito doente em Antibes. EBJB1EBJB1(1033): Then Then the parrot, returning its master's gaze with an unflinching eye, would murmur the cabbalistic word, and Henri's soul would be filled with the memory of his lost happiness. Então Então o papagaio, retribuindo o olhar ao dono com um olho inflexível, murmurava a palavra cabalística e a alma de Henri enchia-se com a memória da sua felicidade perdida. ESNG1ESNG1(496): Then Then there was the matter of her job. Daí Daí vinha a questão do seu emprego

27 Alguns sites úteis Corpus Linguistics: Bibliography Text Corpora David Lees Bookmarks for Corpus-based Linguists:

28 Projeto e Compilação de um Corpus 1. Objetivo do corpus perguntas de pesquisa 2. Projeto do corpus a. estático ou dinâmico b. falado ou escrito c. monolíngüe ou multilíngüe (comparável ou paralelo) d. gêneros e tipos de textos a serem incluídos

29 Projeto e Compilação de um Corpus 2. Projeto do corpus e. domínios a serem incluídos f. proporção dos textos g. quantidade de textos h. completos ou trechos i. extensão dos textos j. fonte dos textos k. tamanho do corpus

30 Projeto e Compilação de um Corpus 3.Cabeçalho quais informações são relevantes para o projeto?quais informações são relevantes para o projeto? que outras informações poderiam interessar a outros pesquisadores? - reusabilidadeque outras informações poderiam interessar a outros pesquisadores? - reusabilidade

31 Cabeçalho [mode of delivery of textual content] [place of publication] [copyrights holder]

32 JO-IF-ESP-esp_01 futebol íntegra Santos no caminho certo PB O Estado de São Paulo Original Válter Casagrande Júnior Masculino Individual

33 informativo Editorial Generalidades Esporte Internet

34 Projeto e Compilação de um Corpus 4. Código de nomeação (Manual Lácio-Web) Meio de Divulgação, Gênero Textual, Fonte, DataJO-IF-FSP-mu-05fev99_01 Meio de divulgação: jornal Gênero textual: informativo Fonte: nome do periódico: Jornal Folha de São Paulo Caderno: Mundo Data: 05 de fevereiro de 1999 Primeiro texto (deste caderno, nesta data de publicação) de publicação)

35 Projeto e Compilação de um Corpus 4. Código de nomeação RE-IF-NE-cea-mar01_05 Meio de divulgação: revista Gênero textual: informativo Fonte: Revista Nova Escola Caderno: Cresça e Aconteça Data: mês de março de 2001 Quinto texto (deste caderno, nesta data de publicação) de publicação)

36 Projeto e Compilação de um Corpus 4. Código de nomeação RE-IF-CI-#-nov00_03 Meio de divulgação: revista Gênero textual: informativo Fonte: Revista Cerâmica Industrial Caderno: não há subdivisões no periódico Data: mês de novembro de 2000 Terceiro texto (deste caderno, nesta data de publicação) de publicação)

37 Projeto e Compilação de um Corpus 4. Código de nomeação RE-IF-CI-#-agodez01_02 Meio de divulgação: revista Gênero textual: informativo Fonte: Revista Cerâmica Industrial Caderno: não há subdivisões no periódico Data: período compreendendo os meses de agosto a dezembro de 2001 Segundo texto (deste caderno, nesta data de publicação)

38 Projeto e Compilação de um Corpus 5. Etiquetagem morfossintática (POS- tagging) morfossintática (POS- tagging) sintática (parsing) sintática (parsing) semântica semântica discursiva discursiva terminológica terminológica

39 Etiquetagem morfossintática Foi_VAUXcercada_PCPde_PREP|+o_ARTmaior_ADJsigilo_Na_ARTchegada_Nde_PREP|+a_ARTagência=de=publicidade_NSaatchi_NPROP$&_NPROPSaatchi_NPROPa_PREP|+o_ARTBrasil_NPROP._.

40 Etiquetagem semântica For the soup, preheat the oven to 160ºC (350ºF / moderate / Gas 4). Cut tomatoes lengthwise, discard seeds, place in a medium heatproof dish with garlic, olive oil, salt, pepper, and parsley and basil sprigs tied by the stems. Bake for approximately 1 hour, until tomatoes are soft and fragrant, let cool and refrigerate for 2 hours, or up to 2 days. Discard wilted herbs and blistered tomato skin and puree in a blender until a smooth paste is obtained (if you want a soup with a more delicate texture, press mixture through a sieve). Complete with cold water as to obtain 1 L (1 qt) of soup, adjust salt and pepper, correct the acidity by adding a pinch of sugar, and refrigerate for at least 1 hour, or overnight.

41 Etiquetagem semântica/terminológica Caponata (1 hour and 30 minutes) 1 onion 2 celery stalks 2 celery stalks 1 red bell pepper 1 red bell pepper 4 fully ripe tomatoes, peeled and seeded 1 small deep green zucchini (courgette) 2 medium eggplants (aubergines) 2 tablespoons pine nuts 2 tablespoons pine nuts 2 garlic cloves, finely chopped 2 garlic cloves, finely chopped 1 bay leaf 1 bay leaf 1 teaspoon oregano ¼ cup red wine vinegar ¼ cup red wine vinegar 1 tablespoon sugar 2 tablespoons capers 2 tablespoons dark raisins 2 tablespoons dark raisins ½ cup slivered green olives 1 cup flat-leaf parsley leaves ½ cup basil leaves olive oil salt and black pepper to taste salt and black pepper to taste

42 Etiquetagem discursiva Pudim de Leite Condensado Pudim de leite condensado é uma sobremesa que dispensa elogios, ou qualquer palavra para definí-lo. É simplesmente o máximo!! Ingredientes: 1 lata de leite condensado 1 lata de leite 3 ovos essência de baunilha 3 colheres de açúcar Modo de Preparo: Coloque o açúcar numa forma própria para pudim e leve ao fogo brando para caramelizar a forma. Bater todos os outros ingredientes no liqüidificador. Despeje o conteúdo na forma caramelizada. Levar ao forno em banho-maria. Dica: para verificar se o pudim esta pronto, fure o pudim com um palito de dente, se o palito sair limpo, é que esta pronto, espere esfriar, desenforme e sirva. Pudim de Leite Condensado Pudim de leite condensado é uma sobremesa que dispensa elogios, ou qualquer palavra para definí-lo. É simplesmente o máximo!! Ingredientes: 1 lata de leite condensado 1 lata de leite 3 ovos essência de baunilha 3 colheres de açúcar Modo de Preparo: Coloque o açúcar numa forma própria para pudim e leve ao fogo brando para caramelizar a forma. Bater todos os outros ingredientes no liqüidificador. Despeje o conteúdo na forma caramelizada. Levar ao forno em banho-maria. Dica: para verificar se o pudim esta pronto, fure o pudim com um palito de dente, se o palito sair limpo, é que esta pronto, espere esfriar, desenforme e sirva.

43 Etiquetadores do Lácio-Web MXPOST (não está funcionando) TreeTaggerBrill

44 Corpora de Aprendizes Aprendizes de Língua Estrangeira Aprendizes de Tradução Aprendizes de Língua Materna O Projeto ICLE (International Corpus of Learner English) Projects/Icle/icle.htm


Carregar ppt "Corpus: definição e coleta Tradução Técnica 2008 Stella E. O. Tagnin."

Apresentações semelhantes


Anúncios Google