Pular para o conteúdo principal

Revisão de textos para corpus

O objetivo aqui é apenas apontar a necessidade de revisão de textos para qualquer tipo de corpus linguístico, compreendendo como tal conjunto de textos escritos ou falados numa língua que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus.
Como exemplo, pode-se citar o O Corpus do Português: um corpus linguístico de textos da língua portuguesa, compilado e mantido pelos pesquisadores Mark Davies (Universidade Brigham Young) e Michael J. Ferreira (Universidade de Georgetown), com suporte financeiro proveniente do U.S. National Endowment for the Humanities, além de suas respectivas instituições de ensino
A necessidade da revisão, para esse tipo de trabalho, é tão evidente que vou me limitar, neste post, a apresentar o trabalho em si, no que precede a preparação dos textos para análise automática por ferramentas de análise linguística (etiquetador morfológico e analisador sintático).

 
Texto fac-símile: o original digitalizado.
 A forma mais fiel de se reproduzir um texto antigo no meio digital é sem dúvida o fac-símile. É esse documento o ponto de partida para o revisor. Entretanto, para pesquisas linguísticas é necessário trabalhar o texto como sequências de caracteres (não como imagens). A solução de transposição automática da imagem em texto via programas de OCR não é uma opção satisfatória por enquanto, uma vez que as características tipográficas dos textos mais antigos são desafiantes para os programas de OCR disponíveis.
[Clique em qualquer imagem para as ampliar.]



Texto transliterado: a digitação do original.

No trabalho de preparação de textos a solução é a transcrição dos originais, enquanto se pesquisam formas de adequação do reconhecimento automático (tanto via OCRs aprimorados como via sistemas de correção posterior).
A transcrição deve ser fidedigna ao original, para satisfazer os objetivos linguísticos das pesquisas. Cabe então um extenuante trabalho de cotejamento à equipe de revisão, pois as características gráficas e grafemáticas dos textos mais antigos (preservadas nas transcrições conservadoras) dificultam o processamento automático posterior (anotação morfológica). Para cumprir o objetivo de processamento automático, portanto, o texto original deve ser revisado e editado.
Texto atualizado: com a ortografia atual.
 A edição dos textos inclui a modernização das grafias e a normalização dos aspectos grafemáticos, tornando-o assim adequado para o processamento automático.Neste processo, entretanto, não desejamos, dentro do possível,  perder as características do texto original, importantes para o estudo histórico da língua. O desenvolvimento do sistema de edições críticas eletrônicas teve como objetivo solucionar essas demandas conflitantes.
Fonte: Sistema de Edições Eletrônicas do Corpus Tycho Brahe.

Postagens mais visitadas deste blog

Como escrever o resumo de sua tese ou dissertação

O resumo é parte necessária da apresentação final de uma tese, dissertação ou mesmo de um artigo. A versão final do resumo terá de ser escrita depois que você terminar de ler a sua tese para enviar ao revisor do texto. Um resumo prévio, escrito nas diferentes fases do seu trabalho vai ajudar você a ter uma versão curta de sua tese a cabeça. Isso vai conduzir seu pensamento sobre o que é que você está realmente sendo feito, vai ajudá-lo a ver a relevância do que você está trabalhando no momento dentro do quadro maior, e ajudar a manter os vínculos que acabarão por conferir unidade à tese (dissertação, TCC, artigo). Resumo é uma apresentação concisa dos pontos relevantes de um documento (NBR 6028:2003).  O que é um resumo? O resumo é um componente importante da tese. Apresentado no início da tese, é provável que seja a primeira descrição substantiva do trabalho a ser lida por um examinador ou qualquer outro leitor externo. Você deve vê-lo como oportunidade de definir as expectativas p…

Como escrever um texto acadêmico – aspectos gerais e específicos

Um texto científico ou acadêmico é um complexo trabalho dissertativo ou narrativo que tem características próprias sobre sua concepção, criação e apresentação. Bons textos científicos acrescentam conhecimento mesmo quando levantam novas dúvidas, novos problemas ou novas abordagens sobre uma questão, permitindo que leitores encontrem realidade e humanidade em palavras que foram completamente estruturadas para apresentar ou discutir um enfoque específico de um tema. Não importa qual tipo de texto você queira ou necessite escrever – pode ser uma tese de livre-docência, de doutorado, uma dissertação, monografia, um artigo científico, relatório – você precisará de disciplina, energia criativa e de dedicação para a pesquisa, criação, revisão e edição do texto. Apresentamos algumas sugestões para contribuir na redação.
Antes de começar a escrever um texto acadêmico, considere: problema, tema, abordagem Tenha claro para si o tipo de texto que vai escrever e o público a que ele se destina. Ne…

Principais estilos de citações bibliográficas e referências

Os estilos de citações são muitos, cada revista científica, cada programa de pós-graduação decide qual estilo vai adotar, como fazer as citações.Primeiramente, vale informar que "estilos científicos" não são estilos "literárias", mas a edição de estilos, ou seja, modos de apresentação de conteúdo estruturados, formas de escrever artigos científicos, apresentação, organização de conteúdo, formas fazer abreviações, anexos e fotos presentes nos textos e, além disso, formas de citações bibliográficas e de referências. Por isso as formas de citações dependem de cada estilo científico.
Para trabalhar com estilos de citações, é melhor usar um gerenciador de bibliografias como Refworks, Zotero, EndNote, Reference Manager, BibText e outros similares. Mesmo o Word que todo mundo tem faz esse serviço. O que impressiona muito é que a quase totalidade dos autores brasileiros não faz uso de nenhum desses programas e nem sequer sabe que o próprio editor de textos mais comum faz o …

A tese: material e métodos, resultados e conclusão, estilo e referências

A escrita da tese segue parâmetros distintos nas seções específicas do texto, guardando unidade de estilo e coerência entre todos os segmentos do trabalho. Material e métodos Nesta seção o autor deve explicar claramente como o experimento foi realizado, e como foi realizada a análise estatística dos dados, podendo também utilizar as sugestões indicadas para escrever a introdução e buscando garantir que: a.Os leitores possam compreender e avaliar o experimento do trabalho e o tema da tese;
b.Outros pesquisadores possam utilizar o estudo independente para verificar os resultados do mesmo ou de outros contextos e produções. Algumas dicas úteis para escrita da fase “material e métodos” são descritas a seguir:
1)Mencionar a data e o local onde foi realizada a prova experimental, especificando as coordenadas geográficas e/ou as características físicas e biológicas relevantes.
2)Descrever o plano experimental, incluindo os tratamentos aplicados, o número de repetições, a unidade experimenta…

O gênero de discurso acadêmico-científico

O gênero acadêmico-científico, baseado na semântica linguística, na descrição de um sentido linguístico. Todas as esferas da atividade humana estão sempre relacionadas à língua. O uso da língua se dá em forma de enunciados (orais e escritos), concretos e únicos, emanados integrantes da atividade humana. O enunciado mostra as condições específicas e as finalidades de cada uma dessas esferas: conteúdo temático, estilo verbal e construção composicional. Esses três elementos convergem para o todo do enunciado e todos eles são marcados pela especificidade de uma esfera de comunicação. Vê-se, então, que qualquer enunciado considerado isoladamente, é individual, mas cada esfera de utilização da língua elabora seus tipos relativamente estáveis de enunciados, que são os gêneros do discurso. Cada esfera dessa atividade se diferencia e se amplia à medida que a própria esfera se desenvolve e fica mais complexa. A partir das três características que formam um gênero, condições específicas, estilo …