Pular para o conteúdo principal

Revisão de textos para corpus

O objetivo aqui é apenas apontar a necessidade de revisão de textos para qualquer tipo de corpus linguístico, compreendendo como tal conjunto de textos escritos ou falados numa língua que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus.
Como exemplo, pode-se citar o O Corpus do Português: um corpus linguístico de textos da língua portuguesa, compilado e mantido pelos pesquisadores Mark Davies (Universidade Brigham Young) e Michael J. Ferreira (Universidade de Georgetown), com suporte financeiro proveniente do U.S. National Endowment for the Humanities, além de suas respectivas instituições de ensino
A necessidade da revisão, para esse tipo de trabalho, é tão evidente que vou me limitar, neste post, a apresentar o trabalho em si, no que precede a preparação dos textos para análise automática por ferramentas de análise linguística (etiquetador morfológico e analisador sintático).

 
Texto fac-símile: o original digitalizado.
 A forma mais fiel de se reproduzir um texto antigo no meio digital é sem dúvida o fac-símile. É esse documento o ponto de partida para o revisor. Entretanto, para pesquisas linguísticas é necessário trabalhar o texto como sequências de caracteres (não como imagens). A solução de transposição automática da imagem em texto via programas de OCR não é uma opção satisfatória por enquanto, uma vez que as características tipográficas dos textos mais antigos são desafiantes para os programas de OCR disponíveis.
[Clique em qualquer imagem para as ampliar.]



Texto transliterado: a digitação do original.

No trabalho de preparação de textos a solução é a transcrição dos originais, enquanto se pesquisam formas de adequação do reconhecimento automático (tanto via OCRs aprimorados como via sistemas de correção posterior).
A transcrição deve ser fidedigna ao original, para satisfazer os objetivos linguísticos das pesquisas. Cabe então um extenuante trabalho de cotejamento à equipe de revisão, pois as características gráficas e grafemáticas dos textos mais antigos (preservadas nas transcrições conservadoras) dificultam o processamento automático posterior (anotação morfológica). Para cumprir o objetivo de processamento automático, portanto, o texto original deve ser revisado e editado.
Texto atualizado: com a ortografia atual.
 A edição dos textos inclui a modernização das grafias e a normalização dos aspectos grafemáticos, tornando-o assim adequado para o processamento automático.Neste processo, entretanto, não desejamos, dentro do possível,  perder as características do texto original, importantes para o estudo histórico da língua. O desenvolvimento do sistema de edições críticas eletrônicas teve como objetivo solucionar essas demandas conflitantes.
Fonte: Sistema de Edições Eletrônicas do Corpus Tycho Brahe.

Postagens mais visitadas deste blog

Como escrever o resumo de sua tese ou dissertação

Melhore o resumo de sua tese ou dissertação. O resumo é parte necessária da apresentação final de uma tese , dissertação ou mesmo de um artigo. A versão final do resumo terá de ser escrita depois que você terminar de ler a sua tese para enviar ao revisor do texto. Um resumo prévio, escrito nas diferentes fases do seu trabalho vai ajudar você a ter uma versão curta de sua tese a cabeça. Isso vai conduzir seu pensamento sobre o que é que você está realmente sendo feito, vai ajudá-lo a ver a relevância do que você está trabalhando no momento dentro do quadro maior, e ajudar a manter os vínculos que acabarão por conferir unidade à tese (dissertação, TCC, artigo). Resumo é uma apresentação concisa dos pontos relevantes de um documento (NBR 6028:2003). O que é um resumo? O resumo é um componente importante da tese. Apresentado no início da tese, é provável que seja a primeira descrição substantiva do trabalho a ser lida por um examinador ou qualquer outro leitor externo. Você deve vê-lo com

Normas básicas de digitação

Vale a pena digitar corretamente. A digitação correta é uma prática em desuso. Quase ninguém mais se preocupa com conceitos básicos da datilografia que foram transposto à digitação. Entretanto, formatar uma tese ou dissertação é infinitamente mais complexo que saber digitar num processador de textos. Nada dispensa a boa revisão . Um dos motivos pelos quais  o trabalho do revisor é  indispensável é porque  ninguém mais digita como  se deve. Aqui estão alguns problemas que sempre identificamos nas digitações problemáticas: A lacuna que separa os elementos gráficos (por exemplo, entre duas palavras) deve ser feita por um e apenas um espaço. O recuo do parágrafo, o alinhamento recuado das citações ou das tabelas etc. devem ser feitos por tabulação (ou então pelo recurso de estilo ou modelo, dos programas de edição de texto do computador). Não há espaço antes da pontuação (ponto, ponto-e-vírgula, vírgula, dois pontos). Há um espaço (e apenas um) depois da pontuação (ponto, ponto-e-vírgul

Quinze dicas para a hora de defender a tese

Defesa de tese ou dissertação: hora H! Depois de ter concluído a tese , é essencial que o aluno se prepare para a apresentação oral do trabalho.  Um excelente texto não garante que a exposição na etapa final seja boa e, se o aluno não apresentar a tese de forma satisfatória, os examinadores podem subestimá-la ou até mesmo duvidar da preparação científica do candidato. O candidato se prepara redigindo o texto. A Kemelion prepara o texto, revisando e formatando. Geralmente a apresentação oral da tese é geralmente é feita por meio de slides em Powerpoint ® (ou software similar) contendo texto, figuras, tabelas, desenhos e fotografias . Bons slides não são tudo. O aluno deve estar preparado e conhecer ponta a ponta o conteúdo, coordenando bem a apresentação conforme explica os slides e se comportando de forma adequada durante essa etapa do trabalho. Abaixo apresentamos algumas dicas, tanto referentes à formatação e estilo da apresentação de slides, como à discussão da tese – aplicáveis a m

Como escrever um texto acadêmico - as melhores dicas!

Aspectos gerais e específicos do texto acadêmico Um texto científico ou acadêmico é um complexo trabalho dissertativo ou narrativo que tem características próprias sobre sua concepção, criação e apresentação.  Bons textos científicos acrescentam conhecimento mesmo quando levantam novas dúvidas, novos problemas ou novas abordagens sobre uma questão, permitindo que leitores encontrem realidade e humanidade em palavras que foram completamente estruturadas para apresentar ou discutir um enfoque específico de um tema. Não importa qual tipo de texto você queira ou necessite escrever – pode ser uma tese de livre-docência, de doutorado, uma dissertação, monografia, um artigo científico, relatório – você precisará de disciplina, energia criativa e de dedicação para a pesquisa, criação, revisão e edição do texto. Apresentamos algumas sugestões para contribuir na redação. Cada tipo de texto científico tem suas características. Familiarize-se com o tipo de texto que pretenda produzir. Antes de c

Principais estilos de citações bibliográficas e referências

Formate sua tese ou dissertação na Keimelion Os estilos de citações são muitos, cada revista científica, cada programa de pós-graduação decide qual estilo vai adotar, como fazer as citações. Primeiramente, vale informar que "estilos científicos" não são estilos "literárias", mas a edição de estilos, ou seja, modos de apresentação de conteúdo estruturados, formas de escrever artigos científicos , apresentação, organização de conteúdo, formas fazer abreviações, anexos e fotos presentes nos textos e, além disso, formas de citações bibliográficas e de referências . Por isso as formas de citações dependem de cada estilo científico.  As normas são muitas para as referências, mas o princípio é sempre o mesmo: a transparência. Para trabalhar com estilos de citações, é melhor usar um gerenciador de bibliografias como Refworks, Zotero, EndNote, Reference Manager, BibText e outros similares. Mesmo o Word que todo mundo tem faz esse serviço. O que impressiona muito é que a qua