O objetivo aqui é apenas apontar a necessidade de revisão de textos para qualquer tipo de corpus linguístico, compreendendo como tal conjunto de textos escritos ou falados numa língua que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas
vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’
informações dos falantes, penosamente, uma a uma, podemos examinar um
vasto material que foi produzido espontaneamente na fala ou na escrita
das pessoas, e portanto podemos fazer observações precisas sobre o real
comportamento linguístico de gente real. Portanto os corpora
podem nos proporcionar informações altamente confiáveis e isentas de
opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso
de corpora está associado à linguística de corpus.
Como exemplo, pode-se citar o O Corpus do Português: um corpus linguístico de textos da língua portuguesa, compilado e mantido pelos pesquisadores Mark Davies (Universidade Brigham Young) e Michael J. Ferreira (Universidade de Georgetown), com suporte financeiro proveniente do U.S. National Endowment for the Humanities, além de suas respectivas instituições de ensino
A necessidade da revisão, para esse tipo de trabalho, é tão evidente que vou me limitar, neste post, a apresentar o trabalho em si, no que precede a preparação dos textos para análise automática por ferramentas de
análise linguística (etiquetador morfológico e analisador sintático).
Tweetar Siga @Keimelion
A forma mais fiel de se reproduzir um texto antigo no meio digital é
sem dúvida o fac-símile. É esse documento o ponto de partida para o revisor. Entretanto, para pesquisas linguísticas é
necessário trabalhar o texto como sequências de caracteres (não como
imagens). A solução de transposição automática da imagem em texto
via programas de OCR não é uma opção satisfatória por enquanto, uma vez
que as características tipográficas dos textos mais antigos são
desafiantes para os programas de OCR disponíveis. Tweetar Siga @Keimelion
![]() |
Texto fac-símile: o original digitalizado. |
[Clique em qualquer imagem para as ampliar.]
![]() |
Texto transliterado: a digitação do original. |
No trabalho de preparação de textos a solução é a transcrição dos originais, enquanto se pesquisam formas de adequação do reconhecimento automático (tanto via OCRs aprimorados como via sistemas de correção posterior).
A transcrição deve ser fidedigna ao original, para satisfazer os objetivos linguísticos das pesquisas. Cabe então um extenuante trabalho de cotejamento à equipe de revisão, pois as características gráficas e
grafemáticas dos textos mais antigos (preservadas nas transcrições
conservadoras) dificultam o processamento automático posterior (anotação
morfológica). Para cumprir o objetivo de processamento automático, portanto, o texto original deve ser revisado e editado.
![]() |
Texto atualizado: com a ortografia atual. |
A edição dos textos inclui a modernização das grafias e a
normalização dos aspectos grafemáticos, tornando-o assim adequado para o
processamento automático.Neste processo, entretanto, não
desejamos, dentro do possível, perder as características do texto original, importantes para o
estudo histórico da língua. O desenvolvimento do sistema de edições críticas eletrônicas teve como objetivo solucionar essas demandas conflitantes.
Fonte: Sistema de Edições Eletrônicas do Corpus Tycho Brahe.
Fonte: Sistema de Edições Eletrônicas do Corpus Tycho Brahe.