Revisão de textos para corpus

O objetivo aqui é apenas apontar a necessidade de revisão de textos para qualquer tipo de corpus linguístico, compreendendo como tal conjunto de textos escritos ou falados numa língua que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus.
Como exemplo, pode-se citar o O Corpus do Português: um corpus linguístico de textos da língua portuguesa, compilado e mantido pelos pesquisadores Mark Davies (Universidade Brigham Young) e Michael J. Ferreira (Universidade de Georgetown), com suporte financeiro proveniente do U.S. National Endowment for the Humanities, além de suas respectivas instituições de ensino
A necessidade da revisão, para esse tipo de trabalho, é tão evidente que vou me limitar, neste post, a apresentar o trabalho em si, no que precede a preparação dos textos para análise automática por ferramentas de análise linguística (etiquetador morfológico e analisador sintático).

 
Texto fac-símile: o original digitalizado.
 A forma mais fiel de se reproduzir um texto antigo no meio digital é sem dúvida o fac-símile. É esse documento o ponto de partida para o revisor. Entretanto, para pesquisas linguísticas é necessário trabalhar o texto como sequências de caracteres (não como imagens). A solução de transposição automática da imagem em texto via programas de OCR não é uma opção satisfatória por enquanto, uma vez que as características tipográficas dos textos mais antigos são desafiantes para os programas de OCR disponíveis.
[Clique em qualquer imagem para as ampliar.]



Texto transliterado: a digitação do original.

No trabalho de preparação de textos a solução é a transcrição dos originais, enquanto se pesquisam formas de adequação do reconhecimento automático (tanto via OCRs aprimorados como via sistemas de correção posterior).
A transcrição deve ser fidedigna ao original, para satisfazer os objetivos linguísticos das pesquisas. Cabe então um extenuante trabalho de cotejamento à equipe de revisão, pois as características gráficas e grafemáticas dos textos mais antigos (preservadas nas transcrições conservadoras) dificultam o processamento automático posterior (anotação morfológica). Para cumprir o objetivo de processamento automático, portanto, o texto original deve ser revisado e editado.
Texto atualizado: com a ortografia atual.
 A edição dos textos inclui a modernização das grafias e a normalização dos aspectos grafemáticos, tornando-o assim adequado para o processamento automático.Neste processo, entretanto, não desejamos, dentro do possível,  perder as características do texto original, importantes para o estudo histórico da língua. O desenvolvimento do sistema de edições críticas eletrônicas teve como objetivo solucionar essas demandas conflitantes.
Fonte: Sistema de Edições Eletrônicas do Corpus Tycho Brahe.

Como citar um tweet em trabalho acadêmico?

A Modern Language Association gosta de acompanhar os tempos. Como todos sabemos, algumas informações aparecem primeiro ou o apenas no Twitter e podem haver bons motivos para que sejam citadas em trabalhos acadêmicos como fontes. Assim, a MLA criou um formato padrão que vai aqui adaptado para nossos usos (segundo o cacoete da ABNT). Sua forma, segundo a mesma lógica de sempre para citações, é a seguinte:
  • ÚLTIMO NOME, Primeiro Nome. (Apelido no Twitter). "O texto do Tweet." Data, hora. Tweet.
Toda referência, de qualquer fonte, segue
o mesmo princípio lógico.
 Esmiuçando a coisa:
  • Comece a entrada na lista de obras citados com o nome verdadeiro do autor e, entre parênteses, o nome de usuário, se ambos são conhecidos e eles diferem. Se apenas o nome do usuário é conhecido, fica apenas ele.
  • Em seguida, fornecer todo o texto do tweet entre aspas, sem alterar a capitalização. Conclua a entrada com a data e hora da mensagem e o meio de publicação (Tweet). Exemplo:
RABELLO, Francisco. (Rabello10). "[Confere @pathayde?] RT @cinlopes: @posgraduando: Como citar um tuíte num texto acadêmico (agora normatizado) zite.to/z2xVzW via @Zite". 5 de maio de 2012, 15h09. Tweet.
A data e hora de uma mensagem no Twitter refletem o fuso horário do leitor. Leitores em diferentes fusos horários veem momentos diferentes e, possivelmente, diferentes datas no mesmo tweet. A data e a hora em que estavam em vigor para o escritor do seu tweet, quando foi transmitida normalmente não são conhecidas. Assim, a data e a hora que aparecem no Twitter são apenas aproximados guias para o momento de um tweet. Pare recuperar ou conferir a informação, percorra-se a linha de publicações do autor no período.
Observe que a forma de notação de hora foi aqui adaptada para o sistema adotado no Brasil, assim como o sobrenome do autor registrado em caixa alta, como é nosso costume; foram as alterações que proponho no sistema da MLA.
Tradução e adaptação de the Atlantic, Via Thomas, Matt. (mattthomas). "This. RT @JenHoward How do you cite a tweet? The MLA is glad you asked. (You did ask, didn't you?) bit.ly/ykLfcQ." 2 March 2012, 2:21pm. Tweet.
Obrigado ao Professor Francisco Rabello pela sugestão do post.