Pular para o conteúdo principal

Revisão de textos para corpus

O objetivo aqui é apenas apontar a necessidade de revisão de textos para qualquer tipo de corpus linguístico, compreendendo como tal conjunto de textos escritos ou falados numa língua que serve como base de análise. O estudo de corpora (plural de corpus) apresenta muitas vantagens. Em vez de consultar nossas intuições, ou de ‘extrair’ informações dos falantes, penosamente, uma a uma, podemos examinar um vasto material que foi produzido espontaneamente na fala ou na escrita das pessoas, e portanto podemos fazer observações precisas sobre o real comportamento linguístico de gente real. Portanto os corpora podem nos proporcionar informações altamente confiáveis e isentas de opiniões e de julgamentos prévios, sobre os fatos de uma língua. O uso de corpora está associado à linguística de corpus.
Como exemplo, pode-se citar o O Corpus do Português: um corpus linguístico de textos da língua portuguesa, compilado e mantido pelos pesquisadores Mark Davies (Universidade Brigham Young) e Michael J. Ferreira (Universidade de Georgetown), com suporte financeiro proveniente do U.S. National Endowment for the Humanities, além de suas respectivas instituições de ensino
A necessidade da revisão, para esse tipo de trabalho, é tão evidente que vou me limitar, neste post, a apresentar o trabalho em si, no que precede a preparação dos textos para análise automática por ferramentas de análise linguística (etiquetador morfológico e analisador sintático).

 
Texto fac-símile: o original digitalizado.
 A forma mais fiel de se reproduzir um texto antigo no meio digital é sem dúvida o fac-símile. É esse documento o ponto de partida para o revisor. Entretanto, para pesquisas linguísticas é necessário trabalhar o texto como sequências de caracteres (não como imagens). A solução de transposição automática da imagem em texto via programas de OCR não é uma opção satisfatória por enquanto, uma vez que as características tipográficas dos textos mais antigos são desafiantes para os programas de OCR disponíveis.
[Clique em qualquer imagem para as ampliar.]



Texto transliterado: a digitação do original.

No trabalho de preparação de textos a solução é a transcrição dos originais, enquanto se pesquisam formas de adequação do reconhecimento automático (tanto via OCRs aprimorados como via sistemas de correção posterior).
A transcrição deve ser fidedigna ao original, para satisfazer os objetivos linguísticos das pesquisas. Cabe então um extenuante trabalho de cotejamento à equipe de revisão, pois as características gráficas e grafemáticas dos textos mais antigos (preservadas nas transcrições conservadoras) dificultam o processamento automático posterior (anotação morfológica). Para cumprir o objetivo de processamento automático, portanto, o texto original deve ser revisado e editado.
Texto atualizado: com a ortografia atual.
 A edição dos textos inclui a modernização das grafias e a normalização dos aspectos grafemáticos, tornando-o assim adequado para o processamento automático.Neste processo, entretanto, não desejamos, dentro do possível,  perder as características do texto original, importantes para o estudo histórico da língua. O desenvolvimento do sistema de edições críticas eletrônicas teve como objetivo solucionar essas demandas conflitantes.
Fonte: Sistema de Edições Eletrônicas do Corpus Tycho Brahe.

Postagens mais visitadas deste blog

Principais estilos de citações bibliográficas e referências

Formate sua tese ou dissertação na Keimelion Os estilos de citações são muitos, cada revista científica, cada programa de pós-graduação decide qual estilo vai adotar, como fazer as citações. Primeiramente, vale informar que "estilos científicos" não são estilos "literárias", mas a edição de estilos, ou seja, modos de apresentação de conteúdo estruturados, formas de escrever artigos científicos , apresentação, organização de conteúdo, formas fazer abreviações, anexos e fotos presentes nos textos e, além disso, formas de citações bibliográficas e de referências . Por isso as formas de citações dependem de cada estilo científico.  As normas são muitas para as referências, mas o princípio é sempre o mesmo: a transparência. Para trabalhar com estilos de citações, é melhor usar um gerenciador de bibliografias como Refworks, Zotero, EndNote, Reference Manager, BibText e outros similares. Mesmo o Word que todo mundo tem faz esse serviço. O que impressiona muito é que a qua

Estrangeirismos e redação acadêmica

O que é estrangeirismo? Por que a implicância? Pode-se ou deve-se usar estrangeirismos em teses e dissertações ? Existe linguagem científica sem estrangeirismos? Onde encontrar as palavras em português? Estrangeirismo ou peregrinismo é o uso de palavra, expressão ou construção estrangeira que não tenha equivalente vernácula em nossa língua. É apontada nas gramáticas normativas como um vício de linguagem , mas há muito esta é apontada como uma visão simplista por diversos linguistas, como Marcos Bagno , da UnB , John Robert Schmitz , da UNICAMP e Carlos Alberto Faraco , da UFPR .   (Wikipédia) Talvez seja conseqüência de um conjunto de fatores o que leva os brasileiros a imaginar como místicas e esotéricas as palavras ordinárias usadas no inglês para dar nomes às coisas. Nesse conjunto, constato a presença do deslumbramento pelos falantes de inglês, da ignorância da língua portuguesa, da ignorância da língua inglesa, da ignorância da cultura estrangeira, da ignorância de etimol

A escrita acadêmica como requisito principal para a boa formação

O texto acadêmico é um gênero muito específico. O suporte para formação acadêmica é, boa parte, o texto. São textos em que as informações são assimiladas e textos produzidos para demonstrar o conhecimento apreendido ou produzido. Quando se fala em produção científica , os primeiros critérios que vêm à cabeça são a quantidade e a qualidade de artigos produzidos. O conceito de qualidade, no entanto, geralmente leva em consideração apenas o fator de impacto dos trabalhos, a quantidade de vezes que são citados por outros cientistas. Mas outro tipo de qualidade vem sendo buscada pelos pesquisadores, inclusive para conquistar o fator de impacto: a qualidade textual, que depende do bom preparo e bagagem do aluno universitário, que permite a ele produzir trabalhos universitários com excelência, qualidade pode ser obtida mais facilmente ao se apoiar em uma minuciosa revisão do texto feita por um revisor profissional . A produção de textos é processo contínuo de realimentação e do qual a revis

Como escrever títulos atraentes em poucos passos: do artigo à tese

Como aumentar o número de leituras de seu artigo? Você gostaria que sua tese ou dissertação fosse muito lida e citada ao invés de ignorada? Claro, qualquer autor deseja isso! Acontece que, atualmente o número textos acadêmicos que encontramos em qualquer pesquisa é muito grande, enorme. A concorrência entre todos os autores, na busca pelo leitor, não tem tamanho. Claro que o mais importante sempre vai ser a qualidade do trabalho, e clareza das ideias e um texto bem limpo, mas o título tem que ser um ponto de destaque também! E existem técnicas para títulos atrativos , que fujam do enfadonho jargão acadêmico e que transmitam a mesma ideia com uma linguagem mais moderna e atraente; veja um exemplo de título à antiga – que eu jamais adotaria – para esta postagem: Questões de legibilidade, ergonomia visual e empatia em títulos de teses, dissertações e artigos acadêmicos: uma discussão propositiva de aplicação da técnica AIDA. Convenhamos, dá até preguiça de ler até o fim, mas você certame

Pré-texto do trabalho acadêmico: da capa ao sumário

Capa, dedicatória, sumário: não perca tempo. Você certamente tem muito mais coisas importantes a fazer que ficar se preocupando com os detalhes formais das partes introdutórias da tese ou dissertação. Deixe tudo isso para o formatador, ele fará mais rápido e melhor. Sempre nos impressionam a dificuldade e os questionamentos que os estudantes encontram no que se refere às capas de seus trabalhos acadêmicos . Não se trata de uma questão de fundo, de questão complicada ou questionamento estético - mas de mero cumprimento a um procedimento lógico e absolutamente corriqueiro, entretanto, dentre as centenas de postagens deste blog, é o tópico que mais aporta visitantes a nosso texto. Aqui eu vou tecer comentários quanto a visitação e quanto ao significado que ele pode ter. Teremos enorme satisfação em cuidar de todos os detalhas da formatação de sua tese. Capa e elementos pré-textuais são a parte mais simples da tese. Faça toda a formatação da tese ou dissertação na Keimelion e não se pre