o corpus do português

Enquanto o Corpus do Português (Web / Dialetos) tem uma base de dados com mil milhão de palavras, existem contudo pela internet Corpus muito maiores. Por exemplo, Sketch Engine tem um corpus do Português com 3,9 mil milhões de palavras. Porque não usar um corpus como este?

A significância do tamanho não é o mais importante. Uma vez que o Corpus for criado é feita uma anotação das palavras e lema (exemplo, disse, dizemos, e dirão, são todas formas do lema dizer). Nos dias de hoje é muito fácil criar um corpus através de websites, porém o que é difícil, é anota-lo corretamente e com precisão. Sem uma boa anotação, o corpus é quase inutilizável, pelo menos para algumas finalidades.

Para ver que tipos de problemas resultam de uma marcação e lematização imprecisa consulte a seguinte planilha de Excel.

Lemas portugueses

Esta planilha mostra palavras que começam com s- no corpus do Sketch Engine, com uma frequência de entre 1000-2000 ocorrências no corpus. (Por outras palavras, estas palavras são bastante frequentes). A planilha divide as palavras entre lemas e classe de palavras (Substantivo, verbo, adjetivo). Palavras problemáticas estão sublinhadas em amarelo e (muito problemáticas) a cor de laranja.

Verificando somente os verbos, descobrimos que mais de pelo menos, 46 desses 68 "verbos" frequentes, não são realmente verbos ( estes são supostamente "verbos" comuns - ocorrendo 1000 vezes ou mais). Alguns são formas verbais dos seguintes verbos (saíu, saímos, selecionaram, sabíamos), mas eles não são realmente lemas (ou seja, o que se encontraria em um dicionário). Algumas delas, pelo menos, terminam em -r, o que sugere que possam ser verbos portugueses em algum universo alternativo (se calhar, sanduichar, sinistrar, saír, siar, sapar, soccer), mas não são palavras por assim dizer, neste universo. Outras jamais poderiam ser verbos (pelo menos em Português, a língua do Corpus): sensei, sibutramina, simpatica, sm, sabados, semiárido, sobrevivencia, simple, silver, sample.

Se continuarmos a verificar a lista – palavras que ocorrem com uma frequência de 100-200 vezes por exemplo – veríamos que pelo menos mais de 90% das palavras são problemáticas. Como prova disso, compare com os dados do Espanhol, que cobrem uma frequência muito maior e onde o mesmo tipo de marcação foi utilizado (Freeling). Testamos os dados do Português com vários níveis de frequência, e o resultado é muito parecido com o que a pagina do Espanhol. (O Sketch Engine, já não permite baixar, desde do dia em que os dados do espanhol se tornaram disponíveis na internet). Mas mesmo com esses "verbos" muito frequentes (que ocorrem entre 1000-2000 vezes), os dados são extremamente confusos. Se estiver criando dados de frequência de palavras ou ferramentas de aprendizagem de línguas como fizemos para o Inglês, precisa analisar cuidadosamente milhares e milhares de palavras – Tem que cuidadosamente rever o seu contexto, corrigir lemas e partes do discurso, etc. Precisa de ter pelo menos um conhecimento rudimentar da língua em que está trabalhando. Nada disso foi feito para estes corpora do português tão grandes e por isso eles são - como já dissemos - quase inutilizáveis para muitas das finalidades.

Nota:

Com o nosso corpus, estamos revendo todos e cada lema (os 40.000 principais lemas no corpus), para nos certificamos de que o lema e classes de palavras estão corretas. É trabalhoso, e leva vários meses para criar. Contudo acreditamos que com esta correção, que temos o maior (> mil milhão de palavras) e mais confiável corpus de português.