Enquanto o Corpus do Português (Web / Dialetos) tem uma base de
dados com mil milhão de palavras, existem contudo pela internet
Corpus muito maiores. Por exemplo,
Sketch Engine tem um
corpus do Português com 3,9 mil milhões de palavras. Porque não usar um
corpus como este?
A significância do tamanho não é o mais importante. Uma vez que o Corpus
for criado é feita uma anotação das palavras e lema (exemplo, disse, dizemos, e
dirão, são todas formas do lema dizer). Nos dias de hoje é muito fácil criar um
corpus através de websites, porém o que é difícil, é anota-lo corretamente e com
precisão. Sem uma boa anotação, o corpus é quase inutilizável, pelo menos
para algumas finalidades.
Para ver que tipos de problemas resultam de uma marcação e lematização
imprecisa consulte a seguinte planilha de Excel.
Esta planilha mostra palavras que começam com s- no corpus do Sketch Engine, com
uma frequência de entre 1000-2000 ocorrências no corpus. (Por outras palavras,
estas palavras são bastante frequentes). A planilha divide as palavras entre
lemas e classe de palavras (Substantivo, verbo, adjetivo). Palavras
problemáticas estão sublinhadas em amarelo e (muito problemáticas) a cor de
laranja.
Verificando somente os verbos, descobrimos que mais de pelo menos, 46 desses
68 "verbos" frequentes, não são realmente verbos ( estes são supostamente "verbos"
comuns - ocorrendo 1000 vezes ou mais). Alguns são formas verbais dos seguintes
verbos (saíu, saímos, selecionaram, sabíamos), mas eles não são realmente
lemas (ou seja, o que se encontraria em um dicionário). Algumas delas, pelo
menos, terminam em -r, o que sugere que possam ser verbos portugueses em algum
universo alternativo (se calhar, sanduichar, sinistrar, saír, siar, sapar,
soccer), mas não são palavras por assim dizer, neste universo. Outras jamais
poderiam ser verbos (pelo menos em Português, a língua do Corpus): sensei,
sibutramina, simpatica, sm, sabados, semiárido, sobrevivencia, simple, silver,
sample.
Se continuarmos a verificar a lista – palavras que ocorrem com uma frequência de
100-200 vezes por exemplo – veríamos que pelo menos mais de 90% das palavras são
problemáticas. Como prova disso, compare com os dados do Espanhol, que cobrem
uma frequência muito maior e onde o mesmo tipo de marcação foi utilizado (Freeling).
Testamos os dados do Português com vários níveis de frequência, e o resultado é
muito parecido com o que a pagina do Espanhol. (O Sketch Engine, já não permite
baixar, desde do dia em que os dados do espanhol se tornaram disponíveis na
internet). Mas mesmo com esses "verbos" muito frequentes (que ocorrem entre
1000-2000 vezes), os dados são extremamente confusos.
Se estiver criando dados de frequência
de palavras ou ferramentas de
aprendizagem de línguas como fizemos para o Inglês, precisa analisar
cuidadosamente milhares e milhares de palavras – Tem que cuidadosamente
rever o seu contexto, corrigir lemas e partes do discurso, etc. Precisa de ter
pelo menos um conhecimento rudimentar da língua em que está trabalhando. Nada
disso foi feito para estes corpora do português tão grandes e por isso eles
são - como já dissemos - quase inutilizáveis para muitas das finalidades.
Nota:
Com o nosso corpus, estamos revendo todos e cada lema (os 40.000
principais lemas no corpus), para nos certificamos de que o lema e classes de
palavras estão corretas. É trabalhoso, e leva vários meses para criar. Contudo
acreditamos que com esta correção, que temos o maior (> mil milhão de
palavras) e mais confiável corpus de português.
|