o corpus do português

o corpus do português


O Corpus do Português que foi lançado en 2016 (Web / Dialetos: CdP:Novo) contém uma base de dados com mil milhão de palavras, ou seja 50 vezes mais palavras do que o Corpus de Português anterior (Histórico / Géneros: CdP:Antigo), que continha 1900 palavras. Como resultado, providencia uma base de dados muito mais rica ao usuário e com uma maior variedade também.

Léxico

Existem 282 verbos com uma frequência de lemas entre 300 e 600 no CdP:Novo, que também existem em pelo menos dois dos três dicionários on-line que usamos para corrigir as listas de lemas. O gráfico abaixo mostra quantas vezes estes mesmos verbos aparecem no CdP:Antigo. Dos 282 verbos no CdP:Novo, (cerca de 42%) têm 10 ocorrências ou menos no CdP:Antigo, o que realmente não é o suficiente para examinar os verbos. E apenas 33 dos 282 (cerca de 12%) têm 50 ocorrências ou mais.

Frequência CdP:Antigo  (300-600 em CdP:Novo) # verbos % verbos Exemplos
50 ocorrências ou mais 33 12% assoar, arremeter, crepitar
26-49 ocorrências 45 16% coalhar, arreganhar, fender
11-25 ocorrências 87 31% emparelhar, arrear, reincidir
1-10 ocorrências 106 38% aplainar, encerar, solapar
0 ocorrências 12 4% eletrizar, afobar, conflitar

Semântica

Sem ocorrências suficientes para uma determinada palavra é impossível analisar os colocados (palavras vizinhas) para se dizer muito sobre o significado e o uso de uma palavra. Por exemplo escolhemos (quase ao acaso) um verbo, substantivo, adjetivo e advérbio do CdP:Novo, para mostrar quantos colocados diferentes ocorrerem para tal palavra (pelo menos três vezes como lema, entre quatro palavras para a esquerda e quatro palavras para a direita da palavra nodulo) no CdP: Novo e CdP: Antigo. (Pode ser necessário reiniciar manualmente o valor SEÇÃO 1 para o seculo XX para que o CdP: Antigo obtenha a contagem correta.) Como podemos ver o CdP: Novo fornece dados muito melhores para examinar o significado e uso das palavras.

lema (nodo : colocado) CdP:Novo CdP:Antigo
frigir (VERB : NOUN) 540 1
faceta (NOUN : NOUN) 434 2
interpessoal (ADJ : NOUN) 453 3
inconscientemente (ADV : VERB) 404 7

Sintaxe

Ao ser 50 vezes maior que a seção do seculo XX no CdP:Antigo, o CdP:Novo oferece muito mais resultados para construções sintáticas de menor frequência. O seguinte gráfico mostra o número de ocorrências nos dois corpus para várias construções diferentes. (Pode ser necessário reiniciar manualmente o valor SEÇÃO 1 para o seculo XX para que o CdP: Antigo obtenha a contagem correta.)

CdP:Novo CdP:Antigo cadeia de pesquisa explicação exemplos
805 3 parecem|pareciam que [v*3p*] "Split subject raising" (see #59 and #60) parecem que querem causar um conflito
354 9 os|as [fazer] [v*] o|os|as|um|uma Accusative case for 3PL agent in causative construction (see #67, 68, and #71) não as faz perder o entusiasmo
481 21 sem lhes [v*] Pre-verbal clitic (see #62); here just with sem and lhes sem lhes dar tempo de refletirem
7151 175 estava* sendo [vps*] Progressive + passive (just with estava / estavam) o Bitcoin estava sendo usado por criminosos