A monolingual comparable corpus
This action may take several minutes for large corpora, please wait.

Word list

Corpus: CompareIT_it
Total number of items: 4699
Total frequency: 269414
lemma frequency
di 11875
il 11417
essere 8864
la 7960
e 7402
del 5929
che 5427
avere 4887
a 4833
in 4531
per 4123
un 3679
l' 3499
della 3446
al 2726
non 2723
una 2457
con 2312
si 2163
da 1933
nel 1827
alla 1584
dell' 1449
ma 1369
anche 1307
più 1298
fare 1270
dal 1097
questo 1078
suo 1048
anno 968
come 943
sul 915
potere 888
nella 827
dire 761
all' 716
tutto 711
primo 710
dalla 692
se 657
quello 650
tra 644
dovere 619
dopo 595
due 586
ci 574
altro 562
sulla 552
solo 545
nuovo 542
ad 540
Italia 534
su 530
o 518
cui 501
poi 479
italiano 474
perché 471
un' 453
volere 449
c' 440
euro 438
secondo 433
andare 433
governo 432
ora 429
lo 412
da|di 406
ancora 399
grande 386
molto 384
loro 380
venire 377
ultimo 370
oggi 363
presidente 350
già 345
stare 344
giorno 342
proprio 340
parte 339
così 333
essere|stare 331
mi 330
chiedere 322
dare 321
quando 321
tempo 318
ed 316
nostro 306
parlare 301
sempre 301
Monti 300
ex 299
stesso 297
Roma 292
arrivare 290
ministro 287
chi 287

Part-of-speech Tagset

ADVadverb (excluding -mente forms)
ADV:menteadverb ending in -mente
ARTPREpreposition + article
AUX:finfinite form of auxiliary
AUX:fin:clifinite form of auxiliary with clitic
AUX:gerugerundive form of auxiliary
AUX:geru:cligerundive form of auxiliary with clitic
AUX:infiinfinitival form of auxiliary
AUX:infi:cliinfinitival form of auxiliary with clitic
AUX:ppastpast participle of auxiliary
AUX:pprepresent participle of auxiliary
DET:demodemonstrative determiner
DET:indefindefinite determiner
DET:numnumeral determiner
DET:posspossessive determiner
DET:whwh determiner
NOCATnon-linguistic element
NPRproper noun
PRO:demodemonstrative pronoun
PRO:indefindefinite pronoun
PRO:numnumeral pronoun
PRO:perspersonal pronoun
PRO:posspossessive pronoun
PUNnon-sentence-final punctuation mark
SENTsentence-final punctuation mark
VER2:finfinite form of modal/causal verb
VER2:fin:clifinite form of modal/causal verb with clitic
VER2:gerugerundive form of modal/causal verb
VER2:geru:cligerundive form of modal/causal verb with clitic
VER2:infiinfinitival form of modal/causal verb
VER2:infi:cliinfinitival form of modal/causal verb with clitic
VER2:ppastpast participle of modal/causal verb
VER2:pprepresent participle of modal/causal verb
VER:finfinite form of verb
VER:fin:clifinite form of verb with clitic
VER:gerugerundive form of verb
VER:geru:cligerundive form of verb with clitic
VER:infiinfinitival form of verb
VER:infi:cliinfinitival form of verb with clitic
VER:ppastpast participle of verb
VER:ppast:clipast participle of verb with clitic
VER:pprepresent participle of verb
WHwh word

Document name format

Each document in COMPARE-IT corpora is a newspaper article.
Document names are 18 character unique strings that contain 5 fields separated by underscore in the following format:
[Collection name]_[Corpus country]_[Newspaper]_[Section]_[ID]

For example, document cmp_ch_gio_eco_005 belongs to COMPARE-IT Italian corpus of Switzerland (cmp_ch), to the newspaper Giornale del Popolo (gio), section Economics (eco) and its ID is 005.