Menu

Wyszukiwanie w Korpusie

Wyrazy, ich ciągi i lematy

Najprostszą formą wyszukiwania jest zapytanie o dokładną formę wyrazu, np. "wiosnę" albo ciąg wyrazów, np. "mieć czas". Teksty Korpusu są lematyzowane, tzn. do każdej formy wyrazu została podana jej postać słownikowa, co pozwala na wyszukiwanie wszystkich możliwych form dowolnego wyrazu, które znajdą się w Korpusie, np. "lemma='książka'".

Informacje morfoskładniowe

Obie części językowe Korpusu zawierają rozszerzoną adnotację gramatyczną w formacie MULTEXT-East (wersja 4).

Oryginalna informacja gramatyczna dla języka polskiego pochodzi z analizatora Morfeusz i tagera TaKIPI, dla języka ukraińskiego – z Ukraińskiego Słownika Gramatycznego i analizatora morfoskładniowego UGTAg. Dla potrzeb spójności formatu w PolUKR została ona w obu przypadkach znacznie zmodyfikowana i rozszerzona. Zarówno polski, jak i ukraiński zestaw znaczników gramatycznych (ang. tagset) w Korpusie liczy ponad 1200 unikalnych gramatycznych kodów, które są porównywalne pojęciowo ze względu na wspólny format.

Morfoskładniowe specyfikacje obejmują wykaz możliwych kategorii, ich atrybutów wraz z wartościami oraz możliwe w danym jezyku kombinacje wartości atrybutów dla danej kategorii. Oprócz tego opis gramatyki jest przedstawiany w indeksach morfoksładniowych, które zawierają możliwe tagi z przykładami ich użycia.

język polskijęzyk ukraiński
N[cpg][mfn][ny][ny][sp][ngdailv][pe][ny]
V[ma][pe][icmnog][pfs][123][sp][mfn][ny][sf][ynad]
A[fp][pcs][mfn][ny][ny][sp][ngdail][sf][pe][ap][ny]
P[pdisqrxzg][ps][123][mfn][ny][ny][sp][ngdail][yna][sf][nar]
M[drl][col][mfn][ny][ny][sp][ngdail][3f]
Przysłówek (Degree, Clitic) - R[pcs][ynau], Spójnik - C
Przyimek - (Type, Formation, Case) - Sp[sc][gdail]
Partykuła - Q[ynad], Wykrzyknik - I, Abrewiatura - Y, Reszta - X
N[cp][mfnc][sp][ngdailv][ny]
V[ma][peb][imnog][pfs][123][sp][mfn]
A[fop][pcs][mfnc][sp][ngdail][sf][ny][peb][ap][ps]
P[pdisqrxzgh]s[123][mfn][ny][sp][ngdail][nar]
M[drl][co][mfn][sp][ngdail][ny]
Прислівник - R[pcs], Сполучник (Type, Formation) - C[sc][sc]
Прийменник (Type, Formation, Case) - Sp[sc][gdail]
Частка - Q, Вигук - I, Скорочення - Y, Залишок - X
Rzeczownik (aspect i negacja dotyczą tylko gerundiów)
POSTypeGendAnimHumNumCaseAspNeg
N c
p
g
m
f
n
n
y
n
y
s
p
n
g
d
a
i
l
v
p
e
n
y
123456789
Іменник
POSTypeGendNumCaseAnim
N c
p
m
f
n
с
s
p
n
g
d
a
i
l
v
n
y
123456
Czasownik
POSTypeAspVFormTensePersNumGend HumDefClitic
V m
a
p
e
i
c
m
n
o
g
p
f
s
1
2
3
s
p
m
f
n
n
y
s
f
y
n
a
d
1234567891011
Дієслово
POSTypeAspVFormTensePersNumGend
V m
a
p
e
b
i
m
n
o
g
p
f
s
1
2
3
s
p
m
f
n
12345678
Przymiotnik
POSTypeDegrGendAnimHumNumCaseDefAsp VoiceNeg
A f
p
p
c
s
m
f
n
n
y
n
y
s
p
n
g
d
a
i
l
s
f
p
e
a
p
n
y
12345678910 1112
Прикметник
POSTypeDegrGendNumCaseDefAnimAsp VoiceTense
A f
o
p
p
c
s
m
f
n
c
s
p
n
g
d
a
i
l
s
f
n
y
p
e
b
a
p
p
s
1234567891011
Przyimek
POSTypeRefPersGendAnimHumNumCaseClitic DefSynt
P p
d
i
s
q
r
x
z
g
p
s
1
2
3
m
f
n
n
y
n
y
s
p
n
g
d
a
i
l
y
n
a
s
f
n
a
r
12345678910 1112
Прийменник
POSTypeRefPersGendAnimNumCaseSynt
P p
d
i
s
q
r
x
z
g
h
s 1
2
3
m
f
n
n
y
s
p
n
g
d
a
i
l
n
a
r
123456789
Liczebnik
POSFormTypeGendAnimHumNumCaseClass
M d
r
l
c
o
l
m
f
n
n
y
n
y
s
p
n
g
d
a
i
l
3
f
123456789
Числівник
POSFormTypeGendNumCaseAnim
M d
r
l
c
o
m
f
n
s
p
n
g
d
a
i
l
n
y
1234567

Pliki ze specyfikacjami i indeksami dla obu języków do pobrania:

Opis znaczników polskiej części Korpusu został przedstawiony w artykule Integrating the Polish language into the MULTEXT-East family: morphosyntactic specifications, converter, lexicon and corpus., dostępny jest także konwerter z formatu KIPI na format MTE.

Oprócz tego istnieje możliwość wyszukiwania informacji morfoskładniowych w polskich tekstach według oryginalnych znaczników Korpusu IPI PAN.

Dopuszczone aliasy znaczników morfoskładniowych

Znaczniki są podane w formacie "atrybut {możliwe wartości atrybutu}".

pos (część mowy)
noun
type {com, prop}
gen {masc, fem, neut, com}
num {sg, pl}
cas {nom, gen, dat, acc, inst, loc, voc}
anim {yes, no}
verb {main, aux}
asp {perf, imperf, biasp}
form {ind, imp, inf, impers, ger}
tense {pres, past, fut}
per {pri, sec, ter}
adj {qual, rel, part}
deg {pos, comp, sup}
def {short, full}
voice {act, pas}
pron
type {pers, dem, ind, poss, int, rel, refl, neg, gen, emph}
ref {poss}
synt {noml, adjl, advl}
adv
prep
form {sim, comp}
conj
type {coord, sub}
form {sim, comp}
num
form {dig, rom, let}
type {card, ord}
res

Metainformacja

Informacja o tekstach w korpusach, nazywana także metainformacją, zawiera m.in. następujące dane: autor, tytuł, tłumacz (jeżeli jest to tekst tłumaczony), rok i miejsce wydania, gatunek, itd. Metainformacja w PolUKR może mieć następujące wartości:

author – imię i nazwisko autora;
title – tytuł utworu;
original {1=oryginał, 0=tłumaczenie};
style – gatunek {fiction, documentary, manual, newsletter, officletter, program, publicist, news};
medium – forma źródła {book, e-book, file_dejavu, file_doc, file_pdf, www};
publisher – wydawca (nazwa wydawnictwa);
place – miejsce wydania (miasto);
publish_date – rok wydania;
creation_date – rok powstania utworu.
Jeżeli rok napisania nie jest znany dokładnie, ale wiadomo, że na pewno utwór powstał przed czy po jakiejś dacie, albo w pewnym okresie, to czas powstania jest zapisywany w następującym formacie:
,DATA, np. ",1990" – oznacza, że utwór powstał przed 1990 rokiem;
DATA,, np. "1990," – oznacza, że utwór powstał po 1990 roku;
DATA1,DATA2, np. "1980,1990" – oznacza, że utwór powstał w okresie między 1980 i 1990 rokiem;
DATA – dokładny rok, np. 1990.
first_publish_date – rok pierwszej publikacji;
language – język tekstu, np.{uk, pl, en};
author_language – język ojczysty autora;
quality – jakość opracowania tekstu, skala {1-10};
availability – dostępność tekstu, skala {1-10};
added – data dodania tekstu do Korpusu;
modified – data ostatniej modyfikacji tekstu.

Zapytania do Korpusu można ograniczyć do pewnego okresu powstania utworu albo do utworów napisanych przez pewnego/pewnych autorów za pomocą znacznika , np. "author='.*Lem'" ograniczy pytania do tekstów Stanisława Lema, a "original='1'" zwróci nam tylko fragmenty tekstów oryginalnych.

Informacja o strukturze tekstu

Znakowanie struktury tekstów obejmuje informacje o granicach rozdziałów <div>, ich tytuły <head>, akapitach <p> i zdaniach <s>. Wyszukiwanie w Korpusie można ograniczyć do zdania albo akapitu za pomocą polecenia "within s" albo odpowiednio "within p".

© tuurma 2005-2007, natko 2009-2011