Menu

Składnia zapytań

W zapytaniach można wyszukiwać wartości następujących atrybutów: lemma, word, tag. Każdy element zapytania musi być zawarty w nawiasach kwadratowych: [ ], zapytanie może zawierać wiele takich elementów. Wyszukiwane wartości atrybutów powinny być wpisywane w cudzysłowiu: " ", np. [lemma="dzień"] albo [word="tego"] albo [tag="Spg"].
Można korzystać z następujących operatorów w wyszukiwanych wartościach:
kropka . zamienia dowolny znak
zapytanie [word="b.g"] daje wyniki z wyrazami big bag beg bog bug
gwiazdka * po kropce znajduje dowolną liczbę dowolnych liter
.*iwać znajdzie wyrazy, któe kończą się na -iwać
przy.* znajdzie wyrazy, któe zaczynają się na przy-
bl.*ng znajdzie wyrazy, któe zaczynają się na bl- i kończą się na -ng
.*sta.* znajdzie wyrazy, które mają w środku ciąg sta.
pytajnik ? Znaki w nawiasach są opcjonalne.
blond(e)? znajdzie blond oraz blonde
kreska pionowa | walka|bitwa|wojna szuka dowolnego z podanych wyrazów
nawiasy kwadratowe [ i ] Mogą zawierać znaki pojedyńcze alternatywne.
«[гґ]рати» znajdzie dwa warianty pisowni «грати» i «ґрати»

Duże litery

Jeśli wpisać Doktor w lemacie, to otrzymamy tylko wyniki Doktor.
Ale doktor jako lemat daje wszystkie możliwości, duże i małe litery.
Żeby otrzymać tylko doktor, trzeba dopisać flagę /i po segmencie, np. [lemma="doktor"]/i.
[word = "Warszawa|Kraków"]
[word = "zielony|niebieski|żółty"]

Informacja morfoskładniowa

Możliwe jest wyszukiwanie konkretnej części mowy albo innych zdefiniowanych informacji morfologicznych.
Wykaz części mowy, zmienne: N (rzeczownik), A (przymiotnik), V (czasownik), R (przysłówek), P (zaimek), M (liczebnik), i niezmienne: S (przyimek), C (spójnik), I (wykrzyknik), Q (partykuła), oraz dwie kategorie techniczne: Y (skrót, abrewiatura), X (nierozpoznane, residual). Zob. szczegółowy opis dla polskiego i dla ukraińskiego
Składnia zapytania:
[tag = "   "]

Uwaga: w znacznikach morfoskładniowych można używać kropki. Na przykład, wszystkie czasowniki zaczynają się na V.
Na drugim miejscu znajduje się informacja o typie czasownika, m leksykalny, a pomocniczy "być".
Na trzecim mmiejscu rozróżniany jest aspekt: p niedokonany (progressive), e dokonany (perfective). Na czwartym miejscu jest informacja o formie czasownika: i - tryb oznajmujący (indicative), c - tryb warunkowy (conditional), m - tryb rozkazujący (imperative), n - bezokolicznik (infinitive), o - bezosobnik (forma na -o), g - imiesłów przysłówkowy (gerund).
Na przykład:
[tag = "V.*"] znajduje wszystkie czasowniki we wszystkich formach
[tag = "V.e.*"] szuka czasowniki dokonane
[tag = "Va.*"] szuka wszystkie wystąpienia czasownika pomocnicznego "być"
[tag = "V..n.*"] szuka tylko bezokoliczniki

Lemat

Można tworzyć zapytania, które szukają konkretnego lematu (wszystkich form morfologicznych danego wyrazu) ...
[lemma = "dzień"]
... albo lematów.
[lemma = "dzień|noc|ranek|wieczór"]

Łączenie atrybutów

Forma "mam" może należeć do czasownika albo rzeczownika. Żeby ograniczyć wyszukiwanie do jednej z części mowy, trzeba w tym samy segmencie dodać atrybut "tag" z odpowiednią wartością. Atrybuty i "word" i "tag" łączymy za pomocą znaku & (ampersand).
[word = "mam" & tag = "V.*"]
Zapytanie [lemma = "dzień" & tag = "N...p.*"] znajduję rzeczownik dzień w formie liczby mnogiej.
Trzeba uważać na:
  • używanie cudzysłówu przy wyszukiwanych wartościach
  • dużą/małą literę wyrazów
  • dużą/małą literę w znacznikach morfoskładniowych

Łączenie atrybutów i segmentów

Które przyimki występują po impact?
[lemma = "impact"] [tag = "PRP"]
Które przyimki występują po rzeczowniku impact?
[lemma = "impact" & tag = "N.."] [tag = "PRP"]
Które przyimki występują po następujących synonimach?
[lemma = "struggle|battle|fight"] [tag = "PRP"]

Jak dopuścić odstęp/wtrącenia między segmentami

Czasami jest potrzebne rozszerzenie możliwości wyszukiwania poprzez zezwolenie na obecność innych wyrazów między dwoma, które nas interesują.
Para nawiasów kwadratowych bez wypełnienia oznacza dowolny segment.
[lemma = "dzień"][][lemma = "dobry"]
Liczba między nawiasami {} po dowolnym segmencie, w tym i niezdefiniowanym [], wskazuje na liczbę słów, która powinna pojawić się między nimi. To zapytanie definiuje wtrącenie trzech dowolnych słów pomiędzy odnieść i sukces.
[lemma = "odnieść"][]{3}[lemma ="sukces"]
Korzystanie z {1,3} daje zakres - od 1 do 3, tzn. co najmniej 1 i co najwyżej 3 miedzy let i down.
[lemma = "let"][]{1,3}[word ="down"]

Jak wykluczyć element

Wykrzyknik, poprzedzający znak równości oznacza nie równa się. Nastepujące zapytanie do korpusu BNC znajdzie fast jako rzeczownik, czasownik, przysłówek, ale nie jako przymiotnik.
[lemma="fast" & tag != "AJ0"]
Następujące zapytanie do BNC szuka dream, po którym idzie cokolwiek, byle nie about.
[lemma="dream"] [word !="about"]
The next examples find all forms of break followed by five words and then smile not as a verb.
[lemma = "break"] []{5} [lemma="smile" & tag !="V.."]

© tuurma 2005-2007, natko 2009-2011