Menu

Streszczenie projektu

Elektroniczny Polsko-Ukraiński Korpus Równoległy może być narzędziem do badań lingwistycznych w zakresie leksykologii, semantyki, gramatyki, stylistyki itd., a jednocześnie dużą bazą materiałową, wychodzącą naprzeciw potrzebom leksykografii polsko-ukraińskiej.

Teksty

Korpus zawiera teksty oryginalne i tłumaczone w językach polskim i ukraińskim, tworzone przeważnie w XX wieku, dopasowane (ang. aligned) na poziomie zdań i należące do różnych gatunków: literatura piękna, publicystyka, podręczniki, dokumenty, wiadomości prasowe, ogółem ok. 3 milionów wyrazów.

Znakowanie

Znakowanie tekstów obejmuje strukturę: rozdziały, akapity, zdania, wyrazy; meta informacje: autor, tytuł, tłumacz (jeżeli jest to tekst tłumaczony), rok i miejsce wydania, gatunek, itd. Teksty są lematyzowane, tzn. do każdej formy wyrazu została podana jej forma hasłowa; ponadto zawierają one rozszerzoną adnotację gramatyczną, zgodną z rekomendowanym międzynarodowym formatem MULTEXT-East. Oryginalna informacja gramatyczna dla języka polskiego pochodzi z analizatora Morfeusz i tagera TaKIPI, dla języka ukraińskiego – z Ukraińskiego Słownika Gramatycznego i analizatora morfoskładniowego UGTAg. Dla potrzeb spójności formatu w PolUKR została ona w obu przypadkach znacznie zmodyfikowana i rozszerzona. Zarówno polski, jak i ukraiński zestaw znaczników gramatycznych (ang. tagset) w Korpusie liczy ponad 1200 unikalnych gramatycznych kodów, które są porównywalne pojęciowo ze względu na wspólny format.

Wyszukiwarka

Korpus jest wyposażony w wyszukiwarkę POSHUK (skrót od wyrazów POlski, UKraiński, SearcH, cały wyraz po ukraińsku oznacza wyszukiwanie), która pozwala na tworzenie złożonych zapytań, łączących informacje o lemacie, formie gramatycznej, strukturze tekstu, meta informacji, itd. oraz stosowanie wyrażeń regularnych. Dla wygody wyszukiwania zastosowany został także mechanizm aliasów dla tagów gramatycznych, np. bardziej intuicyjne gen zamiast g do określania dopełniacza czy prep zamiast S (przyimek). Warunki wyszukiwania można określać w obu częściach językowych Korpusu. Wyniki wyszukiwania w polskiej i ukraińskiej częściach można łączyć na różne sposoby: przekrój (AND), suma (OR) i różnica (XOR) wyników. Jest możliwe wyszukiwanie w obu językach albo tylko w jednym z języków, także tylko w tekstach oryginalnych bądź tylko tłumaczonych. Wyniki wyszukiwania są zapisywane w postaci plików html.

Perspektywy

Ze względu na zastosowanie międzynarodowych standardów zapisu, mianowicie formatu XML zgodnego z rekomendacjami TEI, a także obejmującego największą liczbę języków wśród istniejących formatów zapisu gramatycznego MULTEXT-East, PolUKR ma duży potencjał do rozszerzenia na kolejne języki i integrację z istniejącymi zasobami językowymi. Jest on także jedynym dostępnym publicznie oznakowanym morfoskładniowo korpusem języka ukraińskiego.

© tuurma 2005-2007, natko 2009-2011