Menu

Historia Projektu

Pomysłodawczyniami projektu są Natalia Kotsyba i Magdalena Turska. Idea zrodziła się na gruncie nieformalnym, jako eksperyment. Została zainspirowana sesją Międzynarodowej Szkoły Humanistycznej, poświęconej lingwistyce korpusowej, zorganizowanej w Instytucie Badań Interdyscyplinarncyh Uniwersytetu Warszawskiego w styczniu 2004 r. Sesja ta była przeznaczona dla młodych badaczy z Europy Środkowo-Wschodniej. Zostały tam pokazane możliwości zastosowania korpusów języka polskiego w badaniach leksykograficznych i językoznawczych w ogóle. Niestety dla języka ukraińskiego takich zasobów w tym czasie w otwartym dostępie nie było, nie mówiąc o dwujęzycznych. Z innej strony, odczuwalny był i pozostaje brak dużego nowoczesnego słownika polsko-ukraińskiego, którego rolę mógłby częściowo przejąć korpus równoległy tych języków.

W listopadzie 2004 roku zaczęliśmy zbierać teksty. W kwietniu 2005 roku pojawiła się pierwsza koncepcja korpusu, a już we wrześniu w Internecie -- jego wersja pilotażowa. Zawierała ona 50 niewielkich tekstów (25 par), przeważnie publicystycznych, otrzymanych od tłumaczy. Teksty te były wyrównane na poziomie akapitu i zawierały postawowe metainformacje: tytuł, autor, tłumacz, język oryginału, itd.

Od października 2007 r. projekt otrzymał dwuletnie wsparcie finansowe od Ministerstwa Informatyzacji i Szkolnictwa Wyższego RP, co zmieniło jego nieoficjalny status i pozwoliło rozwijać dalej. Oto najważniejsze zmiany:

  • Korpus został znacznie rozszerzony - obecnie zawiera ponad 3 mln. wyrazów.
  • Dopasowany na poziomie zdań, a nie akapitów, jak wcześniej.
    Teksty są lematyzowane i zawierają morfoskładniową informację, przy czym tagsety dla polskiego i ukraińskiego są ujednolicone.
  • Korpus został wyposażony w wyszukiwarkę POSHUK, która umożliwia łączenie parametrów różnych poziomów znakowania (strukturalne, morfoskładniowe, metainformacja, a także jednoczesne zadawanie parametrów wyszukiwania w obu językach.
  • Z korpusu można korzystać nie tylko w trybie online, ale także instalując go na lokalnym komputerze (ta opcja pojawi się już wkrótce)

Obecnie są prowadzone prace nad ujednoznacznieniem znakowania morfoskładniowego dla tekstów ukraińskich. W planach na najbliższą przyszłość jest także wzbogacenie tekstów informacją semantyczną.

Wyszukiwanie w fragmencie nowej wersji Korpusu

Wyszukiwanie w starej wersji Korpusu

 
 

© tuurma 2005-2007, natko 2009-2011