O projekcie

Projekt finansowany z środków Narodowego Centrum Nauki.
Tytuł projektu: Automatyczna analiza ﬂeksyjna tekstów polskich z lat 1830-1918 z uwzględnieniem zmian w odmianie i pisowni;
Termin wykonania: 2013–2016;
Numer: DEC-2012/07/B/HS2/00570

Krótki opis projektu:
Dwa zasadnicze cele projektu to

opis systemowych zmian w zakresie odmiany polszczyzny pisanej w latach 1830-1918;
stworzenie słownika fleksyjnego ukazującego ewolucję odmiany.

Ten drugi cel wiąże się z opracowaniem koncepcji leksykograficznej opisu zmian fleksyjnych i pisownianych w (elektronicznym) słowniku gramatycznym. Słownik ten będzie podstawą analizatora morfologicznego, zawierającego oprócz wzorców funkcjonujących do dziś paradygmaty funkcjonujące w badanym okresie, a współcześnie wygasłe.
Ponadto za cel stawiamy sobie stworzenie niewielkiego (1 mln segmentów) korpusu języka polskiego lat 1830–1918. Korpus ten będzie wykorzystany do identyfikacji ciągów nieznanych analizatorowi oraz do testowania wzorców dodawanych. Korpus zostanie oznakowany i udostępniony (z możliwością przeszukiwania według zróżnicowanych kryteriów fleksyjnych i metatekstowych).
Punktem wyjścia prac będzie zgromadzenie korpusu o długości 1 mln, na który będzię się składać 1000 próbek o długości ok. 1000 segmentów (priorytetem jest umieszczenie w próbce pełnych wypowiedzeń, nie zaś dokładna liczba słów). Próbki te będą zachowywać zróżnicowanie stylistyczne stosowane w Słowniku frekwencyjnym polszczyzny współczesnej.
W następnej fazie za pomocą niemodyfikowanego analizatora współczesnego zostanie przeprowadzona wstępna analiza fleksyjna półmilionowego podkorpusu; jej celem będzie stworzenie listy jednostek nierozpoznanych. Uzyskany w ten sposób zbiór form zostanie wzbogacony o hasła „Słownika warszawskiego” nienotowane w podstawowym leksykonie analizatora (a więc na liście haseł Słownika gramatycznego języka polskiego). Na kolejnym etapie jednostki dodane do leksykonu zostaną sklasyfikowane według przysługujących im paradygmatów, do analizatora zostaną dodane reguły, a następnie podkorpus zostanie zanalizowany za pomocą zmodyfikowanego analizatora. Kolejne modyfikacje analizatora będą w kolejnych krokach poddawane szczegółowej weryfikacji, aż osiągnięty zostanie zamierzony próg poprawności analiz. Ostateczny test zostanie przeprowadzony na korpusie testowym o strukturze bliźniaczej do korpusu treningowego.
Stworzenie analizatora fleksyjnego dla polszczyzny drugiej połowy doby nowopolskiej jest wstępnym krokiem dla komputerowej analizy teksów dawnych, zwłaszcza że analizator ten będzie rozpoznawać formy z zachowaniem osobliwości odmiany i pisowni lat 1830-1918. Jego struktura zostanie tak zaprojektowana, by mógł on być podstawą dalszych rozszerzeń o stany wcześniejsze (przede wszystkim o pierwszą połowę doby nowopolskiej).
Jednocześnie w ramach projektu, obok analizatora morfologicznego, powstanie nieduży (1 mln segmentów), oznakowany korpus tekstów z lat 1830-1918. Zasób ten zostanie udostępniony wraz z przeszukiwarką według kryteriów fleksyjnych i metatekstowych (periodyzacja próbek, ich przyporządkowanie do podzbiorów stylów funkcjonalnych, składniki opisu bibliograficznego).