korpus f19 dostępny przez wyszukiwarkę Poliqarp/marasca
Korpus polszczyzny 1830-1918 na stronie Szukaj w słownikach (https://szukajwslownikach.uw.edu.pl/f19/).
Kilka lat temu prof. Janusz S. Bień udostępnił słownik „warszawski” oraz słownik S.B. Lindego z wyszukiwarką poliqarp zmodyfikowaną tak, by obsługiwała wielowarstwowa pliki djVu. Obecnie te i inne zasoby są dostępne na stronie https://szukajwslownikach.uw.edu.pl/pl/.
Ze względu na różnorodność źródeł korpusu f19 trudne i zapewne nieopłacalne byłoby wykorzystanie dotychczasowego sposobu udostępniania, wykorzystującego format djVu. Jednocześnie przygotowany przez nas korpus — w odróżnieniu od innych zasobów na stronie https://szukajwslownikach.uw.edu.pl/pl/ — ma zweryfikowaną postać tekstową. Pliki korpusu zostały więc zanalizowane analizatorem Morfeusz2 ze słownikiem 1830-1918, a następnie otagowane za pomocą taggera Concraft2. Należy pamiętać, że nie jest to tager przystosowany do danych z XIX wieku, jednak eksperymenty dały wyniki, które uznaliśmy za wystarczająco dobre, by udostępnić korpus w wersji otagowanej. W bardzo wielu wypadkach pozwala on na wyszukania znacznie bardziej zaawansowane niż samo przeszukiwanie po kształtach ortograficznych.
Każda próbka została opisana metadanymi z metryczki korpusowej, która zawiera łącza do zasobów źródłowych, z których pochodzą wyekscerpowane tekstu. Umożliwia to zapoznanie się z oryginalnym skanem, a w razie potrzeby także z pełnym dokumentem.
Niezbędnych adaptacji wyszukiwarki Poliqarp/marasca dokonał Michał Rudolf.
Pliki przeanalizował zmodyfikowanym analizatorem Morfeusz i otagował Concraftem2 otagował Witold Kieraś. Zachętą, a nawet przynagleniem służył nam prof. Janusz S. Bień, szczególnie za to drugie jesteśmy mu bardzo wdzięczni.