Korpus, wersja 0.4
Udostępniamy drugą wersję roboczą korpusu tekstów z lat 1830-1918. Aktualnie w jego skład wchodzi 414 próbek podzielonych na pięć stylów funkcjonalnych. Obecny stan korpusu obrazuje około 40% jego rozmiaru docelowego.
W aktualnej wersji podział próbek w poszczególnych stylach przedstawia się następująco:
- teksty popularnonaukowe: 26
- drobne wiadomości prasowe: 46
- publicystyka: 108
- proza artystyczna: 200
- dramat: 34
Jak widać, od poprzedniej wersji przybyły przede wszystkim próbki z prozy i publicystyki.
W stosunku do korpusu 200 próbek wprowadzono zmiany mające na celu urozmaicenie tekstów podstawy: zamiast 5 tekstów J. Słowackiego z 1834 (pierwodruk „Poezyj”) – dwa, zamiast pięciu tekstów J.I. Kraszewskiego – teksty czworga autorów (J. Dzierzkowski, J. Masłowski, J. Bliziński, E. Chojecki, J. Łuszczewska – Deotyma).
Łączna liczba słów tekstowych (od spacji do spacji) w aktualnej wersji korpusu wynosi 430 403 słowa.
Objętość próbek: najkrótsza 211 segmentów (1868_3.3_sample.txt, wiadomość prasowa), najdłuższa 1408 (1893_5.1_sample.txt, fragment dramatu).
13 próbek ma długość mniejszą niż 1000 segmentów +/- 10%, 40 – większą; różnice w długości wynikają z różnic w typie tekstu (wśród krótkich wiadomości trudno znaleźć takie, które mają 1000 segmentów, podjęliśmy decyzję o niełączeniu w próbce kilku tekstów, a zatem o zwiększeniu liczby próbek).
Każda próbka składa się z dwóch części: pliku zawierającego tekst (pliki *_sample.txt) oraz metryczki (pliki *_meta.txt). Lista plików korpusu z metryczką.
Nie licząc 49 tekstów anonimowych, w korpusie zgromadzono próbki autorstwa 212 osób: 158 autorów po 1 tekście, 28 – po 2, 13 – po 3, 5 – po 4, 2 po -5 (Z. Krasiński, J. Dzierzkowski), więcej niż 6 tekstów ma 6 autorów: M. Bałucki (6), S. Przybyszewski (8), J. I. Kraszewski, E. Orzeszkowa (po 10), J. Słowacki (11). [wykaz autorów]
korpus-f19-wersja_0.4
Rozkład nierozpoznanych segmentów w badanym okresie wygląda następująco:
- Zbadaliśmy też, jak poprzednio, jedną z najistotniejszych ilościowo cech tekstów z lat 1830-1918, tj. kreskowanie e
- oraz kreskowanie w końcówkach inst, loc sg, loc pl M, N oraz gen, dat, loc sg F (-ém, -émi, -éj)
- Sprawdziliśmy też użycie wielkich liter; uwaga! wyniki zawierają również nazwy własne:
[Dodane w 2017] Statystyki nierozpoznanych segmentów z podziałem na style i dla całej próby N=200: