„Jasnopis jest aplikacją do badania zrozumiałości tekstu, która działa na zasadzie pewnej wiedzy informatycznej i lingwistycznej. Powstał pewien wzór analityczny formuła oceniająca tekst pod względem tego, co on zawiera. Są zliczane sylaby w wyrazach, słowa w zdaniach i na podstawie tych 2 czynników jest obliczany poziom trudności” – mówi gość „Dania do Myślenia” w RMF Classic informatyk i językoznawca Maciej Ogrodniczuk. „To dość zaawansowana metoda analizowania tekstu” – dodaje. „Robi się to najpierw na zestawie prac treningowych. Algorytm uczy się co w tekście może odpowiadać za to, czy on jest trudny, czy łatwy” – wyjaśnia gość RMF Classic.
Tomasz Skory: Pan jest członkiem zespołu opracowującego aplikację, która ma poprawić zrozumiałość tekstów po polsku, urzędowych i nie tylko. Parę miesięcy temu rozmawialiśmy o tym "Jasnopisie" - to tak się on nazywa - z profesorem Gruszczyńskim, który jestem szefem tego zespołu, polonistą z Uniwersytetu SWPS. A pan zajmuje się techniczną stroną upraszczania tekstu. Proszę powiedzieć dokładniej, na czym to polega?
Maciej Ogrodniczuk: "Jasnopis" jest aplikacją do badania zrozumiałości tekstu, która działa na zasadzie wiedzy informatycznej i lingwistycznej, czyli powstał pewien wzór analityczny, formuła oceniająca tekst pod względem tego, co on zawiera i dająca w wyniku liczbę od jednego do siedmiu, odpowiadającą tej trudności tekstu.
Czyli innymi słowy, z punktu widzenia użytkownika jest tak, że wrzucamy tekst, który chcemy zbadać, w okienko na stronie internetowej, naciskamy guzik "analizuj" i otrzymujemy diagnozę, klasę trudności tekstów w stopniach od jeden do siedmiu.
Od tekstów dziecinnie łatwych, jak to zostało nazwane dla tej pierwszej klasy, do bardzo skomplikowanych, fachowych tekstów, których zrozumienie może wymagać wiedzy specjalistycznej.
Ten "Jasnopis" oznacza fragmenty, w których odbiorca może mieć słabszy moment, podkreśla słowa za trudne do wymiany, podkreśla zdania za długie. Ale jak to się dzieje od strony informatycznej, bo język jest rzeczą trudną do "ogarnięcia" - mówiąc językiem współczesnym, że zaczynam mieć wątpliwości, czy to jest w ogóle możliwe.
Wszystko sprowadza się do badania pewnych cech językowych tekstu, szczególnie dwóch cech odpowiadających za jego złożoność - leksykalną, czyli trudne słowa i strukturalną, czyli trudność zdań. Są zliczane sylaby w wyrazach, słowa w zdaniach i te dwa współczynniki, najprościej można powiedzieć - są przekształcane. Na ich podstawie jest obliczane...
...informatycy stworzyli aplikację, która to robi, ale generalnie to jest statystyka, czyli liczba rzeczowników, czasowników, wzajemny stosunek jednych do drugich, jak rozumiem?
Tak. Oczywiście tych wskaźników jest kilka i dziś to się robi metodami statystycznymi, czyli badając najpierw na zestawie tekstów treningowych, czyli takiej próbie, na której algorytm uczy się, co w tekście może odpowiadać za to, że jest on trudny bądź łatwy. Po to, by potem dowolnym tekstom przypisywać tę trudność wyliczoną.
Ale generalnie jest to statystyka. I tu mam niepokój, bo sensowności całego tekstu ocenić się nie da. Na przykład napisana krótkimi, zwięzłymi zdaniami bzdura złożona z prostych, powszechnie używanych słów, przejdzie przez "Jasnopis" jako uznana za tekst zrozumiały, tak?
Niestety tak, dlatego że "Jasnopis" nie ocenia czy tekst jest dobry, czy zły, czy ma sens czy nie. Tak samo zostanie oceniony tekst zupełnie bezsensowny, złożony ze znanych nam wszystkim słów, w przypadkowej kolejności, co tekst napisany poprawną polszczyzną.
A czy można stworzyć oprogramowanie, które będzie tekst rozumiało - pisany, mówiony. Bez człowieka się chyba nie da.
Podstawowa trudność polega na odpowiedzi na pytanie - co to znaczy rozumieć tekst?
Już mówię - w filmach SF z komputerami się rozmawia, jest HAL 9000 z "Odysei Kosmicznej" jest Matka w "Obcym". Po prostu zadaje się im pytania a one odpowiadają. A nam ciągle jeszcze do tej sytuacji daleko?
Wydaje mi się, że jeszcze nam daleko akurat do takich wspaniałych przykładów, tych wspaniałych komputerów filmowych. Natomiast to, z czym mamy do czynienia już dzisiaj, czyli dość zaawansowane metody analizowania tekstu, który do komputera mówimy lub który wpiszemy choćby w internecie - mamy już w zasięgu ręki. Jesteśmy w stanie skorzystać, nawet wyciągając swojego Smartfona, z bardzo wielu ciekawych programów, które nasz tekst analizują, w jakiś sposób dopasowują do ogromnego zasobu tekstów, zapewne branych z internetu i mogą sprawiać wrażenie, że udzielą nam odpowiedzi na wiele naszych pytań. Jest to trochę udawanie, natomiast być może nam wystarczy.
A co jest takiego w języku, że nie poddaje się obróbce tak łatwo jak - nie wiem - szachy, w których komputery wygrywają z ludźmi, jak strzelanki, w których komputery wygrywają z ludźmi. Mówię o grach internetowych...
Gra w szachy wydaje się bardzo prosto przekładalna na język komputerowy, tam są bardzo proste zasady. Oczywiście złożoność obliczeniowa jest...
...ale jest też strategia.
Ta strategia właściwie daje się sprowadzić do przewidywania odpowiednio dużej liczby ruchów naprzód.
...czyli mechanika prosta.
Czyli jest mniej lub bardziej prosta mechanika. Język jest złożony, jest wieloznaczny i dlatego jest to wciąż trudne dla komputerów. Natomiast mając duży zasób tekstów, pewne algorytmy, szybko działające komputery - jesteśmy w stanie robić to, co na przykład robi Google z tłumaczeniem.
Czy komputer może dodać coś od siebie? Przeczytaj całą rozmowę na www.rmfclassic.pl


