"Bieliki będą mogły działać jako agenci sztucznej inteligencji" - tak o ogłoszonych dziś w Paryżu nowych wersjach pierwszego polskiego dużego modelu językowego powiedział Sebastian Kondracki, inicjator powstania Bielika. Był on gościem Marcina Jędrycha w Radiu RMF24. A chodzi o dwie małe wersje, a także nowy, główny model Bielika - 2,5. Premiera odbyła się we francuskiej stolicy, ponieważ społeczność Fundacji Spichlerz, która pracowała nad modelami, uczestniczy w Paryżu w konferencji poświęconej AI.

W Paryżu odbywa się doroczna konferencja GOSIM AI Spotlight. Jest to wydarzenie organizowane co roku przez GOSIM Foundation, organizację zarejestrowaną w Singapurze. Jej nazwa oznacza: Global Open-Source Innovation Meetup, czyli - w wolnym tłumaczeniu - Światowe Spotkanie Innowacji Otwartoźródłowych.

W wydarzeniu uczestniczą twórcy Bielika - czyli pierwszego polskiego dużego modelu językowego, który utworzyła oddolnie społeczność skupiona wokół Fundacji Spichlerz, dzięki Cyfronetowi z AGH.

Ekipa Bielika w Paryżu ogłosiła dziś nowe wersje tego polskiego LLM-u. A inicjator jego powstania, Sebastian Kondracki, był gościem Marcina Jędrycha w Radiu RMF24.

Nowe wersje Bielika. Kondracki: Będą mogły działać jako agenci AI

Nowe Bieliki - co się zmieniło?

Jak wyjaśniał Sebastian Kondracki, w stolicy Francji ogłoszono trzy wersje - dwie małe (liczące 1,5 oraz 4,5 miliarda parametrów - chodzi o liczby, które model wykorzystuje do "nauki" i generowania odpowiedzi na pytania), a także duży, nowy model Bielika, o nazwie 2,5.

Zaznaczył, że w nowych modelach wymieniony został tzw. tokenizer. To jest taka część modelu, która dzieli duże teksty na małe jednostki, sylaby, słowa. Wymieniamy go, żeby jeszcze lepiej rozumiały język polski - powiedział w Radiu RMF24.

Przykłady zastosowań Bielików

Ekspert podkreślał, że małe wersje mogą służyć np. w biznesie "do zadań monotematycznych". Wyobraźmy sobie, że chcielibyśmy klasyfikować maile i musimy to robić na własnych serwerach ze względu na tajemnicę lub wrażliwość danych. Wtedy możemy użyć taki mały model tylko do jednego zadania - klasyfikacji, porządkowania maili. On mało "pali" (zużywa mało prądu - przyp. red.), jest bardzo szybki - mówił Sebastian Kondracki.

W dużym Bieliku nie zmieniliśmy tak mocno architektury, tylko go dotrenowaliśmy, wychowaliśmy - przekazał.

Jak podkreślił, "cała ta rodzina już będzie takimi Bielikami, które będą mogły działać jako agenci AI".

Niezwykłe zastosowanie polskiego LLM-u

Sebastian Kondracki mówił w rozmowie z Marcinem Jędrychem, że w Paryżu społeczność skupiona wokół Fundacji Spichlerz chce "uczyć się od innych otwartych projektów".

Już teraz Bielik jest w języku czeskim i niemieckim lepszy niż niemieckie i czeskie modele. Chcielibyśmy to bardzo mocno zbadać i zacząć tworzyć takie lokalne Bieliki w innych językach - mówił.

Gość Radia RMF24 dodał, że obecnie Bieliki przetwarzają tekst, ale trwają prace nad tym, aby potrafiły to samo ze zdjęciami.

Za chwilę wchodzą dyrektywy unijne, gdzie wszystkie zdjęcia na stronach www, w sklepach, muszą być bardzo dokładnie opisane, dla lepszej dostępności cyfrowej, żeby lepiej działały czytniki dla osób, które mają niepełnosprawności na przykład wzrokowe. I dlatego chcemy Bielika, który będzie bardzo dobrze analizował zdjęcia i współdziałał z takimi czytnikami - mówił.

Kondracki zwrócił uwagę, że jego to ważne, ponieważ zagraniczne LLM-y nie radzą sobie z polską kulturą. Nasze kluski śląskie mylą na przykład z jakimiś ciastkami - dodał.