Rewolucja AI ma twarz LLM-ów

dr in?. Marek Koz?owski
11 Min

„Rozpocz??a si? nast?pna rewolucja… Przedsi?biorstwa i kraje ??cz? si? z firm? NVIDIA, aby zmieni? warte biliony dolarów tradycyjne centra danych w nowoczesne serwerownie, buduj?c nowy typ centrów danych – fabryki sztucznej inteligencji – aby wytwarza? nowy towar – sztuczn? inteligencj?” – napisa? w informacji dla akcjonariuszy CEO i za?o?yciel NVIDII Jensen Huang. Pod koniec maja 2024 NVIDIA zaprezentowa?a wyniki za ostatni kwarta?, które przebi?y ponownie oczekiwania rynku akcji. Przychody producenta poszybowa?y prawie o 300 procent rok do roku, a kolejki ch?tnych na ich produkty walcz? o dost?p do kart graficznych, aby budowa? swoje modele i dostosowywa? je do w?asnych celów biznesowych. Obecny potencja? du?ych modeli j?zykowych, a zw?aszcza ich zdolno?? do pracy z ró?nymi danymi jak tekst, obraz, d?wi?k nada?y im form? narz?dzi do wszelkich zastosowa? – nie tylko pomocy z prac? domow?, ale te? z szeregiem zada? biznesowych: od inteligentnego przetwarzania dokumentów, przez domenowych asystentów, po wszelakie prace w obszarach kreatywnego marketingu itp. Bardzo du?o zmieni?o przej?cie z poziomu modelu obs?uguj?cego tylko tekst (tzw. unimodalno??) na multimodalno??.

„Multimodalno?? to nast?pna generacja tych du?ych modeli, które mog? przetwarza? nie tylko tekst, ale tak?e obrazy, d?wi?k, wideo, a nawet inne modalno?ci” – mówi Linxi Fan, naukowiec zajmuj?cy si? badaniami nad sztuczn? inteligencj? w firmie NVIDIA. Wszystko to razem wzi?te daje nam niespotykane do tej pory mo?liwo?ci interakcji z danymi. Nowe rozwi?zania technologiczne zawsze by?y znakiem rewolucji w rozwoju cz?owieka; par? wieków temu mieli?my rewolucj? przemys?ow?, po niej motoryzacyjn? czy ?rodków masowego przekazu, a teraz przyszed? czas na rewolucj? AI. Rewolucje, która zmieni warunki gry, ale te? otworzy nowe obszary interakcji cz?owiek-komputer.

Niewidzialne LLM-y

Ka?da z poprzednich rewolucji technologicznych mia?a swoj? dynamik? i swoje artefakty. Mieli?my ju? maszyn? parow?, auta, telewizory, komputery czy samoloty. Teraz czas na rewolucj? AI, obejmuj?c? najbardziej obecnie rozpoznawalne du?e modele j?zykowe, zwane skrótowo LLM-ami (ang. Large Language Models).

Wszystkie z rewolucyjnych artefaktów, gdy pierwszy raz je ukazano, wywo?ywa?y ca?e spektrum emocji; w tym rado??, sceptycyzm, obawy i fascynacj?. Ale ??czy?o je jedno – fizyczna namacalno??, mo?na by?o je dotkn??, przenie?? czy wskaza? palcem innej osobie. Obecna rewolucja AI oparta jest na modelach, które dla wi?kszo?ci ludzi s? „nienamacalne”, s? uj?te w us?ugach informatycznych, które wystawione w chmurze pozwalaj? komunikowa? si? poprzez przegl?dark? internetow? czy API. Miliony osób, które siedz? teraz przy komputerach z odpalonymi przegl?darkami, konsumuj? po?rednio du?e modele j?zykowe, dzia?aj?ce na tysi?cach kart GPU w odleg?ych serwerowniach.

Ile osób potrafi sobie wyobrazi? taki model, który wymaga tysi?cy kart GPU? Ile osób kiedykolwiek samodzielnie taki mniejszy model uruchomi?o, b?d?c ?wiadomym sk?adowych elementów i jego zale?no?ci? Wszystko to nadaje tej rewolucji pewien magiczny charakter, ale te? tworzy wiele pyta?, np. jak bardzo ta rewolucja nas zniewoli, jak bardzo b?dziemy zale?ni od BigTechów, czy wiemy, co si? dzieje z naszymi danymi, którymi zalewamy LLM-y pytaj?c je o wszelakie sprawy, problemy, wyzwania, czy zadania? To wszystko wierzcho?ek góry lodowej, ale ka?da rewolucja zawsze mia?a wiele wyzwa?, czy to regulacyjnych, czy te? dotycz?cych kwestii w?asno?ci i niezale?no?ci. Ta nie ró?ni si? od poprzednich, poza tym, ?e tempo jej post?pu jest niebywa?e.

Kiedy zacz??a si? rewolucja AI?

Rewolucja AI, której obecnie do?wiadczamy, zacz??a si? du?o wcze?niej ni? debiut aplikacji ChatGPT jesieni? 2022 roku. Jedni wymieniaj? cykliczny konkurs ImageNet (konkurs dotyczy? wykrywania obiektów i klasyfikacji obrazów) i zwyci?stwo sieci konwolucyjnej AlexNet w 2012, jako pierwszy silny sygna? nadchodz?cych zmian, tzw. pierwszy znamienny znak, ?e g??bokie sieci neuronowe mog? wywróci? porz?dek rzeczy. Przez wiele lat uczestnicy poprzednich edycji tego konkursu walczyli ze sob? poprawiaj?c nieznacznie wyniki, nagle u?ycie g??bokich sieci neuronowych przesun??o skuteczno?? zdecydowanie bardziej ni? wcze?niej. Kolejne edycje tego konkursu jeszcze bardziej podnosi?y poprzeczk?, a? doszli?my do poziomów, gdzie maszyny zacz??y wygrywa? z cz?owiekiem w tym konkretnym zadaniu komputerowej wizji. Tak, to komputerowa wizja (ang. computer vision) by?a pierwsz? dziedzin?, gdzie do masowej publiki dotar?o, ?e AI mo?e dorówna? cz?owiekowi, a potem i z nim wygra?. Nast?pnie pojawi?y si? kolejne, liczne rywalizacje cz?owiek vs AI, m.in. skomplikowane gry (np. Go) czy konkursy typu „Jeden z Dziesi?ciu” (np. Jeopardy). W raz z rozwojem kolejnych metod okaza?o si?, ?e AI potrafi nie tylko skutecznie analizowa? dane, ale te? je generowa?. Pojawi?y si? pi?kne obrazy tworzone przez AI (np. DALL-E) na bazie s?ownych opisów. Modele text-to-image zdolne do malowania w zadanym stylu malarskim rozbudzi?y fantazje i nadzieje. Wydawa?o si?, ?e aforyzm „obraz wart jest tysi?ca s?ów” dalej jest bez w?tpienia prawdziwy i to w?a?nie obraz cenniejszy jest ni? sekwencja s?ów. Jednak to dopiero tekstowy asystent o nazwie ChatGPT wywo?a? masowe poruszenie, daleko wychodz?ce poza grono specjalistów i geeków. Czemu to s?owo wygra?o z obrazem? Dlaczego tekstowa rozmowa przys?oni?a pi?kne malunki?

S?owo wygra?o z obrazem

Na to pytanie nie ma ?atwej i dok?adnej odpowiedzi. Obrazy zawieraj? mnóstwo informacji i najcz??ciej, aby opisa? obraz potrzebujemy setek, jak nie tysi?cy s?ów, ale te? i czasu, aby je wypowiedzie?, na ko?cu i tak stwierdzimy, ?e te s?owa nie oddaj? wszystkiego co widzimy. Obrazy o wysokiej dawce informacyjnej powstaj? relatywnie d?ugo, wymagaj? warunków do ich wytwarzania. Zdolno?ci graficzne (wystarczaj?ce do sprawnego malowania) s? te? do?? rzadkim zestawem kompetencji w du?ych populacjach. Dodatkowo komunikacja obrazami na poziomie konwersacji jest bardziej kosztowna energetycznie ni? wymiana s?ów. Wszystko to prawdopodobnie sta?o si? cz?stkow? przyczyn?, dlaczego ludzko?? nie komunikuje si? ze sob? rysuj?c obrazy. Nasz rozwój oparli?my na mowie i zapisie jej z u?yciem znaków, które tworz? s?owa. S?owo sta?o si? powszechnym, tanim no?nikiem informacji mi?dzy cz?onkami spo?eczno?ci, a potem zapisane na kamieniu/ pergaminie sta?o si? no?nikiem informacji dla kolejnych pokole?. To s?owami my?limy i marzymy, wybrzmiewaj? one w naszych g?owach nie b?d?c s?yszanymi. S?owo, a potem konstrukcje na nim oparte, pozwoli?y nam w coraz to bardziej skomplikowany sposób komunikowa? si? i opisywa? sytuacje, emocje czy plany. Zacytuj? fragment Ewangelii, aby u?wiadomi? czytelnikowi, jak j?zyk mówiony i pisany, w tym w?a?nie jego cz?stkowy element – s?owo, jest kluczowy od tysi?cy lat.

“Na pocz?tku by?o S?owo, a S?owo by?o u Boga, i Bogiem by?o S?owo…Wszystko przez Nie si? sta?o, a bez Niego nic si? nie sta?o, co si? sta?o. W Nim by?o ?ycie, a ?ycie by?o ?wiat?o?ci? ludzi…”

S?owa Ewangelii wed?ug ?wi?tego Jana, wybrane frazy

S?owo ma moc sprawcz?, ono raduje i smuci, porywa i t?amsi, mi?uje i z?o?ci. Na nim oparli?my swoje dziedzictwo cz?owiecze?stwa. A s?owo w?a?nie jest paliwem LLM-ów. S?owa w postaci korpusów tekstów, instrukcji, preferencji prowadz? do finalnego produktu w postaci modelu. Czym w takim razie jest ten tajemniczy LLM, je?li wiemy, ?e nap?dza go s?owo, a na wyj?ciu generuje odpowiedzi s?owo po s?owie? Teraz postaram si? w jednym akapicie zdefiniowa?. Czym jest ten twór, który kszta?tuje obecn? rewolucj? AI.

Czym w?a?ciwie s? LLM-y?

LLM – to generatywny neuronowy model j?zykowy licz?cy co najmniej dziesi?tki czy nawet setki miliardów parametrów (wag). Zosta? on wst?pnie wytrenowany na ogromnych zbiorach danych tekstowych, liczy terabajty danych (po tej fazie uczenia, model jaki uzyskujemy nazywa si? modelem fundamentalnym), potrafi generowa? tekst wyj?ciowy s?owo po s?owie na podstawie podanego mu wej?ciowego tekstu (zwanego promptem). Kolejna faza uczenia nazywa si? strojeniem na du?ych korpusach instrukcji, które zawieraj? ró?ne polecenia/ zadania z przyk?adowymi ich rozwi?zaniami, np. stre?? tekst, odpowiedz na pytanie, napisz mi przemówienie. Trzeci etap uczenia nazywany jest wychowaniem wystrojonego modelu na bazie korpusów preferencji (ludzie oceniaj? odpowiedzi modelu, co jest potem wykorzystywane do jego optymalizacji). Wszystkie te razem po??czone etapy uczenia daj? nam finalny, konwersacyjny model, np. ChatGPT.

Polska a rewolucja AI

Na ko?cu swojego wywodu o rewolucji AI pragn? zwróci? uwag? na w?tek polsko?ci w tej rewolucji, a dok?adniej na poj?cie konkurencyjno?? gospodarki opartej na wiedzy. Polska przestaje by? konkurencyjna ze wzgl?du na koszty pracy (np. ju? wida? trend, w którym zak?ady z Polski przenosz? si? ta?szych krajów w Azji). Przysz?o?? naszej gospodarki b?dzie zale?a?a od tego, jak szybko i g??boko wdro?ymy AI do naszych us?ug biznesowych czy sfery publicznej. Bo to zdeterminuje, czy uda nam si? opu?ci? pewn? stref? ograniczonego wzrostu i awansowa? do grona krajów kreuj?cych rozwi?zania, a nie dostarczaj?cych tylko kapita? ludzki do ich wykorzystywania.


Autor: dr in?. Marek Koz?owski – Kierownik AI Labu w O?rodku Przetwarzania Informacji – Pa?stwowym Instytucie Badawczym, gdzie zajmuje si? tworzeniem oprogramowania wzbogaconego inteligentnymi metodami przetwarzania danych (g?ównie danych tekstowych i obrazowych). Jego zainteresowania dotycz? przetwarzania j?zyka naturalnego, eksploracji danych i uczenia maszynowego. Napisa? ponad 40 publikacji naukowych z zakresu semantycznego przetwarzania tekstów i uczenia maszynowego. W swojej karierze bra? udzia? w wielu komercyjnych projektach badawczych, które dotyczy?y uczenia maszynowego dla firm takich jak np.: Samsung, France Telecom, Orange Labs, Millward Brown, Vive Textile Recycling czy Connectis. Bra? udzia? w wielu mi?dzynarodowych konkursach uczenia maszynowego m.in IEEE BigData 2019 Cup.

Udostępnij
Kierownik Laboratorium In?ynierii Lingwistycznej w O?rodku Przetwarzania Informacji – Pa?stwowym Instytucie Badawczym, gdzie kieruje ponad 30-osobowym zespo?em badaczy i programistów. W OPI zajmuje si? tworzeniem oprogramowania wzbogaconego inteligentnymi metodami przetwarzania danych (g?ównie danych tekstowych i obrazowych). Jego zainteresowania dotycz? przetwarzania j?zyka naturalnego, eksploracji danych i uczenia maszynowego. Napisa? ponad 40 publikacji naukowych z zakresu semantycznego przetwarzania tekstów i uczenia maszynowego. W swojej karierze bra? udzia? w wielu komercyjnych projektach badawczych, które dotyczy?y uczenia maszynowego dla firm takich jak np.: Samsung, France Telecom, Orange Labs, Millward Brown, Vive Textile Recycling czy Connectis. Bra? udzia? w wielu mi?dzynarodowych konkursach uczenia maszynowego m.in IEEE BigData 2019 Cup.