Chi?ski sukces
Chi?ski DeepSeek to model w pe?ni open-source (na licencji MIT), który dorównuje GPT4-o1 (mam na my?li model DeepSeek-R1, bo wcze?niej jeszcze pojawi? si? V3). Zaburzy? on dotychczasow? hegemoni? modeli GPT4-o1 (modeli pozwalaj?cych na g??bokie wnioskowanie, czyli takie, które daje najwi?cej warto?ci w zadaniach matematycznych, programowaniu czy skomplikowanych dedukcjach). Przewaga ameryka?skich modeli zosta?a zaburzona przez tzw. czarnego konia, bo tak trzeba nazwa? DeepSeeka. Ponadto chi?ski producent w swoim raporcie technicznym wykaza?, ?e osi?gn?? docelowy efekt, u?ywaj?c tylko 2 tysi?cy kart klasy Hopper do finalnego treningu, a nie dziesi?tków tysi?cy kart jak OpenAI/ Meta. Nale?y podkre?li?, ?e koszt finalnego uczenia, licz?cy kilka milionów USD by? wielokrotnie mniejszy od kosztów ameryka?skich Big Techów, a koszty inferencji modeli DeepSeek okaza?y si? rz?dy wielko?ci ni?sze ni? OpenAI (w zale?no?ci czy mówimy o DeepSeek V3 czy R1). To wszystko zaburzy?o dotychczasowy porz?dek, wszed? nowy gracz, który nie jest s?abszy jako?ciowo w wi?kszo?ci zada?, jego uczenie jest ta?sze, a do tego jego serwowanie/ inferencja dla jest ta?sza dla konsumentów. Dodatkowo, jest to model open-source, czyli ka?dy, kto ma 16+ kart H100, mo?e go samodzielnie odpali? i hostowa? dla w?asnych celów, Jest to kluczowe dla wi?kszo?ci firm, bo zapewnia pe?n? kontrol? nad informacjami trafiaj?cymi do modelu.
Chi?czycy tworz?c model DeepSeek udowodnili, ?e potrafi? dostosowa? si? do warunków biznesowych w jakich dzia?aj?. Karty jakimi dysponowali Chi?czycy by?y wynikiem embarga USA – ograniczono eksport kart z wydajn? pami?ci?, wi?c pracowali na kartach o gorszych parametrach pami?ci. Musieli tak?e napisa? du?o w?asnych optymalizacji procesu uczenia. Pami?tajmy jednak, ?e nie mieli wcale ma?o kart – do finalnego treningu u?yli oko?o 2000 kart klasy Hopper, jednak DeepSeek jako firma ma a? ok. 50 000 kart, czyli tyle ile wynosi limit zakupowy Polski w ramach nowej doktryny eksportowej USA. Nale?y jednak wzi?? pod uwag?, ?e DeepSeek do inferencji swojego LLM-a u?ywa kart chi?skich, prawdopodobnie produkcji Huawei. Jednak do uczenia firma u?ywa?a kart NVIDIA, to znaczy, ?e nie jest wcale tak ?atwo odej?? od ?rodowiska obliczeniowego CUDA, które rozwija NVIDIA pod k?tem wysoko skalowalnych oblicze?. My?l?, ?e na razie b?dzie nast?powa?a wymiana kart pod inferencje na chi?skie, oczywi?cie je?li si? sprawdz?. Pó?niej mo?liwa b?dzie wymiana kart pod uczenie, które jest jednak o wiele bardziej z?o?onym procesem.
Czy Polska ma szans? na rywalizacj? z USA i Chinami?
Warto aby bran?a IT i decydenci odpowiedzialni za rozwój sztucznej inteligencji w Polsce zadali sobie pytanie – czy koniecznie potrzebujemy w naszym kraju du?ych modeli j?zykowych? Przyk?adowo modele DeepSeek v3/R1 maj? ok. 700 mld parametrów, a do ich odpalenia potrzeba minimum 16 kart H100, z których ka?da jest warta ok. 150 000 z?otych. Aby wyskalowa? ca?o?? do odpowiedniej wydajno?ci, nawet dla ma?ego zbioru u?ytkowników, nale?y dan? liczb? zwi?kszy? do kilkudziesi?ciu kart. Konieczne s? wi?c naprawd? du?e ?rodki na zakup, a do tego jeszcze trzeba doda? koszty energii elektrycznej, 70bNale?y wzi?? pod uwag?, ?e zdecydowana wi?kszo?? polskich ma?ych, ?rednich i nawet du?ych firm, nie potrzebuje asystenta do otwartej rozmowy na ka?dy temat. Bardziej przydatne s? dla nich dedykowane LLM-y, które b?d? dotyczy? 10-20 konkretnych scenariuszy biznesowych. A taki cel da si? osi?gn?? stroj?c mniejsze modele na domenowych danych, które s? ta?sze w utrzymaniu i ta?sze w douczaniu.
Przewiduj?, ?e modele ogólnego u?ytku jak DeepSeek, GPT4 b?d? powstawa?, aby zachwyca? ludzi du?ym zró?nicowaniem kompetencji. B?d? one g?ównie u?ywane do pomocy w ró?nych zadaniach i problemach dnia codziennego. Natomiast tam, gdzie wyst?puje ryzyko utraty przewagi konkurencyjnej bazuj?cej na prywatnych danych, b?dziemy szli w du?o mniejsze modele szyte na miar? konkretnych firm lub instytucji. Szczególnie bior?c pod uwag? fakt, ?e dostosowanie DeepSeeka do mniejszych modeli drog? destylacji, np. do LLam-y 70B, odbywa si? z du?? strat? jako?ciow? dla j?zyków rzadkich, takich jak j?zyk polski i inne mniej popularne j?zyki UE.
W Polsce nie dysponujemy takim zapleczem technicznym jak Chiny czy USA. Mo?emy jednak budowa? mniejsze modele do 100 mld wag, które s? porównywalne lub lepsze uwzgl?dniaj?c pewne kryteria (np. w obszarze znajomo?ci tematów typowych dla naszej kultury czy historii), w porównaniu z takimi modelami jak DeepSeek.
Polskie du?e generatywne modele j?zykowe – Polish LLMs
Prace nad polskimi, du?ymi, generatywnymi modelami j?zykowymi zacz??y si? oko?o 2 lata temu. Pierwszym modelem by? TRURL, który zosta? stworzony przez VoiceLab.AI w 2023 i oparty by? na LLamie 2. Polska firma technologiczna, która go zaprojektowa?a, jako jedna z pierwszych w kraju opracowa?a autorsk? technologi? rozpoznawania mowy. TRURL to dostrojona wersja modelu LLama 2 – strojenie dotyczy?o oko?o 1mln próbek konwersacyjnych w j?zyku polskim i angielskim. Reasumuj?c, nie by? to model wst?pnie trenowany na polskich danych, czyli nie przeszed? j?zykowej adaptacji.
Na prze?omie 2023/24 roku Politechnika Gda?ska (PG) wraz z AI Labem z O?rodka Przetwarzania Informacji – Pa?stwowego Instytutu Badawczego (OPI PIB) podj??y si? j?zykowej adaptacji modeli LLama i opracowa?y polskoj?zyczne generatywne modele j?zykowe o nazwie Qra, które zosta?y utworzone na podstawie korpusu danych zawieraj?cego teksty wy??cznie w j?zyku polskim. Wykorzystany korpus liczy? ??cznie ponad 1TB danych. To pierwszy polski model generatywny wst?pnie wytrenowany na tak du?ym zasobie polskich tekstów, do którego wytrenowania u?yto wielkich mocy obliczeniowych. Dla porównania ChatGPT w wi?kszo?ci trenowany jest na danych angloj?zycznych, a jedynie u?amek procenta jego korpusu treningowego stanowi? dane w j?zyku polskim.
W wyniku wspó?pracy OPI PIB i PG powsta?y trzy modele, które ró?ni? si? z?o?ono?ci? tj. Qra 1B, Qra 7B, Qra 13B. Modele Qra 7B oraz Qra 13B uzyskuj? istotnie lepszy wynik perplexity, czyli zdolno?ci do modelowania j?zyka w zakresie jego rozumienia i jego gramatyki, ni? model Llama-2-7b (od firmy Meta) oraz Mistral-7B-v0.1 (Mistral-AI).
Nast?pnie w roku 2024 pojawi?y si? modele Bielik w co najmniej dwóch wersjach, rozwijane w ramach fundacji SpeakLeasch. Bielik V2 zosta? opracowany na bazie modelu Mistral-7B, którego powi?kszono o dodatkowe bloki dekodera do ostatecznego rozmiaru 11 mld parametrów. Model by? wst?pnie trenowany na oko?o 2TB polskich danych tekstowych oraz dodatkowo by? strojony na milionach syntetycznych instrukcji pozyskanych z Mixtrala 8×22, proces uczenia by? te? uzupe?niony o wychowanie na preferencjach.
W roku 2024 zosta? uruchomiony przez Ministerstwo Cyfryzacji projekt PLLuM, anga?uj?c 6 partnerów ?wiata nauki, który po oko?o roku prac wyda? rodzin? kilkunastu modeli o rozmiarach od 8 mld do 70 mld w wersjach base (fundamentalny), instruct (po strojeniu na instrukcjach) i chat (po wychowaniu na preferencjach). W ramach PLLuMa wykonywane by?y wszelkie etapu uczenia, tj.:
a) adaptacja j?zykowa (kontynuowany wst?pny trening) na korpusie licz?cym ponad 150 mld tokenów,
b) strojenie na instrukcjach (gdzie wi?kszo?? to by?y instrukcje organiczne lub bazuj?ce na organicznych danych),
c) uczenie na preferencjach zbudowanych r?cznie przez dziesi?tki annotatorów.
Podsumowuj?c, zdecydowanie warto budowa? i rozwija? polskie LLM-y. Sprawdzaj? si? one lepiej dla tekstów opublikowanych w naszym j?zyku. Warto jednak zastanowi? si?, czy koniecznie musimy si? ?ciga? z USA i Chinami w budowaniu olbrzymich modeli. Z naszych obserwacji wynika, ?e zdecydowana wi?kszo?? ma?ych, ?rednich i nawet du?ych firm, nie potrzebuje asystenta do otwartej rozmowy na ka?dy temat. Bardziej przydatne s? dla nich dedykowane LLM-y, które b?d? dotyczy? 10-20 konkretnych scenariuszy biznesowych. A taki cel da si? osi?gn?? trenuj?c mniejsze modele na domenowych danych, które s? ta?sze w utrzymaniu. Dodatkowo, tam gdzie wyst?puje ryzyko utraty przewagi konkurencyjnej bazuj?cej na prywatnych danych, warto?? lokalnych, otwartych modeli o mniejszym rozmiarze b?dzie nie do pomini?cia. Mo?emy w Polsce budowa? mniejsze modele do 100 mld wag, które s? porównywalne lub lepsze od wielkich LLM-ów, uwzgl?dniaj?c pewne kryteria (np. w obszarze znajomo?ci tematów typowych dla naszej kultury czy historii).
Autor: dr in?. Marek Koz?owski
Kierownik AI Labu w O?rodku Przetwarzania Informacji – Pa?stwowym Instytucie Badawczym. W OPI PIB zajmuje si? tworzeniem oprogramowania wzbogaconego inteligentnymi metodami przetwarzania danych (g?ównie danych tekstowych i obrazowych). Jego zainteresowania dotycz? przetwarzania j?zyka naturalnego, eksploracji danych i uczenia maszynowego. Napisa? ponad 40 publikacji naukowych z zakresu semantycznego przetwarzania tekstów i uczenia maszynowego. W swojej karierze bra? udzia? w wielu komercyjnych projektach badawczych, które dotyczy?y uczenia maszynowego dla firm takich jak np.: Samsung, France Telecom, Orange Labs, Millward Brown, Vive Textile Recycling czy Connectis. Bra? udzia? w wielu mi?dzynarodowych konkursach uczenia maszynowego m.in IEEE BigData 2019 Cup.