Instella 3B – AMD pokazuje, ?e AI to nie tylko domena Nvidii

Klaudia Ciesielska
1 Min
?ród?o: Unplash/Rubaitul Azad

?AMD wprowadzi?o na rynek now? rodzin? du?ych modeli j?zykowych o nazwie Instella, sk?adaj?c? si? z modeli o 3 miliardach parametrów. Modele te zosta?y przeszkolone na procesorach graficznych AMD Instinct MI300X, co pozwoli?o na osi?gni?cie lepszej wydajno?ci w porównaniu z istniej?cymi otwartymi modelami o podobnej wielko?ci. ?purepc.pl

Instella obejmuje ró?ne wersje: podstawowy model przedszkoleniowy, wersj? udoskonalon? oraz modele z nadzorem i strojeniem instrukcji. Modele te obs?uguj? d?ugo?? sekwencji do 4096 tokenów i s? zoptymalizowane pod k?tem wydajno?ci dzi?ki technikom takim jak FlashAttention-2 i Fully Sharded Data Parallelism. W testach porównawczych, Instella-3B przewy?sza inne w pe?ni otwarte modele i zbli?a si? wydajno?ci? do zamkni?tych rozwi?za?. Szczególnie dobrze radzi sobie w zadaniach takich jak MMLU i GSM8K.?

Firma planuje dalsze ulepszenia, w tym wyd?u?enie d?ugo?ci kontekstu i dodanie funkcji multimodalnych. Dzi?ki temu AMD umacnia swoj? pozycj? jako konkurencyjny dostawca sprz?tu i oprogramowania dla zaawansowanych zastosowa? AI.?

Udostępnij
Redaktor Brandsit