Salesforce og?osi? wprowadzenie pierwszego na ?wiecie benchmarku LLM (Large Language Models), który ma pomóc firmom w ocenie licznych modeli j?zykowych do wykorzystania w systemach zarz?dzania relacjami z klientami (CRM).
Nowy benchmark stanowi kompleksowe ramy oceny, które mierz? wydajno?? LLM w odniesieniu do czterech kluczowych miar: dok?adno?ci, kosztów, szybko?ci oraz zaufania i bezpiecze?stwa. Zosta? zaprojektowany z my?l? o ocenie typowych przypadków u?ycia w sprzeda?y i us?ugach, takich jak prospecting, lead nurturing, a tak?e podsumowania szans sprzeda?y i przypadków us?ug. U?ytkownicy benchmarku maj? dost?p do tabeli liderów, co u?atwia profesjonalistom wybór najlepszego modelu dla ich specyficznych potrzeb. Salesforce planuje ci?g?e dodawanie nowych scenariuszy przypadków u?ycia oraz ulepszanie oceny LLM.
Istniej?ce benchmarki LLM s? g?ównie skupione na zastosowaniach akademickich i konsumenckich, co sprawia, ?e ich znaczenie dla biznesu jest niewielkie. Brakuje w nich odpowiednich ocen ekspertów oraz uwzgl?dnienia kluczowych metryk takich jak dok?adno??, szybko??, koszty i zaufanie. W efekcie firmy nie mia?y dot?d wiarygodnej metody oceny skuteczno?ci generatywnych rozwi?za? CRM opartych na sztucznej inteligencji. Nowy benchmark Salesforce AI Research zmienia ten stan rzeczy, oferuj?c narz?dzie oparte na rzeczywistych danych CRM oraz eksperckich ocenach praktyków, co umo?liwia firmom podejmowanie bardziej strategicznych decyzji dotycz?cych integracji generatywnej sztucznej inteligencji w ich systemach CRM.
Metryki benchmarku
Dok?adno??: Kategoria ta obejmuje cztery podkategorie: rzeczowo??, kompletno??, zwi?z?o?? i zgodno?? z instrukcjami. Dok?adniejsze przewidywania i zalecenia s? kluczowe dla warto?ciowych wyników i lepszych dzia?a? w obs?udze klienta. Nawet je?li model nie spe?nia w pe?ni wymaga? dok?adno?ci, mo?na go poprawi? za pomoc? technik takich jak szybka in?ynieria i dostrajanie.
Koszt: Metryka ta jest klasyfikowana jako wysoka, ?rednia lub niska, w oparciu o percentyle kosztów operacyjnych, ró?ni?ce si? w zale?no?ci od przypadku u?ycia. Umo?liwia klientom ocen? op?acalno?ci ró?nych rozwi?za? LLM, dostosowuj?c je do bud?etu i strategii alokacji zasobów.
Szybko??: Ta miara ocenia szybko?? reakcji i wydajno?? LLM w przetwarzaniu oraz dostarczaniu informacji. Krótszy czas reakcji przek?ada si? na lepsze do?wiadczenia u?ytkownika oraz szybsze reagowanie zespo?ów sprzeda?y i obs?ugi na zapytania klientów.
Zaufanie i bezpiecze?stwo: Wska?nik ten mierzy zdolno?? LLM do ochrony danych klientów, zgodno?ci z przepisami dotycz?cymi prywatno?ci, zabezpieczania informacji oraz unikania stronniczo?ci i toksyczno?ci. Benchmark zapewnia organizacjom przejrzysto?? w zakresie zaufania i bezpiecze?stwa, co jest kluczowe dla niezawodno?ci rozwi?za? CRM.
Dzi?ki platformie Einstein 1, firmy mog? wybiera? spo?ród istniej?cych rozwi?za? LLM lub tworzy? w?asne modele spe?niaj?ce ich unikalne potrzeby biznesowe. Korzystaj?c z benchmarku, organizacje mog? wdra?a? bardziej skuteczne i wydajne rozwi?zania generatywnej sztucznej inteligencji, co pozwala na nap?dzanie wzrostu, obni?anie kosztów i dostarczanie spersonalizowanych do?wiadcze? klientów.