Jak opracowa? wewn?trzny system wykrywania nadu?y??

Podczas gdy ilo?? danych ro?nie ka?dego roku, mechanizmy wykrywania nadu?y? typu rule-based nie nad??aj? za rozwojem technologii stosowanych przez haker�w. W poni?szym artykule Igor Kaufman z firmy DataArt, krok po kroku przedstawia spos�b na opracowanie w?asnej platformy wykrywania nadu?y?.

Systemy wykrywania nadu?y?, kt�re s? oparte na sztucznej inteligencji, to jeden z najbardziej popularnych temat�w w bran?y. Ale jak one dok?adnie dzia?aj?? Jakie czynno?ci nale?y wykona?, by taki system wdro?y? we w?asnej firmie? Jak wygl?da sterowanie procesem decyzyjnym? Odpowiedzi na te pytania znajduj? si? poni?ej.

Krok 0. Przygotowanie danych

Na potrzeby tego artyku?u pomin?, jak nale?y agregowa?, przechowywa? i przenosi? dane. Zamiast tego, przejd? od razu do ich wykorzystywania w uczeniu maszynowym.

Dane to paliwo dla mechanizm�w uczenia maszynowego. Je?li u?yjemy lepszego paliwa, mo?emy oczekiwa?, ?e pojazd osi?gnie wy?sz? pr?dko??.

Na pocz?tek wa?ne jest oczyszczenie danych, by wyszczeg�lni? odpowiednie elementy do analizy. Sp�jrzmy na przyk?ad na mechanizmy p?atno?ci w sieci. Kluczowymi elementami danych s? informacje o kupuj?cym i sprzedaj?cym, kwoty, godzina przekazania transakcji, dane banku, adresy IP i wiele innych. Na dobr? spraw? takich parametr�w mog? by? setki. Im bardziej z?o?ony proces, tym wi?cej niezb?dnych parametr�w. Dlatego im lepiej dane s? oczyszczone i pozbawione zale?nych lub skorelowanych element�w, tym lepiej ko?cowy algorytm b?dzie dzia?a?. W przeciwnym wypadku trudno b?dzie okre?li?, kt�ry element by? podstaw? oceny ko?cowej. Z regu?y analiza i opracowanie danych mog? zaj?? po?ow? lub wi?cej ca?ego czasu realizacji projektu uczenia maszynowego.

da1

Czerwone kwadraty przedstawiaj? wysoce skorelowane elementy; im mniej czerwonych kwadrat�w, tym ?atwiejsze jest interpretowanie modelu.

Krok 1. Uczenie pod nadzorem, czyli co mo?na wyci?gn?? z tego, co ju? wiemy?

Firmy z regu?y maj? wdro?ony system wykrywania nadu?y?. Mog? to by? rozwi?zania oparte na zasadach (rule-based fraud detectors). Takie systemy z czasem staj? si? zbyt uci??liwe ze wzgl?du na liczb? potrzebnych zasad, a przy tym maj? trudno?ci z odfiltrowaniem wszystkich podejrzanych dzia?a?. W alternatywie, mog? to by? r�wnie? rozwi?zania oparte na sztucznej inteligencji, ale dostarczone przez zewn?trzne firmy, gdzie poufne dane s? przetwarzane poza obr?bem w?asnej infrastruktury.

Je?li chcemy wzmocni? ochron? i opracowa? wewn?trzny system wykrywania nadu?y?, to czy istnieje spos�b na wykorzystanie bie??cych zasob�w wiedzy w tej dziedzinie? Okazuje si?, ?e tak. Nadzorowane uczenie maszynowe to proces, w kt�rym cz?owiek podpowiada maszynie, co jest prawid?owe i nieprawid?owe. Wykorzystuj?c sprawdzone wyniki z bie??cych system�w, mo?na znacznie przyspieszy? proces uczenia maszynowego.

Z regu?y istnieje szereg algorytm�w mo?liwych do wykorzystania. Nale?y wi?c odnale?? taki, kt�ry b?dzie sprawnie pos?ugiwa? si? wybranym zestawem danych, a nast?pnie odpowiednio dobra? jego parametry, by uzyska? odpowiedni balans wynik�w prawdziwie dodatnich (faktyczne nadu?ycia), fa?szywie dodatnich (dzia?ania b??dnie oznaczone jako nadu?ycia) i fa?szywie ujemnych (nadu?ycia, kt�re nie zosta?y jako takie rozpoznane). Istnieje wykres zwany tablic? pomy?ek, kt�ry naukowcy stosuj? w celu optymalizowania algorytm�w.

da2

Tablica pomy?ek � pomara?cza, czy nie pomara?cza?

Im lepsze s? wyniki uzyskane przy jego u?yciu, tym szybciej nowy system zast?pi dotychczasowe rozwi?zania, poniewa? zosta? on skutecznie wyuczony w oparciu o dane historyczne.

Krok 2. Wykrywanie anomalii

Co zrobi?, je?li istniej?ce algorytmy nie wychwytuj? wielu element�w stanowi?cych nadu?ycia? Po to w?a?nie potrzebna jest pomoc � by odnale?? podejrzane rekordy, kt�re mog? by? nadu?yciami.

W tym celu nale?y pogrupowa? wszystkie elementy, transakcje, p?atno?ci i innego typu informacje. Drobne i odleg?e zgrupowania danych s? elementami podejrzanymi. Powstaj? one dlatego, ?e algorytm grupowania oznaczy? dane jako nietypowe. Niekoniecznie oznaczaj? one nadu?ycia, ale warto si? im przyjrze? i dok?adniej je zbada?.

da3

Tr�jwymiarowa reprezentacja klastr�w. Rzeczywista liczba wymiar�w mo?e wynosi? setki D.

P�?niej specjalista w danej dziedzinie mo?e si? przyjrze? takim zgrupowaniom. Pozwoli to sprawdzi?,

czy wpisy nie wygl?daj? na autentyczne i czy wszystkie transakcje z tego zgrupowania nale?y automatycznie blokowa?;
tylko cze?? rekord�w jest podejrzana i nale?y dostosowa? parametry zgrupowania lub przekaza? wszystkie podejrzane rekordy do sprawdzenia przez specjalist?.

Krok 3. Analiza szereg�w czasowych i limity dynamiczne

Grupowanie mo?na wykonywa? na statycznym zestawie danych, ale oczekiwane zachowania zmieniaj? si? w czasie. Przychody osobiste lub firmowe mog? rosn??, poszerzaj?c schematy zwi?zane z wydatkami. Opr�cz tego wydatki mog? si? zmienia? okresowo � na przyk?ad w okresie ?wi?tecznym. Takie wzorce dzia?a? r�wnie? nale?y uwzgl?dni?, by system funkcjonowa? prawid?owo. Powinien on sprawdza? nietypowe transakcje, w dynamiczny spos�b koryguj?c oczekiwane zakresy, by uwzgl?dni? zmieniaj?c? si? w czasie natur? transakcji.

W tworzeniu �bezpiecznych� zakres�w wykorzystuje si? algorytmy szereg�w czasowych � pocz?wszy od mniej skomplikowanych modeli autoregresyjnych i przechodz?c do bardziej z?o?onych modeli takich jak FBProphet (opracowany przez Facebooka), kt�re uwzgl?dniaj? okresowo??.

da4

Ciemnoniebieska linia – warto?ci rzeczywiste i oczekiwane, niebieski zakres – oczekiwane odchylenie, czarne kropki – warto?ci rzeczywiste. Czarne kropki poza zakresem s? podejrzane.

Krok 4. Integracja

Dane s? przygotowane, a model jest wst?pnie wyuczony i przetestowany. Jak go zintegrowa? z istniej?c? infrastruktur??

Pod wzgl?dem technologicznym nie jest to skomplikowane. Model uczenia maszynowego jest przekszta?cany w us?ug? (np. REST) wykorzystuj?c? interfejs API, z kt�rym mo?e wsp�?pracowa? reszta systemu. Nast?pnie nale?y go przetestowa? i wdro?y? (np. jako container w platformie Docker), pod??czaj?c do ?r�de? danych i interfejsu u?ytkownika wspieraj?cego proces decyzyjny.

Z perspektywy zarz?dzania ryzykiem i weryfikacji sensownie jest jednocze?nie korzysta? z nowego i starego (je?li taki istnieje) systemu wykrywania nadu?y?, by si? upewni?, ?e dzia?aj? one w spos�b sp�jny. Opr�cz tego mo?na wdro?y? weryfikacj? przez cz?owieka, by ograniczy? ryzyko b??dnych decyzji w realnych warunkach, a tak?e usprawni? dzia?anie modeli poprzez dodatkowe uczenie nadzorowane.

O autorze:

Igor Kaufman, Head of Machine Learning /Data Science Practice, DataArt

Specjalizuje si? w projektowaniu i budowaniu rozwi?za? automatyzuj?cych procesy biznesowe przy u?yciu zaawansowanych technik analitycznych i transformacji cyfrowej.

Pasjonuje go innowacja technologiczna i lean engineering. Przed do??czeniem do DataArt w 2017 roku, Igor budowa? i zarz?dza? zespo?ami in?ynieryjnymi w r�?nych dziedzinach – od startup�w zajmuj?cych si? analiz? danych po lider�w Magic Quadrant firmy Gartner.

Krok 0. Przygotowanie danych

Krok 1. Uczenie pod nadzorem, czyli co mo?na wyci?gn?? z tego, co ju? wiemy?

Krok 2. Wykrywanie anomalii

Krok 3. Analiza szereg�w czasowych i limity dynamiczne

Krok 4. Integracja

O autorze:

Igor Kaufman, Head of Machine Learning /Data Science Practice, DataArt

Specjalizuje si? w projektowaniu i budowaniu rozwi?za? automatyzuj?cych procesy biznesowe przy u?yciu zaawansowanych technik analitycznych i transformacji cyfrowej.

Pasjonuje go innowacja technologiczna i lean engineering. Przed do??czeniem do DataArt w 2017 roku, Igor budowa? i zarz?dza? zespo?ami in?ynieryjnymi w r�?nych dziedzinach – od startup�w zajmuj?cych si? analiz? danych po lider�w Magic Quadrant firmy Gartner.

You Might Also Like

Szukanie niani w internecie – jak to dzia?a. Wiarygodne ?r�d?o do poszukiwa?

Rz?d powinien wyd?u?y? termin sk?adania zezna? podatkowych

Quiet quitting � 3 porady jak zapobiega? temu zjawisku w firmie

Facebook znowu gra nieczysto i przyznaje si? do tego