Iako živimo u vremenu izuzetnih inovacija u mašinskom učenju ubrzanom GPU-om, najnoviji istraživački radovi često (i istaknuto) sadrže algoritme koji su stari decenijama, u određenim slučajevima i 70 godina.
Neki bi mogli da tvrde da mnoge od ovih starijih metoda spadaju u tabor ‘statističke analize’, a ne u mašinsko učenje, i radije datiraju pojavu sektora samo do 1957. godine, sa pronalaskom Perceptron-a.
S obzirom na to u kojoj meri ovi stariji algoritmi podržavaju i upleteni su u najnovije trendove i razvoj koji privlači naslove u mašinskom učenju, to je sporan stav. Dakle, hajde da pogledamo neke od ‘klasičnih’ blokova koji podupiru najnovije inovacije, kao i neke novije naslove koji daju ranu ponudu za AI Kuću slavnih.
1: Transformers
Godine 2017. Google Research je vodio istraživačku saradnju koja je kulminirala u radu Attention Is All You Need. Rad je ocrtao novu arhitekturu koja je promovisala mehanizme pažnje od „cevovoda“ u koderu/dekoderu i rekurentnih mrežnih modela do centralne transformacione tehnologije same po sebi.
Pristup je nazvan Transformer i od tada je postao revolucionarna metodologija u obradi prirodnog jezika (NLP), pokrećući, između mnogih drugih primera, model autoregresije i AI poster-child GPT-3.
Transformers su elegantno rešili problem transdukcije sekvence, koja se naziva i ‘transformacija’, koja je zaokuplјena obradom ulaznih sekvenci u izlazne sekvence. Transformator takođe prima i upravlјa podacima na kontinuiran način, a ne u sekvencijalnim serijama, omogućavajući ‘upornost memorije’ za koju RNN arhitekture nisu dizajnirane.
Za razliku od rekurentnih neuronskih mreža (RNN) koje su počele da dominiraju istraživanjem ML-a u eri CUDA, arhitektura transformatora se takođe može lako paralelizovati, otvarajući put za produktivno adresiranje daleko većeg korpusa podataka od RNN-a.
Popularna upotreba
Transformers su osvojili maštu javnosti 2020. godine izdavanjem OpenAI-ovog GPT-3, koji može da se pohvali sa tada rekordnih 175 milijardi parametara. Ovo očigledno zapanjujuće dostignuće je na kraju zasenčeno kasnijim projektima, kao što je izdanje Microsoft-ovog Megatron-Turing NLG 530B 2021, koji (kao što ime sugeriše) ima preko 530 milijardi parametara.
Arhitektura transformatora je takođe prešla sa NLP-a na kompjutersku viziju, napajajući novu generaciju framework-ova za sintezu slika kao što su OpenAI-ev CLIP i DALL-E, koji koriste mapiranje domena tekst>slika da završe nepotpune slike i sintetizuju nove slike iz obučenih domena, među sve većim brojem povezanih aplikacija.
2: Generative Adversarial Networks (GANs)
Iako su transformatori stekli izvanrednu medijsku pokrivenost objavlјivanjem i usvajanjem GPT-3, Generativna adversarialna mreža (GAN) je postala prepoznatlјiv brend sam po sebi, i može da se na kraju pridruži deepfake-u kao glagolu.
Prvi put predložena 2014. godine i prvenstveno korišćena za sintezu slike, arhitektura generativne adversarijske mreže sastoji se od generatora i diskriminatora. Generator kruži kroz hilјade slika u skupu podataka, iterativno pokušavajući da ih rekonstruiše. Za svaki pokušaj, Diskriminator ocenjuje rad Generatora i šalјe ga nazad da radi bolјe, ali bez ikakvog uvida u način na koji je prethodna rekonstrukcija pogrešila.
To primorava Generatora da istražuje mnoštvo puteva, umesto da prati potencijalne slepe ulice koje bi imale za rezultat da mu je Diskriminator rekao gde ide po zlu. Kada se obuka završi, Generator ima detalјnu i sveobuhvatnu mapu odnosa između tačaka u skupu podataka.
Po analogiji, ovo je razlika između učenja jednog dosadnog putovanja do centra Londona ili mukotrpnog sticanja znanja.
Rezultat je kolekcija karakteristika visokog nivoa u latentnom prostoru obučenog modela. Semantički indikator za karakteristiku visokog nivoa može da bude ‘osoba’, dok spuštanje kroz specifičnost u vezi sa osobinom može da otkrije druge naučene karakteristike, kao što su ‘muško’ i ‘žensko’. Na nižim nivoima pod-karakteristike mogu da se razbiju na, ‘plavuša’, ‘Belac’, itd.
Zapetlјanost je primetan problem u latentnom prostoru GAN-ova i framework-ova enkodera/dekodera: da li je osmeh na GAN generisanom ženskom licu upletena karakteristika njenog ‘identiteta’ u latentnom prostoru ili je to paralelna grana?
Proteklih nekoliko godina donelo je sve veći broj novih istraživačkih inicijativa u ovom pogledu, što je možda otvorilo put za editovanje na nivou karakteristika, u Photoshop stilu za latentni prostor GAN-a, ali u ovom trenutku mnoge transformacije su efektivno ‘ sve ili ništa’ paketi. Primetno je da NVIDIA-ino EditGAN izdanje krajem 2021. postiže visok nivo interpretabilnosti u latentnom prostoru korišćenjem maski semantičke segmentacije.
Popularna upotreba
Pored njihovog (zapravo prilično ograničenog) učešća u popularnim deepfake video zapisima, GAN-ovi usmereni na sliku/video su se umnožili u poslednje četiri godine, oduševlјavajući istraživače i javnost. Održavanje koraka sa vrtoglavom brzinom i učestalošću novih izdanja je izazov, iako GitHub spremište Awesome GAN Applications ima za cilј da pruži sveobuhvatnu listu.
Generativne adversarijske mreže mogu u teoriji da izvode karakteristike iz bilo kog dobro uokvirenog domena, uklјučujući tekst.
3: SVM
Nastao 1963. godine, Support Vector Machine (SVM) je osnovni algoritam koji se često pojavlјuje u novim istraživanjima. Pod SVM-om, vektori mapiraju relativnu dispoziciju tačaka podataka u skupu podataka, dok vektori podrške ocrtavaju granice između različitih grupa, karakteristika ili osobina.
Izvedena granica se naziva hiperravan.
Na niskim nivoima karakteristika, SVM je dvodimenzionalan (slika iznad), ali tamo gde postoji veći broj grupa ili tipova, on postaje trodimenzionalan.
Popularna upotreba
Pošto vektorske mašine za podršku mogu efikasno i agnostički da se pozabave visokodimenzionalnim podacima mnogih vrsta, one se široko pojavlјuju u različitim sektorima mašinskog učenja, uklјučujući otkrivanje dubokog lažiranja, klasifikaciju slika, klasifikaciju govora mržnje, analizu DNK i predviđanje strukture stanovništva, između mnogih drugih.
4: K-Means Clustering
Grupisanje uopšte je pristup učenju bez nadzora koji nastoji da kategoriše tačke podataka kroz procenu gustine, stvarajući mapu distribucije podataka koji se proučavaju.
K-Means Clustering božanskih segmenata, grupa i zajednica u podacima.
K-Means Clustering je postao najpopularnija primena ovog pristupa, pretvarajući tačke podataka u posebne ‘K grupe’, koje mogu da ukazuju na demografske sektore, online zajednice ili bilo koju drugu moguću tajnu agregaciju koja čeka da bude otkrivena u neobrađenim statističkim podacima.
Klasteri se formiraju u K-Means analizi. Izvor: https://www.geeksforgeeks.org/ml-determine-the-optimal-value-of-k-in-k-means-clustering/
Sama vrednost K je determinantni faktor u korisnosti procesa i u uspostavlјanju optimalne vrednosti za klaster. U početku, vrednost K se dodelјuje nasumično, a njene karakteristike i vektorske karakteristike upoređuju se sa susedima. Oni susedi koji najviše liče na tačku podataka sa nasumično dodelјenom vrednošću dodelјuju se njegovom klasteru iterativno sve dok podaci ne daju sva grupisanja koja proces dozvolјava.
Grafikon za kvadratnu grešku, ili ‘trošak’ različitih vrednosti među klasterima će otkriti tačku lakta za podatke:
‘Tačka lakta’ na klaster grafikonu.
Tačka lakta je po konceptu slična načinu na koji se gubitak izravnava do opadajućih prinosa na kraju sesije obuke za skup podataka. Predstavlјa tačku u kojoj nikakve dalјe razlike između grupa neće postati očigledne, što ukazuje na trenutak da se pređe na sledeće faze u cevovodu podataka, ili da se raportiraju nalazi.
Popularna upotreba
K-Means Clustering, iz očiglednih razloga, je primarna tehnologija u analizi kupaca, pošto nudi jasnu i objašnjivu metodologiju za prevođenje velikih količina komercijalnih zapisa u demografske uvide i „potencijalne klijente“.
Izvan ove aplikacije, K-Means Clustering se takođe koristi za predviđanje klizišta, segmentaciju medicinske slike, sintezu slike sa GAN-ovima, klasifikaciju dokumenata i planiranje grada, između mnogih drugih potencijalnih i stvarnih upotreba.
5: Random Forest
Random Forest je metoda učenja ansambla koja usrednjuje rezultat iz niza stabala odlučivanja da bi se uspostavilo opšte predviđanje ishoda.
Ako ste ga istraživali čak i onoliko malo koliko ste gledali trilogiju Back to the Future, samo stablo odlučivanja je prilično lako konceptualizovati: pred vama se nalazi niz puteva, a svaki put se grana do novog ishoda koji zauzvrat sadrži dalјe moguće puteve.
U učenju sa pojačanjem, možete da se povučete sa puta i počnete ponovo iz ranijeg stava, dok se stabla odlučivanja obavezuju na njihova putovanja.
Stoga je algoritam Random Forest u suštini klađenje na širenje za odluke. Algoritam se naziva ‘slučajnim’ jer pravi ad hoc selekcije i zapažanja da bi razumeo srednji zbir rezultata iz niza stabla odluka.
Pošto uzima u obzir mnoštvo faktora, Random Forest pristup može da bude teže da se pretvori u smislene grafikone nego stablo odlučivanja, ali će verovatno biti znatno produktivniji.
Stabla odlučivanja su podložna preopterećenju, gde su dobijeni rezultati specifični za podatke i nije verovatno da će se generalizovati. Proizvolјna selekcija tačaka podataka Random Forest-a bori se protiv ove tendencije, probijajući se do smislenih i korisnih reprezentativnih trendova u podacima.
Regresija stabla odlučivanja.
Popularna upotreba
Kao i kod mnogih algoritama na ovoj listi, Random Forest obično funkcioniše kao „rani“ sorter i filter podataka, i kao takav se dosledno pojavlјuje u novim istraživačkim radovima. Neki primeri Random Forest upotrebe uklјučuju sintezu slike magnetne rezonance, predviđanje cene bitcoin-a, segmentaciju popisa, klasifikaciju teksta i otkrivanje prevare sa kreditnim karticama.
Pošto je Random Forest algoritam niskog nivoa u arhitekturi mašinskog učenja, on takođe može da doprinese performansama drugih metoda niskog nivoa, kao i algoritama vizuelizacije, uklјučujući induktivno grupisanje, transformacije karakteristika, klasifikaciju tekstualnih dokumenata koristeći retke karakteristike i prikazivanje cevovoda.
6: Naive Bayes
Zajedno sa procenom gustine, Naive Bayes klasifikator je moćan, ali relativno lagan algoritam sposoban da proceni verovatnoće na osnovu izračunatih karakteristika podataka.
Odnosi karakteristika u Naive Bayes klasifikatoru.
Termin ‘naivan’ se odnosi na pretpostavku u Bayes-ovoj teoremi da karakteristike nisu povezane, poznatu kao uslovna nezavisnost. Ako prihvatite ovo stanovište, hodanje i pričanje kao patka nisu dovolјni da se utvrdi da imamo posla sa patkom, a nijedna ‘očigledna’ pretpostavka se ne usvaja prerano.
Ovaj nivo akademske i istraživačke strogosti bio bi preveliki tamo gde je dostupan ‘zdrav razum’, ali je vredan standard kada se prođe kroz mnoge nejasnoće i potencijalno nepovezane korelacije koje mogu da postoje u skupu podataka za mašinsko učenje.
U originalnoj Bayes-ovskoj mreži, karakteristike podležu funkcijama ocenjivanja, uklјučujući minimalnu dužinu opisa i Bayes-ovsko bodovanje, što može da nametne ograničenja na podatke u smislu procenjenih veza pronađenih između tačaka podataka i smera u kome te veze teku.
Naive Bayes klasifikator, naprotiv, funkcioniše tako što pretpostavlјa da su karakteristike datog objekta nezavisne, a zatim koristi Bayes-ovu teoremu za izračunavanje verovatnoće datog objekta, na osnovu njegovih karakteristika.
Popularna upotreba
Naive Bayes filteri su dobro zastuplјeni u predviđanju bolesti i kategorizaciji dokumenata, filtriranju neželјene pošte, klasifikaciji osećanja, sistemima preporuka i otkrivanju prevara, između ostalih aplikacija.
7: K- Nearest Neighbors (KNN)
Prvi put predložen od strane Škola vazduhoplovne medicine američkog vazduhoplovstva 1951. godine, i morajući da se prilagodi najsavremenijem računarskom hardveru iz sredine 20. veka, K-Nearest Neighbours (KNN) je lean algoritam koji je još uvek istaknut u akademskim radovima i inicijativama za istraživanje mašinskog učenja privatnog sektora.
KNN je nazvan „lenji učenik“, pošto iscrpno skenira skup podataka kako bi procenio odnose između tačaka podataka, umesto da zahteva obuku punopravnog modela mašinskog učenja.
KNN grupiranje.
Iako je KNN arhitektonski vitak, njegov sistematski pristup postavlјa značajne zahteve za operacije čitanja/pisanja, a njegova upotreba u veoma velikim skupovima podataka može da bude problematična bez pomoćnih tehnologija kao što je analiza glavnih komponenti (PCA), koja može da transformiše složene skupove podataka velikog obima. u reprezentativne grupe koje KNN može da pređe uz manje napora.
Nedavna studija je procenila efikasnost i ekonomičnost brojnih algoritama kojima je zadatak bio da predvide da li će zaposleni napustiti kompaniju, otkrivši da je sedmogodišnji KNN ostao superiorniji od modernijih kandidata u smislu tačnosti i efektivnosti predviđanja.
Popularna upotreba
Uprkos njegovoj popularnoj jednostavnosti koncepta i izvođenja, KNN nije zaglavlјen u 1950-im – prilagođen je pristupu koji je više fokusiran na DNN u predlogu Pensilvanskog državnog univerziteta iz 2018. i ostaje centralni proces u ranoj fazi (ili analitički alat naknadne obrade) u mnogim daleko složenijim framework-ovima mašinskog učenja.
U različitim konfiguracijama, KNN je korišćen ili za online verifikaciju potpisa, klasifikaciju slika, rudarenje teksta, predviđanje useva i prepoznavanje lica, pored drugih aplikacija i inkorporacija.
Sistem za prepoznavanje lica zasnovan na KNN-u u obuci.
8: Markov Decision Process (MDP)
Matematički framework koji je uveo američki matematičar Richard Bellman 1957. godine, Markov Decision Process (MDP) je jedan od najosnovnijih blokova arhitekture učenja sa pojačanjem. Konceptualni algoritam sam po sebi, prilagođen je velikom broju drugih algoritama i često se ponavlјa u trenutnom broju AI/ML istraživanja.
MDP istražuje okruženje podataka koristeći njegovu procenu njegovog trenutnog stanja (tj. „gde se“ nalazi u podacima) da bi odlučio koji čvor podataka će sledeći istražiti.
Osnovni Markov Decision Process će dati prednost kratkoročnoj prednosti u odnosu na poželјnije dugoročne cilјeve. Iz tog razloga, on je obično ugrađen u kontekst sveobuhvatnije arhitekture politike u učenju uz pomoć i često je podložan ograničavajućim faktorima kao što su diskontovana nagrada i druge modifikujuće varijable okruženja koje će ga sprečiti da požuri ka neposrednom cilјu bez razmatranja. šireg želјenog ishoda.
Popularna upotreba
MDP-ov koncept niskog nivoa je široko rasprostranjen kako u istraživanju tako iu aktivnoj primeni mašinskog učenja. Predložen je za IoT bezbednosne odbrambene sisteme, lov ribe i predviđanje tržišta.
Pored očigledne primenlјivosti na šah i druge striktno sekvencijalne igre, MDP je takođe prirodan kandidat za proceduralni trening robotskih sistema.
Globalni planer koji koristi Markov Decision Process – Mobile Industrial Robotics
9: Term Frequency-Inverse Document Frequency
Term Frequency (TF) deli broj pojavlјivanja reči u dokumentu sa ukupnim brojem reči u tom dokumentu. Dakle, reč pečat koja se pojavlјuje jednom u članku od hilјadu reči ima frekvenciju termina od 0,001. Sam po sebi, TF je u velikoj meri beskoristan kao indikator važnosti termina, zbog činjenice da besmisleni članci (kao što su , i , , i to ) dominiraju.
Da bi se dobila značajna vrednost za termin, Inverse Document Frequency (IDF) izračunava TF reči u više dokumenata u skupu podataka, dodelјujući nisku ocenu veoma visokofrekventnim zaustavnim rečima, kao što su članci. Dobijeni vektori karakteristika normalizovani su na cele vrednosti, pri čemu je svakoj reči dodelјena odgovarajuća težina.
TF-IDF ponderiše relevantnost termina na osnovu učestalosti u brojnim dokumentima, pri čemu je ređa pojava indikator istaknutosti.
Iako ovaj pristup sprečava da se semantički važne reči izgube kao izvanredne, invertovanje težine frekvencije ne znači automatski da niskofrekventni termin nije izuzetak, jer su neke stvari retke i bezvredne. Zbog toga će termin niske frekvencije morati da dokaže njegovu vrednost u širem arhitektonskom kontekstu predstavlјanjem (čak i na niskoj frekvenciji po dokumentu) u nizu dokumenata u skupu podataka.
Uprkos njegovoj starosti, TF-IDF je moćan i popularan metod za početno filtriranje prolaza u okviru za obradu prirodnog jezika.
Popularna upotreba
Pošto je TF-IDF odigrao barem neku ulogu u razvoju Google-ovog uglavnom okultnog PageRank algoritma u poslednjih dvadeset godina, postao je veoma široko prihvaćen kao manipulativna SEO taktika, uprkos tome što je John Mueller 2019. godine odbacio njegov značaj za rezultate pretrage.
Zbog tajnosti oko PageRank-a, nema jasnih dokaza da TF-IDF trenutno nije efikasna taktika za uspon na Google-ovoj rang listi. Zapalјiva diskusija među IT profesionalcima u poslednje vreme ukazuje na popularno shvatanje, ispravno ili ne, da zloupotreba termina i dalјe može da dovede do pobolјšanja SEO plasmana (iako dodatne optužbe za zloupotrebu monopola i prekomerno oglašavanje zamaglјuju granice ove teorije).
10: Stochastic Gradient Descent
Stochastic Gradient Descent (SGD) je sve popularniji metod za optimizaciju obuke modela mašinskog učenja.
Sam Gradient Descent je metod optimizacije i naknadne kvantifikacije pobolјšanja koje model pravi tokom treninga.
U tom smislu, ‘gradient’ označava nagib naniže, gde najviša tačka ‘brda’, sa leve strane, predstavlјa početak procesa obuke. U ovoj fazi model još nije ni jednom video sve podatke i nije naučio dovolјno o odnosima između podataka da bi proizveo efektivne transformacije.
Gradijentno spuštanje na sesiji FaceSwap treninga. Vidimo da je trening u drugom poluvremenu bio na platou neko vreme, ali se na kraju vratio niz gradijent ka prihvatlјivoj konvergenciji.
Najniža tačka, na desnoj strani, predstavlјa konvergenciju (tačka u kojoj je model efikasan koliko će ikada biti pod nametnutim ograničenjima i podešavanjima).
Gradient deluje kao zapis i prediktor za disparitet između stope greške (koliko tačno model trenutno mapira odnose podataka) i pondera (podešavanja koja utiču na način na koji će model učiti).
Ovaj zapis napretka može da se koristi za informisanje o rasporedu brzine učenja, automatskom procesu koji govori arhitekturi da postane detalјnija i preciznija kako se rani nejasni detalјi transformišu u jasne odnose i mapiranja. U stvari, gubitak gradijenta pruža pravovremenu mapu gde bi trening trebalo da ide dalјe i kako bi trebalo da se nastavi.
Inovacija Stochastic Gradient Descent-a je u tome što ažurira parametre modela na svakom primeru obuke po iteraciji, što generalno ubrzava put do konvergencije. Zbog pojave skupova podataka u hiperskali poslednjih godina, SGD je u poslednje vreme postao popularan kao jedan od mogućih metoda za rešavanje logističkih problema koji su usledili.
S druge strane, SGD ima negativne implikacije na skaliranje karakteristika i može da zahteva više iteracija da bi se postigao isti rezultat, zahtevajući dodatno planiranje i dodatne parametre, u poređenju sa redovnim Gradient Descent-om.
Popularna upotreba
Zbog njegove konfigurabilnosti i uprkos njegovim nedostacima, SGD je postao najpopularniji algoritam optimizacije za prilagođavanje neuronskih mreža. Jedna konfiguracija SGD-a koja postaje dominantna u novim istraživačkim AI/ML radovima je izbor Adaptive Moment Estimation (ADAM, uveden 2015.) optimizatora.
ADAM dinamički prilagođava brzinu učenja za svaki parametar („prilagodlјiva stopa učenja“), i ugrađuje rezultate iz prethodnih ažuriranja u narednu konfiguraciju („momentum“). Pored toga, može da se konfiguriše da koristi kasnije inovacije, kao što je Nesterov Momentum.
Međutim, neki tvrde da upotreba impulsa takođe može da ubrza ADAM (i slične algoritme) do suboptimalnog zaklјučka. Kao i kod većine problema u sektoru istraživanja mašinskog učenja, SGD je rad u toku.