Home AI MLCommons i Hugging Face udružili snage kako bi objavili ogromnu govornu bazu podataka za AI istraživanje

MLCommons i Hugging Face udružili snage kako bi objavili ogromnu govornu bazu podataka za AI istraživanje

by Ivan Radojevic
MLCommons i Hugging Face udružili snage kako bi objavili ogromnu govornu bazu podataka za AI istraživanje

MLCommons, neprofitna radna grupa za sigurnost AI-a, udružila se sa platformom za razvoj AI-a Hugging Face kako bi objavila jednu od najvećih svetskih kolekcija javnih govora za istraživanje u oblasti AI-a.

Baza podataka, pod nazivom Unsupervised People’s Speech, sadrži više od milion sati audio zapisa na najmanje 89 jezika. MLCommons kaže da je motivisano željom da podrži istraživanje i razvoj u „različitim oblastima tehnologije govora“.

„Podrška širem istraživanju obrade prirodnog jezika za jezike osim engleskog pomaže da komunikacione tehnologije postanu dostupnije većem broju ljudi širom sveta“, napisala je organizacija u blog postu u četvrtak. „Očekujemo da će istraživačka zajednica imati nekoliko pravaca za dalji razvoj, naročito u oblastima poboljšanja modela govora za jezike sa malo resursa, unapređenja prepoznavanja govora kroz različite akcenta i dijalekte, kao i novih primena u sintezi govora.“

Ovo je zasigurno pohvalan cilj, ali AI baze podataka kao što je Unsupervised People’s Speech mogu nositi rizike za istraživače koji odluče da ih koriste.

Jedan od tih rizika je pristrasni podaci. Snimci u Unsupervised People’s Speech dolaze sa Archive.org, neprofitne organizacije poznate po svom alatu za arhiviranje web sajtova Wayback Machine. Pošto mnogi od doprinosa Archive.org-a dolaze od govornika engleskog jezika — i američkih — gotovo svi snimci u Unsupervised People’s Speech su na američkom engleskom jeziku, prema uputstvu na zvaničnoj stranici projekta.

MLCommons i Hugging Face udružili snage kako bi objavili ogromnu govornu bazu podataka za AI istraživanje 1

To znači da bi, bez pažljivog filtriranja, AI sistemi poput modela za prepoznavanje govora i sintezatore govora obučeni na Unsupervised People’s Speech mogli pokazivati iste predrasude. Na primer, mogli bi imati problema s transkripcijom engleskog jezika koji govore ljudi koji nisu izvorni govornici, ili bi mogli imati poteškoća u generisanju sintetičkih glasova na jezicima koji nisu engleski.

Unsupervised People’s Speech bi takođe mogao sadržavati snimke ljudi koji nisu bili svesni da se njihovi glasovi koriste u AI istraživačke svrhe — uključujući komercijalne aplikacije. Iako MLCommons tvrdi da su svi snimci u bazi podataka javno dostupni ili dostupni pod licencama Creative Commons, postoji mogućnost da su napravljene greške.

Prema analizi MIT-a, stotine javno dostupnih AI trening baza podataka nemaju informacije o licenci i sadrže greške. Zagovornici prava kreatora, uključujući Ed Newton-Rexa, CEO-a neprofitne organizacije Fairly Trained, navode da kreatori ne bi trebalo da budu obavezani da se „isključe“ iz AI baza podataka, jer bi to predstavljalo ogroman teret za te kreatore.

„Mnogi kreatori (npr. korisnici Squarespace-a) nemaju značajan način da se isključe“, napisao je Newton-Rex u postu na X prošlog juna. „Za kreatore koji mogu da se isključe, postoje brojne preklapajuće metode za isključivanje, koje su (1) neverovatno zbunjujuće i (2) dramatično nepotpune u svom obuhvatu. Čak i ako bi postojalo savršeno univerzalno isključivanje, bilo bi izuzetno nepravedno staviti teret isključivanja na kreatore, s obzirom na to da generativni AI koristi njihov rad kako bi konkurisao sa njima — mnogi jednostavno ne bi shvatili da mogu da se isključe.“

MLCommons tvrdi da je posvećen ažuriranju, održavanju i poboljšanju kvaliteta Unsupervised People’s Speech. Ali, s obzirom na potencijalne greške, programerima bi bilo mudro da postupaju sa velikim oprezom.

Možda će vam se svideti i