Većina fokusa u generativnoj veštačkoj inteligenciji bila je na tekstualnim interfejsima za generisanje teksta, slika i drugih sadržaja. Sledeći talas čini se da će biti glas, a dolazi brzo. U poslednjem razvoju, Google je danas najavio da će dodati Chirp 3 — svoje modele za pretvaranje govora u tekst i HD tekst-to-speech — na svoju Vertex AI razvojnu platformu počevši od sledeće nedelje.
Prošle nedelje, Google je tiho najavio da će Chirp 3 uvesti 8 novih glasova za 31 jezik. Upotreba platforme uključuje izradu glasovnih asistenata, kreiranje audiobooks-a, razvoj podrške i voice-over-a za video sadržaj. Ova vest je najavljena na događaju u Google-ovim DeepMind kancelarijama u Londonu.
Ovaj korak dolazi u isto vreme kada i drugi značajno napreduju u radu sa glasovnom AI tehnologijom. Prošle nedelje, startup Sesame — koji stoji iza viralnih, veoma realističnih glasovnih aplikacija „Maya“ i „Miles“ — najavio je lansiranje svog modela za programere koji žele da kreiraju prilagođene aplikacije i usluge bazirane na ovoj tehnologiji.
Iako će Chirp 3 imati ograničenja u upotrebi kako bi se sprečila zloupotreba, Thomas Kurian, CEO Google Clouda, izjavio je na današnjem događaju: „Trenutno radimo na nekim od tih stvari sa našim timom za bezbednost.“
Među značajnim startup-ovima je i ElevenLabs, koji je prikupio stotine miliona dolara kako bi proširio svoj rad u AI glasovnim uslugama.
Ova vest donosi Chirp 3 u istu grupu sa novijim verzijama Google-ovog vodećeg LLM-a, Gemini, koji se trenutno testira, kao i sa njegovim modelom za generisanje slika, Imagen, i skupim alatom za generisanje videa Veo 2.
Ostaje da se potvrdi da li će ono što Google lansira sa Chirp 3 biti toliko „realistično“ kao neki drugi AI napori u stvaranju „ljudskih“ glasova (rad Sesame-a se izdvaja posebno). Međutim, kako je naglasio Demis Hassabis, CEO DeepMind-a, ovo je maraton, a ne trka na kratke staze.

„U bliskoj budućnosti… ideja da je [AI] čarobni metak za sve u narednih nekoliko godina, ne vidim da će se to dogoditi još uvek. Mislim da smo još uvek prilično udaljeni od nečega poput AGI-a“, rekao je. „To će promeniti stvari… u narednoj deceniji, dakle, srednjoročno i dugoročno. To je jedan od onih interesantnih trenutaka u vremenu.“
Google je lansirao Vertex AI još 2021. godine kao platformu za programere za izradu usluga mašinskog učenja u oblaku. To je bilo, naravno, pre nego što je došlo do eksplozije interesovanja za AI, a posebno generativni AI, koja je usledila nakon lansiranja OpenAI-ovih GPT usluga.
Od tada, kompanija je sve više ulagala u Vertex AI, delimično zato što pokušava da sustigne druge kompanije poput Microsoft-a i Amazon-a, koji takođe razvijaju generativne AI alate za programere. Pored izrade generativnog AI-a na vrhu Gemini, programeri mogu koristiti Vertex AI za klasifikaciju podataka, obuku modela i postavljanje modela za proizvodnju. Biće interesantno da li će proširiti svoj ograničeni ekosistem na modele koji nisu samo oni koje je razvila sama Google.
Google gradi „Chirp“ glasovne usluge već godinama, počevši od korišćenja ovog imena kao kodnog naziva za svoje rane napore da se takmiči sa Amazonovom Alexa uslugom.



