Kineski AI lab DeepSeek možda privlači najveću pažnju tehnološke industrije ove nedelje. Međutim, jedan od njegovih najvećih domaćih rivala, Alibaba, ne sedi mirno.
Alibaba tim Qwen je u ponedeljak predstavio novu porodicu AI modela, Qwen2.5-VL, koji mogu da izvršavaju niz zadataka analize teksta i slike. Ovi modeli mogu da analiziraju fajlove, razumeju video sadržaj, broje objekte na slikama, kao i da kontrolišu računar — slično modelu koji pokreće OpenAI-ov nedavno lansirani Operator.
Prema benchmark testovima tima Qwen, najbolji model Qwen2.5-VL nadmašuje OpenAI-ov GPT-4o, Anthropic-ov Claude 3.5 Sonnet i Google-ov Gemini 2.0 Flash u različitim evaluacijama razumevanja videa, matematike, analize dokumenata i odgovaranja na pitanja.
Qwen2.5-VL, koji je dostupan za testiranje u Alibaba Qwen Chat aplikaciji i za preuzimanje sa AI razvojne platforme Hugging Face, može da analizira grafikone i dijagrame, izvlači podatke iz skeniranih faktura i obrazaca, kao i da „razume“ višesatne video sadržaje, tvrdi Qwen tim. Qwen2.5-VL takođe može da prepozna „likove iz filmova i TV serija, kao i širok spektar proizvoda“, što sugeriše da su modeli možda delimično trenirani na zaštićenim autorskim pravima.
Kao AI razvijen od strane kineske kompanije, Qwen2.5-VL ima određena ograničenja u vezi sa temama o kojima može da diskutuje — bar u Qwen Chat-u. Kada sam pitao najmoćniji Qwen2.5-VL model, Qwen2.5-VL-72B, o „greškama Xi Jinpinga“, Qwen Chat je prikazao poruku o grešci.
Kineski regulator interneta benchmark-uje mnoge modele razvijene u zemlji kako bi osigurao da njihove odgovore „izražavaju osnovne socijalističke vrednosti“. Mnogi kineski AI sistemi odbijaju da odgovore na teme koje bi mogle izazvati negodovanje regulatora, poput autonomije Tajvana.
Jedna od interesantnijih osobina Qwen2.5-VL je njegova sposobnost da interaguje sa softverom — kako na računarima, tako i na mobilnim uređajima. Video koji je na X postavio Philipp Schmid, tehnički lider u Hugging Face-u, pokazuje Qwen2.5-VL kako pokreće Booking.com aplikaciju za Android i rezerviše let od Chongqinga do Pekinga.
U videu ispod, Qwen2.5-VL model kontroliše aplikacije na Linux desktopu — ali ne čini mnogo više od prebacivanja između kartica. Možda je to i značajno, jer Qwen-ovo benchmark testiranje pokazuje da Qwen2.5-VL loše prolazi na OSWorld-u, benchmarku koji pokušava da oponaša stvarno računarno okruženje.
Dva manja, manje sofisticirana modela u seriji Qwen2.5-VL, Qwen2.5-VL-3B i Qwen2.5-VL-7B, dostupna su pod permisivnom licencom. Međutim, vodeći model Qwen2.5-VL-72B je pod Alibaba-inom prilagođenom licencom, koja zahteva da kompanije i programeri sa više od 100 miliona mesečnih aktivnih korisnika zatraže dozvolu od Qwen/Alibaba pre nego što model komercijalno primene.