Advokati The NY Times-a i Daily News-a, koji tuže OpenAI zbog navodnog korišćenja njihovih radova za obuku AI modela bez dozvole, tvrde da su inženjeri OpenAI-a slučajno obrisali podatke potencijalno relevantne za slučaj.
Ranije ove jeseni, OpenAI je pristao da obezbedi dve virtuelne mašine kako bi pravni zastupnici The Times-a i Daily News-a mogli da pretraže sadržaje njihovih autorskih dela u AI setovima za obuku. (Virtuelne mašine su softverski zasnovani računari koji funkcionišu unutar operativnog sistema drugog računara, često korišćeni za testiranje, pravljenje rezervnih kopija podataka i pokretanje aplikacija.) Prema pismu advokata izdavača, oni i angažovani eksperti proveli su preko 150 sati, počevši od 1. novembra, pretražujući OpenAI-ove podatke za obuku.
Međutim, 14. novembra, inženjeri OpenAI-a izbrisali su sve podatke pretrage sa jedne od virtuelnih mašina, prema navodima iz pisma koje je sredinom nedelje podneto Okružnom sudu SAD za Južni distrikt Njujorka.
OpenAI je pokušao da povrati podatke i uglavnom je bio uspešan. Ipak, struktura foldera i nazivi fajlova su “nepovratno” izgubljeni, što znači da povraćeni podaci “ne mogu biti korišćeni za utvrđivanje gde su članci tužilaca kopirani i korišćeni za izradu [OpenAI-ovih] modela,” navodi se u pismu.
“Tužitelji su bili primorani da rekonstruišu svoj rad od nule, koristeći značajne ljudske resurse i vreme procesiranja računara,” napisali su pravni zastupnici The New York Times-a i Daily News-a. “Tužitelji su tek juče saznali da su povraćeni podaci neupotrebljivi i da se cela nedelja rada njihovih eksperata i advokata mora ponovo odraditi, zbog čega je ovo dopunsko pismo podneto danas.”
Iako zastupnici tužilaca jasno navode da nemaju razloga da veruju da je brisanje podataka bilo namerno, tvrde da ovaj incident naglašava kako je OpenAI “u najboljoj poziciji da pretraži sopstvene dataset-ove” u potrazi za potencijalno spornim sadržajem koristeći sopstvene alate.
Portparol OpenAI-a odbio je da komentariše.
U ovom i sličnim slučajevima, OpenAI je tvrdio da je obuka modela korišćenjem javno dostupnih podataka — uključujući članke iz The New York Times-a i Daily News-a — u okviru “fer upotrebe”. Drugim rečima, prilikom kreiranja modela kao što je GPT-4, koji “uči” iz milijardi primera e-knjiga, eseja i drugih materijala kako bi generisao tekst koji zvuči ljudski, OpenAI smatra da nije obavezan da licencira ili na drugi način plaća za te primere — čak iako zarađuje na tim modelima.
Ipak, OpenAI je sklopio ugovore o licenciranju sa sve većim brojem novih izdavača, uključujući Associated Press, vlasnika Business Insider-a Axel Springer-a, Financial Times, matičnu kompaniju People Dotdash Meredith, i News Corp. OpenAI je odbio da objavi uslove ovih ugovora, ali jedan partner, Dotdash, navodno prima najmanje 16 miliona dolara godišnje.
OpenAI nije potvrdio niti demantovao da je obučavao svoje AI sisteme koristeći određena autorska dela bez dozvole.