Stanfordi Interneti-vaatluskeskuse (SIO) uurimine tuvastas hiljuti avatud andmekogus LAION-5B enam kui tuhat pilti laste seksuaalsest kuritarvitamisest, mida kasutati ka populaarsete tehisintellekti tekstist pildiks genereerimise mudelite, nagu Stable Diffusion, koolitamiseks.
SIO aruanne koostöös mittetulundusliku laste veebiohutuse grupiga Thorn leidis, et kiired edusammud generatiivses masinõppes aitavad luua ka väga realistlikke pilte, mis kujutavad laste seksuaalset ärakasutamist, kasutades avatud lähtekoodiga tehisintellekti kujutiste genereerimise mudeleid.
Uuring näitas, et selliseid pilte sisaldas avalik andmekogum LAION-5B. Nagu enamik teisi suuri andmebaase, mille põhjal tehisintellekti koolitatakse, oli ka see kokku kogutud paljudest veebiallikatest, sealhulgas sotsiaalmeediast ja populaarsetest täiskasvanutele mõeldud veebisaitidest.
Tuvastatud materjali eemaldamine on andmebaasi hoidjal praegu pooleli ning andmekogu võeti ajutiselt avalikust kasutusest maha, teadlased aga edastasid piltide allikad USA kadunud ja ärakasutatud laste riiklikule keskusele.
Kuid see pole esimene kord, kui LAIONi pildiandmed satuvad kriitika alla, kirjutab Venture Beat. Juba 2021. aasta oktoobris avaldas kognitiivteadlane Abeba Birhane artikli «Multimodaalsed andmekogumid: misogüünia, pornograafia ja pahaloomulised stereotüübid», milles uuriti varasemat pildiandmestikku LAION-400M. Teadlane avastas, et see andmekogu sisaldas samuti pilte ja tekstipaare vägistamise, pornograafia, pahaloomuliste stereotüüpide, rassistlike ja etniliste solvangute ning muu sellise sisu kohta, millest tehisintellekt õppust võtab.
«Kuna kasutajad ei olnud enam hilisemate, rohkem filtreeritud versioonidega rahul, ongi vanem Stable Diffusion 1.5 endiselt kõige populaarsem mudel.»