Global: Sistemele majore de AI generativă sunt alimentate de cantități enorme de date colectate prin încălcări masive ale vieții private

Companiile extrag cantități uriașe de date online prin practici ilegale de web scraping pentru a-și dezvolta produsele de AI generativă, într-un mod care permite o încălcare masivă a vieții private, ceea ce face ca aceste sisteme să fie ilegale încă din faza de proiectare, a afirmat astăzi Amnesty International într-un nou comunicat.

Raportul Unlawful by Design: Exposing the Human Rights Costs of Generative AI documentează riscurile grave asociate colectării și procesării masive de date utilizate pentru dezvoltarea și antrenarea acestor sisteme, inclusiv încălcări ale dreptului la viață privată încă din faza de concepere, precum și consecințe negative asupra mediului și comunităților marginalizate istoric.

„Companiile din întreaga lume furnizează produse de AI generativă sub pretextul eficienței și al sofisticării, dar, în realitate, aceste sisteme perpetuează încălcări masive ale vieții private prin colectarea ilegală de date de pe internet: un proces automatizat de extragere a datelor de pe site-uri web, inclusiv a datelor cu caracter personal, cum ar fi imagini și activitatea de pe rețelele de socializare, pentru a antrena modelele de AI”, a declarat Likhita Banerji, șefa Laboratorului de responsabilitate algoritmică al Amnesty International.

„Fluxul datelor de tip extractiv, alegerile de proiectare inerente făcute de companiile din domeniul tehnologic și lanțurile de aprovizionare bazate pe exploatare, utilizate pentru construirea sistemelor de AI generativă, au dat naștere unui model de dezvoltare tehnologică care prezintă riscul unui abuz în masă al drepturilor omului.”

Amnesty International a cercetat modelele care stau la baza unora dintre cele mai populare instrumente generative de AI independente disponibile publicului, inclusiv GPT-3 de la OpenAI, Gemini de la Google, Llama de la Meta, DeepSeek și instrumentele de la Midjourney și Stable Diffusion.

Astfel de sisteme funcționează prin colectarea informațiilor din miliarde de postări și imagini publice de pe internet, de multe ori fără acordul clar al persoanelor care apar în ele sau al celor care le-au publicat. Acest lucru nu numai că încalcă principiul „confidențialității prin proiectare”, ci, pe măsură ce seturile de date care alimentează modelele de AI se extind, prezența conținutului instigator la ură și discriminatoriu în rezultatele acestora se amplifică, alături de stereotipurile și prejudecățile negative, în special pe criterii rasiale și de gen.

Aceste practici pot fi schimbate. Trebuie să punem sub semnul întrebării modul în care companiile dezvoltă sistemele de AI generativă, folosind pentru antrenare date, inclusiv date personale, colectate fără acordul oamenilor și la scară foarte mare.”

Likhita Banerji, șefa Laboratorului de responsabilitate algoritmică al Amnesty International

Prejudecățile rasiale, de gen și culturale sunt caracteristici recurente ale sistemelor de AI generativă, fiind rezultatul datelor de antrenare preluate în mare parte de pe internet și, prin urmare, contaminate cu prejudecăți din lumea reală care afectează comunitățile marginalizate de-a lungul istoriei. În plus, sistemele de inteligență artificială generativă pot pune în pericol dreptul la libertatea de gândire, deoarece sunt capabile să influențeze modul în care utilizatorii gândesc și să modeleze convingerile personale prin sugestii predictive. Acest risc este și mai mare în cazul modelelor de mari dimensiuni, care se bazează pe cantități foarte mari de date pentru antrenare.

„Aceste practici pot fi schimbate. Trebuie să punem sub semnul întrebării modul în care companiile dezvoltă sistemele de AI generativă, folosind pentru antrenare date, inclusiv date personale, colectate fără acordul oamenilor și la scară foarte mare”, a declarat Likhita Banerji.

„Aceasta este una dintre cele mai grave practici ale companiilor din domeniul inteligenței artificiale, care operează fără a respecta drepturile omului, iar situația trebuie abordată de urgență. O altă direcție de dezvoltare a tehnologiei este posibilă dacă autoritățile intervin rapid pentru a corecta acest curs”, a declarat Likhita Banerji.

Costuri semnificative pentru mediu

Pe măsură ce amploarea și ritmul de dezvoltare au crescut în cadrul companiilor din domeniul AI generative, au crescut și cerințele de infrastructură precum și costurile de mediu asociate.

Nevoile de procesare sporite ale modelelor de dimensiuni mai mari necesită cipuri cu un consum energetic mai ridicat, centre de date mai mari și, în consecință, mai multă energie și apă pentru funcționarea acestora. Producția de IA generativă are adesea un impact negativ asupra comunităților marginalizate de-a lungul istoriei, întrucât terenurile și resursele care aparțin acestor comunități sunt exploatate pentru construirea centrelor de date și pentru satisfacerea cerințelor de procesare.

Raportul de sustenabilitate al Google din 2024 a evidențiat o creștere uluitoare de 48% a emisiilor de gaze cu efect de seră ale companiei începând cu 2019, creștere atribuită emisiilor generate de centrele de date și de lanțul de aprovizionare. În mod similar, emisiile Microsoft au crescut cu 29% între 2020 și 2024, creștere atribuită centrelor de date care desfășoară procese bazate pe inteligență artificială.

Utilizarea intensivă a resurselor în producția de inteligență artificială generativă a determinat comunitățile din Cerrillos (Chile), Querétaro (Mexic) și Arizona (Statele Unite ale Americii) să se opună amplasării centrelor de date în zone deja grav afectate de secetă și de penuria de energie electrică.

În cadrul cercetării sale, Amnesty International a trimis o scrisoare companiilor Google, OpenAI, Meta, Stability AI, Midjourney și DeepSeek, oferindu-le posibilitatea de a răspunde concluziilor raportului. Aceste concluzii arată că modelele lor sunt construite pe baza unor practici ilegale de colectare a datelor de pe internet, alături de alte numeroase probleme legate de drepturile omului.

Amnesty International a adresat, de asemenea, scrisori către Intel și VMware, referindu-se în mod specific la riscurile de discriminare, precum și către Google, Microsoft și Amazon, cu privire la efectele negative asupra mediului asociate sistemelor lor de AI generativă și infrastructurilor aferente. La momentul publicării, doar Microsoft, Amazon, Intel, OpenAI și Meta au răspuns organizației Amnesty International. Un rezumat al răspunsurilor acestora este inclus în documentul informativ.

Amnesty International cere statelor să interzică sistemele autonome de AI generativă dezvoltate prin practici ilegale de web scraping, adică prin colectarea în masă a datelor de antrenare de pe internet. Companiile trebuie să oprească imediat colectarea ilegală și fără consimțământ a datelor personale prin web scraping pentru antrenarea sistemelor de AI. De asemenea, statele trebuie să răspundă companiilor pentru orice încălcare a drepturilor omului legată de deciziile lor de proiectare și de afaceri.

Context

Raportul oferă o analiză din perspectiva drepturilor omului asupra „fluxului de date” care stă la baza produselor de inteligență artificială generativă. Acesta include etapele de colectare, analiză și procesare a datelor, esențiale pentru funcționarea acestor sisteme. Mai exact, analiza se concentrează pe alegerile de design legate de datele folosite pentru antrenarea modelelor AI, în special pe metodele și sursele de colectare a datelor, modul de procesare, extinderea modelelor și rezultatele generate de acestea.

Amnesty International definește instrumentele autonome de inteligență artificială generativă ca produse dezvoltate, lansate și promovate exclusiv pentru capacitățile lor de generare de conținut, precum chatboturi AI sau generatoare de imagini, video, audio ori text. Nu sunt incluse produsele în care inteligența artificială generativă este doar o funcție suplimentară într-un pachet mai amplu de produse, de exemplu, programe de procesare a textului care includ opțional funcții de AI generativă.

Taguri