Kto śledzi temat AI, ten wie, że Anthropic wybrał rolę sumienia branży w świecie zdominowanym przez technologiczne molochy. Historia zaczyna się znajomo – założyciele trzasnęli drzwiami w OpenAI, bo nie zgadzali się ani z kierunkiem rozwoju technologii, ani z podejściem do bezpieczeństwa. Ich model – Claude – jest trenowany według zasad, które marketingowo określa się jako etyczne, z wbudowanymi mechanizmami kontroli i zestawem reguł od podstaw.

Bezpieczeństwo i odpowiedzialność to filary, na których stoi cały przekaz Anthropicu. Skarbiec? Niedawno zasilili go Google i Amazon.

Tańcz do algorytmu, bo inaczej jesteś wrogiem postępu

Ewangeliści LLM wzruszają ramionami na fundamentalny problem etyczny: modele są uczone na danych zebranych bez żadnej prawnej podstawy. Skąd ta obojętność? Mieszanka naiwności, cynizmu i aprobaty dla prawa pięści – niejeden prorok AI liczy, że i jemu coś kapnie z technokratycznego stołu. Ta krótkowzroczność i akceptacja dla korporacyjnej przemocy to tylko dwa symptomy technofeudalizmu, który przestał być teorią.

Przykładów nie trzeba szukać z lupą. Firmy łamią prawo nie tylko zawoalowanie – robią to z subtelnością ataku DDoS, czyli brutalną siłą. Przykład? Pewien niebieski portal (nie OnlyFans) pozyskiwał dane treningowe prosto z rosyjskich torrentów.

Sprawa wynika wprost z wewnętrznej korespondencji. Zespół Meta rozważał, a potem dostał zielone światło od góry, żeby ściągać i wykorzystywać dane z LibGen – tzw. shadow library, czyli bazy pełnej nieautoryzowanych kopii książek.

W dokumentach pojawiają się cytaty pracowników, którzy pisali wprost, że „torrenting z firmowego laptopa nie wydaje się w porządku” i że LibGen to „dataset, o którym wiemy, że jest piracki”.

MZ? Brzmi jak spisek. Niestety to tylko korporacyjna rzeczywistość

W dokumentach pojawia się skrót MZ – w pozwie i relacjach medialnych czytany jako odwołanie do Marka, a fragmenty korespondencji sugerują, że zgoda na LibGen była „eskalowana” właśnie do MZ. Firma przyznała, że używała datasetu Books3 (fragment zbioru The Pile, zawierający ok. 196 tys. książek) do trenowania modeli LLaMA – ujawniono to w dokumentach sądowych.

Ci porządni proponują gilotynę w wersji premium

Meta to pirat z tasakiem, Anthropic zaś to kulturalny dżentelmen z gilotypem. W rewolucji francuskiej gilotyna miała być nowoczesna i humanitarna. W epoce technofeudalizmu mamy analogiczną „elegancję”.

Projekt Panama to właśnie taka higieniczna gilotyna wystawiona na placu publicznym: nie kradniemy z torrentów jak pospolite rzezimieszki, my te książki „pozyskujemy”. Anthropic korzystał z firm handlujących używanymi książkami: Better World Books i World of Books.

W marcu 2024 roku do obiegu trafił dokument ujawniający kulisy projektu Panama. Cel: pozyskanie treści do trenowania AI.

Sam proces jest fascynująco bezwzględny: maszyna równo przycina grzbiety książek, strony wędrują przez szybkie skanery, a na końcu przetworzone egzemplarze odbiera firma recyklingowa. Chirurgicznie, bez emocji, jak z dystopijnej powieści.

Na czele projektu stał Tom Turvey – człowiek, który dwadzieścia lat temu budował dla Google projekt Google Books.

Papier nie jest jak sieć – nie przyjmie wszystkiego. Ale sieć przyjmie papier

Przez prawie rok Anthropic wkładał dziesiątki milionów dolarów w zakup i digitalizację ogromnych ilości książek – z fizycznym usuwaniem okładek i skanowaniem treści włącznie – żeby trenować swoje modele, w tym Claude’a. Szczegóły wyszły na jaw w tysiącach stron dokumentów sądowych z pozwu zbiorowego autorów o naruszenie praw autorskich. Firma zawarła ugodę na 1,5 miliarda dolarów w sierpniu 2025 roku, a niedawne odtajnienie akt przez sąd ujawniło więcej o tym, jak systematycznie zbierano materiały treningowe.

Dobre chęci to puder, za którym kryje się skuteczność

Nie chodzi tu o zbudowanie cyfrowej biblioteki dla ludzkości. Korzyści z Panamy są czysto biznesowe: fizyczne książki dają przewagę konkurencyjną, bo część z nich nigdy wcześniej nie była digitalizowana. Możliwość pozycjonowania się jako ten bardziej moralny gracz to jedynie miły dodatek.

To też sprytne wyjście z nowego problemu: skoro internet zalewa tzw. slop – treści wielokrotnie przetworzone i generowane maszynowo – to dalsze skalowanie baz danych przez grabież z sieci niczego już nie poprawi.

Ironia jest tu podwójna. Podobnie jak dziewiętnastowieczni fabrykanci bez zahamowań truli środowisko, ten sam proces – tylko w cyfrowym przyspieszeniu – już zatoksykował internet. Ponad dwadzieścia lat temu ludzie kultury ekscytowali się Google Books. Jak zawsze okazało się, że wielkie firmy prędzej czy później dokładają efekt skali, infrastrukturę i gotowość do omijania prawa, a ci, którzy wnoszą największą wartość – twórcy – lądują na marginesie marży.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *