Fair Use czy Piractwo? Przełomowy Wyrok w Sprawie Anthropic

Federalny Sąd Okręgowy w San Francisco (sędzia William Alsup) wydał 24 czerwca 2025 r. wyrok, który ma fundamentalne znaczenie dla branży sztucznej inteligencji. W sprawie autorzy Andrea Bartz, Charles Graeber i Kirk Wallace Johnson pozwali firmę Anthropic, zarzucając jej nieuprawnione wykorzystanie ich książek do treningu modelu językowego Claude. Sąd uznał, że samo trenowanie AI na prawidłowo nabytych egzemplarzach książek mieści się w ramach „dozwolonego użytku” (fair use), ale magazynowanie ponad 7 milionów pirackich kopii już narusza prawa autorskie. Co więcej, późniejsze wykupienie licencji nie zwalnia Anthropic z odpowiedzialności za pierwotne naruszenie.

1. Tło sprawy i zarzuty autorów

W 2024 r. trójka pisarzy złożyła pozew przeciwko Anthropic, oskarżając firmę o masowe pobieranie ich książek z nielegalnych źródeł (Library Genesis, Books3 i Pirate Library Mirror) w celu stworzenia centralnej bazy danych, z której następnie trenowano AI.
Zarzut dotyczył zarówno bezprawnego skopiowania, jak i magazynowania pirackich wersji, a także nieuzyskania zgody autorów ani zapłaty za wykorzystanie ich utworów.

2. Analiza „Fair Use” – cztery kluczowe czynniki

Sędzia Alsup przeprowadził klasyczną analizę czterech czynników fair use zgodnie z amerykańskim Copyright Act:

Cel i charakter użycia – Trenowanie modelu LLM ma charakter transformacyjny: AI „uczy się, aby stworzyć coś nowego, a nie powielać” chronionych treści. Sąd porównał to do ucznia, który czyta, by pisać własne teksty, a nie odtwarzać cudze dzieła.
Natura utworów – Książki mają wysoki stopień ochrony (dzieła „ekspresyjne”), co teoretycznie powinno przemawiać przeciw fair use. Jednak sąd uznał, że stopień transformacji i brak wpływu na rynek oryginałów przeważają ten czynnik.
Ilość i znaczenie wykorzystanego fragmentu – W treningu AI całość tekstu była przetwarzana, lecz nie odtwarzano pełnych fragmentów w produktach komercyjnych, co ogranicza ryzyko zastępowania oryginału.
Wpływ na rynek – Sąd stwierdził, że Claude nie generuje wiernych kopii ani substytutów rynkowych, a więc nie zagraża sprzedaży książek czy prawom autorów.

Na tej podstawie sąd przyznał, że przejście z fizycznej książki na wewnętrzny model danych dla AI stanowi fair use.

3. Kluczowy wyjątek: magazynowanie pirackich kopii

Sęk w tym, że Anthropic nie tylko skanowało prawnie zakupione książki (często używane lub tanie egzemplarze), ale też – pobrało ponad 7 mln pirackich tytułów, które przechowywało w „central library” niezależnie od rzeczywistego użycia w treningu. Sąd wyraźnie zakwestionował ten proceder: „Kopiowanie książek z pirackich źródeł jest naruszeniem praw autorskich full stop. Nawet jeśli zamierzano je później użyć w fair use, samo pobranie jest bezprawne”.

Późniejsze wykupienie licencji = brak odpuszczenia

Anthropic argumentowało, że po odkryciu nielegalnej natury części zbioru firma wykupiła licencje na dotychczas pirackie tytuły. Sąd jednak odrzucił to jako obronę: „Zakup licencji po fakcie nie usuwa przestępstwa naruszenia praw autorskich – odpowiedzialność już powstała i wymaga rozliczenia”.

4. Konsekwencje wyroku

Precedens dla AI – To pierwsza amerykańska decyzja, która akceptuje trenowanie LLM na legalnie nabytych książkach, ale każe oddzielać proces od piractwa. Firmy AI muszą teraz wypracować transparentne łańcuchy pozyskiwania danych.
Ryzyko odszkodowań – W procesie o piractwo sąd wyznaczył termin grudniowego procesu, gdzie autorzy mogą domagać się odszkodowań, nawet do 150 000 USD za tytuł przy świadomym naruszeniu praw autorskich.
Model licencjonowania – AI builderzy powinni rozważyć systemy buy-to-scan (jak Google Books) lub odpłatne licencje na zbiory od wydawców, zamiast polegać na danych z torrentów i repozytoriów typu LibGen.
Nowe role prawników – Doradcy IP muszą wspierać startupy i korporacje AI w budowie legalnych zestawów treningowych oraz w negocjacjach licencyjnych z wydawcami i organizacjami zrzeszającymi autorów.

5. Rekomendacje dla twórców i firm AI

Przeprowadź audyt źródeł – dokładnie sprawdź, skąd pochodzą zbiory tekstów i wideo do treningu.
Wdroż politykę due diligence – monitoruj zgodność pozyskiwania danych z prawem autorskim i RODO.
Zabezpiecz licencje z góry – negocjuj globalne umowy z wydawcami lub konsorcjami licencyjnymi.
Dokumentuj proces – zachowuj dowody zakupu i umów licencyjnych, by wykazać, że korzystasz z legalnych kopii.
Opracuj „clean room” – oddziel środowisko treningowe od tymczasowych repozytoriów mniej legalnych danych, by minimalizować ryzyko pułapek prawnych.

Wyrok sędziego Alsupa to kamień milowy w kształtowaniu standardów prawnych dla AI. Z jednej strony otwiera drzwi do swobodnego trenowania modeli na prawidłowo pozyskanych dziełach, z drugiej – stawia wyraźną czerwoną linię wobec piractwa i retroaktywnych licencji. Dla twórców sztucznej inteligencji nastał czas transparentności i odpowiedzialności, a dla autorów – moment na wzmocnienie ochrony własności intelektualnej w erze generatywnej AI.

Źródła: [MSN / MoneyTopStories, „Judge rules Anthropic’s AI training … violates copyright” (cyt.7)] [Ars Technica, „Key fair use ruling clarifies when books can be used …” (cyt.13)] [NBC News, „Federal judge rules copyrighted books …” (cyt.14)] [Thomson Reuters via Gadgets360, „Anthropic Wins Key US Ruling on AI Training …” (cyt.15)]