Federalny Sąd Okręgowy w San Francisco (sędzia William Alsup) wydał 24 czerwca 2025 r. wyrok, który ma fundamentalne znaczenie dla branży sztucznej inteligencji. W sprawie autorzy Andrea Bartz, Charles Graeber i Kirk Wallace Johnson pozwali firmę Anthropic, zarzucając jej nieuprawnione wykorzystanie ich książek do treningu modelu językowego Claude. Sąd uznał, że samo trenowanie AI na prawidłowo nabytych egzemplarzach książek mieści się w ramach „dozwolonego użytku” (fair use), ale magazynowanie ponad 7 milionów pirackich kopii już narusza prawa autorskie. Co więcej, późniejsze wykupienie licencji nie zwalnia Anthropic z odpowiedzialności za pierwotne naruszenie.
1. Tło sprawy i zarzuty autorów
- W 2024 r. trójka pisarzy złożyła pozew przeciwko Anthropic, oskarżając firmę o masowe pobieranie ich książek z nielegalnych źródeł (Library Genesis, Books3 i Pirate Library Mirror) w celu stworzenia centralnej bazy danych, z której następnie trenowano AI.
- Zarzut dotyczył zarówno bezprawnego skopiowania, jak i magazynowania pirackich wersji, a także nieuzyskania zgody autorów ani zapłaty za wykorzystanie ich utworów.
2. Analiza „Fair Use” – cztery kluczowe czynniki
Sędzia Alsup przeprowadził klasyczną analizę czterech czynników fair use zgodnie z amerykańskim Copyright Act:
- Cel i charakter użycia – Trenowanie modelu LLM ma charakter transformacyjny: AI „uczy się, aby stworzyć coś nowego, a nie powielać” chronionych treści. Sąd porównał to do ucznia, który czyta, by pisać własne teksty, a nie odtwarzać cudze dzieła.
- Natura utworów – Książki mają wysoki stopień ochrony (dzieła „ekspresyjne”), co teoretycznie powinno przemawiać przeciw fair use. Jednak sąd uznał, że stopień transformacji i brak wpływu na rynek oryginałów przeważają ten czynnik.
- Ilość i znaczenie wykorzystanego fragmentu – W treningu AI całość tekstu była przetwarzana, lecz nie odtwarzano pełnych fragmentów w produktach komercyjnych, co ogranicza ryzyko zastępowania oryginału.
- Wpływ na rynek – Sąd stwierdził, że Claude nie generuje wiernych kopii ani substytutów rynkowych, a więc nie zagraża sprzedaży książek czy prawom autorów.
Na tej podstawie sąd przyznał, że przejście z fizycznej książki na wewnętrzny model danych dla AI stanowi fair use.
3. Kluczowy wyjątek: magazynowanie pirackich kopii
Sęk w tym, że Anthropic nie tylko skanowało prawnie zakupione książki (często używane lub tanie egzemplarze), ale też – pobrało ponad 7 mln pirackich tytułów, które przechowywało w „central library” niezależnie od rzeczywistego użycia w treningu. Sąd wyraźnie zakwestionował ten proceder: „Kopiowanie książek z pirackich źródeł jest naruszeniem praw autorskich full stop. Nawet jeśli zamierzano je później użyć w fair use, samo pobranie jest bezprawne”.
Późniejsze wykupienie licencji = brak odpuszczenia
Anthropic argumentowało, że po odkryciu nielegalnej natury części zbioru firma wykupiła licencje na dotychczas pirackie tytuły. Sąd jednak odrzucił to jako obronę: „Zakup licencji po fakcie nie usuwa przestępstwa naruszenia praw autorskich – odpowiedzialność już powstała i wymaga rozliczenia”.
4. Konsekwencje wyroku
- Precedens dla AI – To pierwsza amerykańska decyzja, która akceptuje trenowanie LLM na legalnie nabytych książkach, ale każe oddzielać proces od piractwa. Firmy AI muszą teraz wypracować transparentne łańcuchy pozyskiwania danych.
- Ryzyko odszkodowań – W procesie o piractwo sąd wyznaczył termin grudniowego procesu, gdzie autorzy mogą domagać się odszkodowań, nawet do 150 000 USD za tytuł przy świadomym naruszeniu praw autorskich.
- Model licencjonowania – AI builderzy powinni rozważyć systemy buy-to-scan (jak Google Books) lub odpłatne licencje na zbiory od wydawców, zamiast polegać na danych z torrentów i repozytoriów typu LibGen.
- Nowe role prawników – Doradcy IP muszą wspierać startupy i korporacje AI w budowie legalnych zestawów treningowych oraz w negocjacjach licencyjnych z wydawcami i organizacjami zrzeszającymi autorów.
5. Rekomendacje dla twórców i firm AI
- Przeprowadź audyt źródeł – dokładnie sprawdź, skąd pochodzą zbiory tekstów i wideo do treningu.
- Wdroż politykę due diligence – monitoruj zgodność pozyskiwania danych z prawem autorskim i RODO.
- Zabezpiecz licencje z góry – negocjuj globalne umowy z wydawcami lub konsorcjami licencyjnymi.
- Dokumentuj proces – zachowuj dowody zakupu i umów licencyjnych, by wykazać, że korzystasz z legalnych kopii.
- Opracuj „clean room” – oddziel środowisko treningowe od tymczasowych repozytoriów mniej legalnych danych, by minimalizować ryzyko pułapek prawnych.
Wyrok sędziego Alsupa to kamień milowy w kształtowaniu standardów prawnych dla AI. Z jednej strony otwiera drzwi do swobodnego trenowania modeli na prawidłowo pozyskanych dziełach, z drugiej – stawia wyraźną czerwoną linię wobec piractwa i retroaktywnych licencji. Dla twórców sztucznej inteligencji nastał czas transparentności i odpowiedzialności, a dla autorów – moment na wzmocnienie ochrony własności intelektualnej w erze generatywnej AI.
Źródła: [MSN / MoneyTopStories, „Judge rules Anthropic’s AI training … violates copyright” (cyt.7)] [Ars Technica, „Key fair use ruling clarifies when books can be used …” (cyt.13)] [NBC News, „Federal judge rules copyrighted books …” (cyt.14)] [Thomson Reuters via Gadgets360, „Anthropic Wins Key US Ruling on AI Training …” (cyt.15)]