W dniu 11 listopada 2025 r., przed Regionalgericht München I (sygn. akt 42 O 14139/24) zapadło bardzo ważne orzeczenie w sprawie GEMA v. OpenAI. Niemiecki sąd uwzględnił w nim roszczenia GEMA wobec OpenAI (oraz spółek zależnych) dotyczące naruszenia praw autorskich w związku z wykorzystaniem tekstów piosenek jako części treningu modeli językowych oraz ich późniejszą reprodukcją w wynikach działania tych modeli. 

Fakty i zakres sporu

  • GEMA zarzuciła, że OpenAI wykorzystał podczas treningu modeli językowych (ChatGPT-4 i ChatGPT-4o) teksty dziewięciu znanych niemieckich piosenek. 
  • Sąd uznał, że w modelu doszło do tzw. memorisation – czyli że konkretne fragmenty utworów zostały utrwalone w parametrach modelu i w sposób odtwórczy pojawiały się jako odpowiedzi użytkowników. 
  • OpenAI argumentowało, że model nie przechowuje konkretnego tekstu w postaci tradycyjnej kopii, lecz wykorzystuje statystyczne wzorce językowe oraz że to użytkownik poprzez prompt inicjuje wynik. 
  • Sąd odrzucił te argumenty. Uznał, że zarówno reprodukcja utworów w modelu (przed generowaniem), jak i wygenerowanie tych fragmentów przez model stanowiły naruszenie prawa autorskiego w rozumieniu § 16 UrhG (prawo do reprodukcji) oraz § 19a UrhG (prawo do udostępniania) – a wyjątek TDM (§ 44b UrhG / art. 4 DSM-Dyrektywy) nie miał zastosowania. 
  • Wyrok przewiduje m.in.: zobowiązanie do zaprzestania bezlicencyjnego korzystania z tych utworów, dostęp do informacji o wykorzystaniu, a także – w zasadzie – możliwość żądania odszkodowania. 
  • Orzeczenie nie jest jeszcze prawomocne – przewidziane jest odwołanie, co oznacza, że sprawa może trafić ostatecznie do Court of Justice of the European Union (CJEU). 

Kluczowe ustalenia prawne

  1. Memorisation = naruszenie prawa autorskiego Sąd uznał, że jeśli model językowy utrwala fragmenty utworów w taki sposób, że mogą być następnie odtworzone (reprodukcja), to mamy do czynienia z naruszeniem praw autorskich – nawet jeśli tekst nie jest literalnie skopiowany w klasycznym rozumieniu. 
  2. Wyjątek TDM nie ma zastosowania Sąd stwierdził, że proces tekst-i-dane-miningu (TDM) może obejmować jedynie analizę wzorców językowych, a nie umożliwia włączenia całych utworów w model w sposób umożliwiający ich reprodukcję. W tej sprawie zakres memorisationu wykraczał poza TDM. 
  3. Operator modelu ponosi odpowiedzialność Sąd podkreślił, że producent modelu (OpenAI) był odpowiedzialny za wybór danych treningowych, za architekturę modelu i możliwości generacji. Nie można skutecznie przerzucić odpowiedzialności na użytkownika i jego prompt. 
  4. Reprodukcja w modelu a reprodukcja w wyniku Sąd rozróżnił: odtworzenie utworu może nastąpić w modelu (wewnątrz parametrów) i potem jako wynik prompta. Oba rodzaje działania uznał za naruszenie – co czyni precedensowym stanowisko w zakresie AI-modeli. 

Aby w pełni zrozumieć wyrok niemieckiego sądu, pomocne jest porównanie do dwóch ostatnich zagranicznych orzeczeń: Getty Images v. Stability AI (High Court of Justice, Londyn, 4 listopada 2025 r., [2025] EWHC 2863 (Ch)) oraz Kadrey v. Meta (N.D. Cal., 25 czerwca 2025 r., nr 23-cv-03417-VC).1 Takiego porównania dokonał Pan dr Christian Frank w swoim artykule „Rightsholders Take the Lead: GEMA v. OpenAI” (do którego link podaje w przypisie na koniec artykułu). Cytuje:

Getty Images przeciwko Stability AI

Sąd w sprawie Getty przyjął opinię ekspertów, że modele dyfuzji uczą się wzorców/statystyk, a nie przechowują obrazy szkoleniowe:

„Stable Diffusion nie przechowuje danych, na których zostało przeszkolone… Zamiast przechowywać dane szkoleniowe, modele dyfuzji uczą się statystyk wzorców… Niemożliwe jest przechowywanie wszystkich obrazów szkoleniowych w wagach… LAION-5B ~220 TB w porównaniu z 3,44 GB wag modelu”.

Następnie sąd sformułował test prawny dotyczący „kopii naruszającej prawo” (tj. czy cokolwiek w modelu stanowi przechowywaną reprodukcję). Opierając się na sekcji 17 CDPA (kopiowanie obejmuje przechowywanie elektroniczne na dowolnym nośniku) oraz sprawie Sony przeciwko Ball (pamięć RAM może stanowić kopię naruszającą prawo, jeśli zawiera dane), sędzia napisał:

„Kopia naruszająca prawo musi być kopią… Nie rozumiem, w jaki sposób artykuł może być kopią naruszającą prawo, jeśli nigdy nie składał się z kopii, nie przechowywał jej ani nie zawierał. W sprawie Sony przeciwko Ball chip RAM był kopią naruszającą prawo tylko wtedy, gdy zawierał kopię…”.

Sąd potwierdził, że przechowywanie na nośnikach niematerialnych (np. w chmurze) nadal stanowi „przechowywanie na dowolnym nośniku” zgodnie z sekcją 17. Stosując ten test do modeli wag i „zapamiętywania”, sąd uznał za kwestię techniczną, że zapamiętywanie może mieć miejsce (np. znaki wodne o wysokim stopniu powielania), ale podkreślił, że Getty nie twierdził ani nie udowodnił, że jakiekolwiek dzieło chronione prawem autorskim zostało zapamiętane lub przechowywane w wagach:

„Nie ma dowodów na to, że jakiekolwiek dzieło chronione prawem autorskim zostało „zapamiętane”… ani dowodów na to, że jakikolwiek obraz został zaczerpnięty z dzieła chronionego prawem autorskim. ”

Zatem zgodnie z doktryną, nawet jeśli szkolenie w innym miejscu obejmowało reprodukcje, wagi, które nigdy nie zawierają kopii, nie są „kopią naruszającą prawo”:

„Czy model sztucznej inteligencji, który pochodzi z procesu szkolenia, sam w sobie jest kopią naruszającą prawo? Moim zdaniem nie… pod koniec tego procesu model nie przechowuje żadnego z tych utworów… Wagi modelu… nigdy nie zawierały ani nie przechowywały kopii naruszającej prawo”.

Podsumowanie (Getty): Sąd rozróżnia wyuczone parametry od przechowywanych reprodukcji. „Zapamiętywanie” bez dowodu, że artykuł zawiera kopię w pewnym momencie, nie sprawia, że wagi są kopią naruszającą prawo.

Kadrey przeciwko Meta

Sąd w sprawie Kadrey nie analizuje „wag” jako kopii. Odnosi się on do kopiowania na etapie szkolenia w ramach dozwolonego użytku i traktuje „powtarzanie wyników” jako istotne dla szkody rynkowej, a nie jako teorię wag jako kopii.

Oceniając zapamiętywanie/powtarzanie, sąd zapytał, czy Llama powtarza książki powodów (jako reprodukcję na poziomie wyników). Stwierdził, że dowody z akt sprawy wykazały złagodzenie skutków i jedynie minimalne powtarzanie pod wpływem bodźców kontradyktoryjnych:

„Meta… przeprowadziła dodatkowe szkolenie swoich modeli, aby zapobiec „zapamiętywaniu” i generowaniu określonych tekstów… Nawet stosując tę metodę [bodźce kontradyktoryjne], ekspert nie był w stanie uzyskać modelu generującego więcej niż pięćdziesiąt słów i znaków interpunkcyjnych… Llama nie może być obecnie wykorzystywana do czytania lub uzyskiwania w inny sposób znaczącego dostępu do książek powodów. ”

Dowody dotyczące wyników posłużyły jako czynnik 4 (wpływ na rynek). Sąd wielokrotnie podkreślał, że substytucja rynkowa jest „bez wątpienia najważniejszym” czynnikiem i uznał, że powodowie nie przedstawili empirycznych dowodów szkody w tej sprawie.

Wniosek (Kadrey): Brak analizy wag jako kopii. „Zapamiętywanie” pojawia się tylko jako ryzyko powtórzenia związane ze szkodą rynkową; sąd nie znalazł w tym przypadku wystarczających dowodów na takie powtórzenie.

GEMA przeciwko OpenAI — bardziej szczegółowe uzasadnienie

Spór dotyczył tekstów piosenek, które zostały wbudowane w modele w sposób umożliwiający ich odtworzenie; nie było konieczne wprowadzanie zwodniczych poleceń.

„Ze względu na zapamiętywanie, ucieleśnienie jako warunek wstępny reprodukcji tekstów piosenek objętych prawami autorskimi jest zapewnione przez dane w określonych parametrach modelu. Teksty piosenek objętych prawami autorskimi są utrwalone w modelach w sposób umożliwiający ich reprodukcję. … Dla celów reprodukcji objętej prawami autorskimi można pozostawić otwartą kwestię szczegółowego działania zapamiętywania. Nie ma znaczenia, czy mówimy o przechowywaniu lub kopiowaniu danych szkoleniowych, czy też, jak twierdzą pozwani, czy model odzwierciedla w swoich parametrach to, czego nauczył się na podstawie całego zestawu danych szkoleniowych, a mianowicie relacje i wzorce wszystkich słów lub tokenów, które reprezentują różnorodność języka ludzkiego i jego konteksty. Decydującym czynnikiem jest to, że teksty piosenek, które posłużyły jako dane szkoleniowe, są zawarte w modelu w sposób umożliwiający ich odtworzenie, a zatem są w nim ucieleśnione”.
Punkt 3 b bb (1)


Znaczenie orzeczenia dla prawa i praktyki w UE

Dla branży AI i technologii

Orzeczenie stanowi bardzo wyraźny sygnał: firmy tworzące lub korzystające z dużych modeli językowych muszą uwzględnić ryzyko prawne związane z danymi treningowymi — szczególnie, gdy obejmują one chronione prawem autorskim utwory (teksty, muzyka, grafiki). Konieczne staje się dokumentowanie pochodzenia danych, modeli treningowych i wyników generacji.

Dla twórców i właścicieli praw autorskich

Dla autorów i organizacji zbiorowego zarządzania jak GEMA – wyrok wzmacnia możliwość dochodzenia roszczeń przeciw firmom AI wykorzystującym ich utwory bez licencji. Możliwe więc będzie bardziej systemowe podejście do licencjonowania wykorzystania treści kreatywnych w treningu AI.

Dla podmiotów z sektora e-commerce, platform i aplikacji w UE

Choć sprawa dotyczyła tekstów piosenek, implikacje są szersze. Platformy online i sklepy internetowe oferujące (lub integrujące) funkcjonalności generatywnej sztucznej inteligencji powinny zweryfikować, czy:

  • dane treningowe używanego rozwiązania AI zawierają utwory chronione prawem autorskim;
  • model może generować fragmenty tych utworów;
  • mają odpowiednie licencje lub gwarancje od dostawców AI;
  • umowy z dostawcami zawierają zapisy o odpowiedzialności za naruszenia.

W perspektywie prawa polskiego i europejskiego

Wyrok niemieckiego sądu może przyczynić się do ukształtowania linii orzeczniczej w UE. W Polsce prawodawstwo autorskie oraz dyrektywy UE (np. DSM) przewidują podobne zasady. Firmy działające w Polsce (lub mające użytkowników w UE) powinny monitorować, czy polskie organy i sądy będą podążać tą ścieżką. W perspektywie może to także oznaczać konieczność dostosowania się do przyszłych przepisów UE (np. w obszarze AI).


Praktyczne wskazówki dla przedsiębiorców w świetle wyroku

  • Audyt wykorzystania AI: Zweryfikuj, czy w Twojej firmie (lub u dostawcy) AI trenowano na utworach chronionych — jeżeli tak, sprawdź licencje lub mechanizmy zabezpieczenia regeneracji takich utworów.
  • Umowy z dostawcami AI: Upewnij się, że dostawca AI deklaruje, że dane treningowe nie zawierają materiałów bez licencji, lub że model zawiera mechanizmy zapobiegające generowaniu takich materiałów. Zawrzyj w umowie klauzule odpowiedzialności i odszkodowania.
  • Polityka generowania treści: Jeżeli oferujesz funkcje generatywne (tekst, muzyka, obraz), zadbaj o to, by użytkownicy byli poinformowani o ryzykach prawnych i zastosuj mechanizmy filtracji lub blokowania generacji kompletnych chronionych utworów.
  • Współpraca z prawnikiem IT i wsparcie IT: Prawnik IT może pomóc w analizie licencjonowania i weryfikacji ryzyka prawnego; dział IT może zbudować zabezpieczenia techniczne (np. systemy wykrywające powielanie fragmentów utworów) oraz procedury obsługi incydentów.
  • Monitorowanie zmian legislacyjnych: Prawo dotyczące AI i praw autorskich jest w fazie dynamicznego rozwoju – warto być na bieżąco z orzecznictwem i ewentualnymi regulacjami UE.

Podsumowanie

Orzeczenie w sprawie GEMA v. OpenAI stanowi faktyczny przełom w zakresie odpowiedzialności prawnej za wykorzystanie modeli językowych AI i materiałów chronionych prawem autorskim. W praktyce oznacza to, że „zapamiętywanie” (memorisation) utworów w modelu oraz ich wygenerowanie może być naruszeniem praw autorskich. Dla twórców – to wzmocnienie ich pozycji. Dla firm wykorzystujących AI – sygnał, by przeprowadzić audyt, zaktualizować procedury i umowy, i monitorować ryzyko. Dla rynku e-commerce i platform – konieczność upewnienia się, że technologie AI wykorzystywane w ramach usług są zgodne z prawem.

  1. https://www.taylorwessing.com/en/insights-and-events/insights/2025/11/gema-v-openai ↩︎