Rozřezat, skenovat, trénovat. AI se cvičila i na fyzických knihách
Společnost Anthropic využívala k vývoji chatbota Claude i texty z fyzických kopií knih. Ukazují to soudem nově odtajněné dokumenty.
„Projekt Panama je naší snahou destruktivně oskenovat všechny knihy na světě. Nechceme, aby vyšlo najevo, že na něčem podobném pracujeme,“ stojí v interním dokumentu firmy Anthropic z roku 2024.
Společnost Anthropic je jednou z předních firem vyvíjejících AI produkty. Jejím nejznámějším nástrojem je chatbot Claude. Projekt Panama, při němž Anthropic kvůli trénování velkého jazykového modelu stojícího za Claudem koupil, rozřezal a oskenoval knihy za miliony dolarů, se dostal na veřejnost až teprve minulý týden. Interní memorandum o projektu Panama spolu s dalšími tisíci stran dokumentů nařídil odtajnit soud.
Anthropic společně s dalšími firmami vyvíjejícími AI, jako OpenAI, Meta, Alphabet a dalšími, v posledních letech čelí žalobám od spisovatelů, umělců, vydavatelů a jejich profesních organizací. Velké jazykové modely (LLM), které pohánějí populární služby jako Claude nebo ChatGPT, se totiž trénovaly bez autorského souhlasu na nelegálně pořízených milionech knih a textů. Jedním z klíčových soudních procesů byl právě ten s firmou Anthropic. Soud neskončil rozsudkem, ale mimosoudním vyrovnáním v rekordní výši jeden a půl miliardy dolarů (přes třicet miliard korun), které nastavilo precedent pro další otevřené spory. Obvodní soudce ovšem i přes dohodnuté vyrovnání minulý týden případ znovu otevřel.
Zveřejněné dokumenty ukazují, že knihy jsou pro AI společnosti zásadní zdroj. Mohou totiž naučit LLM, „jak dobře psát“, namísto imitace „nekvalitního internetového žargonu“, jak v dokumentu už z roku 2023 argumentoval jeden ze spoluzakladatelů Anthropicu. Deník The Washington Post, který se případem zabývá, upozorňuje, že něco obdobného řešila v podobné době i uniklá komunikace z Mety.
Anthropic, Meta a další firmy k trénování používaly především tzv. „shadow libraries“ (stínové knihovny) — obrovské nelegální datasety s knihami a dalšími zdroji — a nelegální uložiště. Jeden ze zakladatelů Anthropicu Ben Mann podle zveřejněných dokumentů osobně knihy masově stahoval a v roce 2022 interně zaměstnancům vychvaloval spuštění pirátské platformy Pirate Library Mirror. Tyto praktiky dříve Anthropic, Meta a další u soudu popíraly.
Sklad projektu Panama
Anthropic ovšem nezůstal u digitálních kopií, pirátských úložišť a stínových knihoven. V rámci konkurenčního boje a trénování lepší LLM se potřeboval dostat i k nedigitalizovanému obsahu. Proto vznikl projekt Panama. Řídil jej Tim Turvey, který před dvaceti lety stál za kontroverzním projektem Google Books, který nabízel online skeny knih — bez autorské licence.
Anthropic v rámci projektu Panama nakoupil miliony knih skrze velké antikvariáty Better World Books a World of Books, často v balících po tisících. Ve skladu knihy následně putovaly do řezačky a ořezané stránky do rychlého, velkokapacitního skeneru a odtud už proudila data k vývojářům LLM. Zbylo jen zařídit svoz velkého množství tříděného odpadu.