Lidstvo se změní jako po objevu knihtisku. Schopnost umělé inteligence vymýšlet si dovede lidi do Bábelovy knihovny, kdy nikdo nezjistí, co je výmysl a co je pravda. V pohledech na velké jazykové modely AI (Artificial intelligence) střídá velkou naději velký strach. Část vědců volá po zastavení výzkumu a zavedení regulací. Na obzoru je první soudní proces: Obrazová agentura Getty Images žaluje generátor obrazu, protože data jsou ve skutečnosti ukradená. Nastolují se otázky etiky, způsobené škody i chápání života.
Celkem pět esejů na téma generativní jazykové modely umělé inteligence publikoval na konci dubna 2023 prestižní časopis The Economist. Existují-li z něčeho obavy, je dobré to poznat a zjistit, jak věc funguje. To se pokusil popsat článek „Rozsáhlé tvůrčí modely AI změní životy a trhy práce“.
V listopadu 2022 společnost Open AI vyvinula ChatGPT. Chatbota poprvé otevřela veřejnosti, což spustilo lavinu zájmu. Během psaní tohoto článku zakladatel londýnské technologické společnosti bez vyzvání vašemu korespondentovi poslal zprávu, že tento druh umělé inteligence je „v podstatě vše, na co v těchto dnech myslím“. Říká, že je v procesu redesignu své společnosti v hodnotě mnoha stovek milionů dolarů. Není sám, uvádí autoři svůj článek.
ChatGPT obsahuje více znalostí, než kterákoli lidská bytost kdy poznala. Dokáže přesvědčivě hovořit o těžbě nerostů v Papui-Nové Guineji nebo o tchajwanské polovodičové firmě TSCM, která se v současnosti ocitla v geopolitickém hledáčku.
Umělá neuronová síť GPT-4, která pohání ChatGPT, má úspěšné zkoušky, které slouží v Americe jako brána pro vstup lidí do kariéry v právu a medicíně. Může vytvářet písně, básně a eseje. Jiné modely „generativní umělé inteligence “ mohou chrlit digitální fotografie, kresby a animace.
V technologickém průmyslu i mimo něj vzbuzuje spolu se vzrušením i hluboké znepokojení obava, že generativní modely umělé inteligence jsou vyvíjeny příliš rychle.
GPT-4 je generativní typ umělé inteligence nazývaný velký jazykový model (large language model – LLM). Technologičtí giganti jako je Alphabet, Amazon, Nvidia vytrénovaly každý svoji vlastní LLM a daly jim jména jako PALM, Megatron, Titan, Chinchilla.
Londýnský technologický šéf říká, že je „neuvěřitelně nervózní z existenční hrozby“, kterou AI představuje, i když ji sleduje, a „denně o ní mluví s [jinými] zakladateli“. Vlády v Americe, Evropě a Číně začaly vymýšlet nové předpisy. Prominentní hlasy volají, aby byl vývoj umělé inteligence pozastaven, aby se software nevymkl kontrole a nepoškodil nebo dokonce nezničil lidskou společnost.
Abychom mohli kvantifikovat, jak moc máme být touto technologií znepokojeni nebo nadšeni, pomůže nám předně pochopit, odkud vzešla, jak funguje a jaké jsou hranice jejího růstu.
Okouzleni procesory a hlubokým učením
Současná exploze možností softwaru umělé inteligence začala na počátku roku 2010, kdy se stala populární softwarová technika zvaná „hluboké učení“. Pomocí magického mixu rozsáhlých datových sad a výkonných počítačů provozujících neuronové sítě na grafických procesorových jednotkách (GPU) hluboké učení dramaticky zlepšilo schopnosti počítačů rozpoznávat obrázky, zpracovávat zvuk a hrát hry. Na konci roku 2010 počítače dokázaly mnohé z těchto úkolů dělat lépe než kterýkoli člověk.
Ale neuronové sítě měly tendence být zabudovány do software se širší funkcionalitou. Jako e-mailoví klienti s těmito AIS jen vzácně interagovaly přímo. Ti, kteří to udělali, pak často popisovali tento zážitek v takřka duchovních termínech. Jeden z nejlepších světových hráčů staré čínské deskové hry GO Lee Sedol odešel ze hry poté, co ho v roce 2016 rozdrtil software Alphabet založený na neuronové síti AlphaGo. „I když se stanu jedničkou, existuje entita, kterou nelze porazit,“ řekl.
Díky fungování v nejlidštějším z médií – v rozhovoru, ChatGPT nyní umožňuje veřejnosti používající internet zažít něco podobného. Tedy druh intelektuální závratě způsobené softwarem, který se náhle zlepšil do bodu, kdy může provádět úkoly, které byly výlučně v doménou lidské inteligence.
Co to je? Obrovské statistické cvičení
Navzdory tomuto pocitu kouzla je LLM ve skutečnosti obrovským cvičením ve statistice. Požádejte ChatGPT, aby dokončil větu: „Příslib velkých jazykových modelů je, že…“ a dostanete okamžitou odpověď. Jak to funguje?
Jazyk dotazu se převede ze slov, která neuronové sítě nezvládnou, na reprezentativní sadu čísel. GPT-3, který poháněl dřívější verzi ChatGPT, to dělá rozdělením textu na znaky nazývané tokeny, které se běžně vyskytují společně. Těmito tokeny mohou být slova jako „láska“ nebo „jsou“, přípony jako „dis“ nebo „la“ a interpunkce, jako „?“. Slovník GPT-3 obsahuje podrobnosti o 50 257 tokenech.
Model GPT-3 je schopen zpracovat maximálně 2 048 tokenů najednou, což je přibližně délka dlouhého článku v časopisu The Economist. GPT-4 naopak dokáže zpracovat vstupy dlouhé až 32 000 tokenů – novelu.
Čím více dokáže model pojmout textu, tím více pozná souvislostí a tím lepší bude jeho odpověď. Má to háček – požadovaný výpočet nelineárně roste s délkou vstupu, což znamená, že o něco delší vstupy potřebují mnohem více výpočetního výkonu.
Tokenům jsou pak přiřazeny ekvivalenty definic jejich umístěním do „prostoru významu“, kde se v blízkých oblastech nacházejí slova, která mají podobný význam. LLM poté nasadí svou „síť pozornosti“ k vytvoření spojení mezi různými částmi podnětu – výzvy, příkazu, dotazu.
Někdo, kdo čte naši výzvu, „Příslib velkých jazykových modelů je, že…“, by věděl, jak funguje anglická gramatika, a chápal koncepty za slovy ve větě. Bylo by mu zřejmé, která slova se k sobě vztahují — to je příklad velkého modelu.
LLM se však musí tyto asociace naučit od nuly během své tréninkové fáze – během miliard tréninkových kol jeho pozornostní síť pomalu kóduje strukturu jazyka, který vidí jako čísla („váhy“ – ve smyslu hodnoty významu) v rámci neuronové sítě. Pokud vůbec rozumí jazyku, činí tak LLM pouze statistickým, nikoli gramatickým způsobem. Je to mnohem více jako počítadlo než jako mysl.
Ne zcela předvídatelné extrémně velké počítadlo
Jakmile je pokyn zpracován, LLM zahájí odpověď. V tomto okamžiku pro každý z tokenů ve slovníku modelu vytvořila síť pozornosti pravděpodobnost, že tento token je nejvhodnější k použití jako další ve větě, kterou generuje. Token s nejvyšším skóre pravděpodobnosti není vždy ten, který byl vybrán pro odpověď – to, jak LLM tuto volbu provede, závisí na tom, jakou kreativitu určili modelu jeho operátoři.
LLM vygeneruje slovo a potom výsledek vloží zpátky do sebe. První slovo je generováno pouze na základě výzvy. Druhé slovo je generováno zahrnutím prvního slova do odpovědi, poté třetí slovo zahrnutím prvních dvou generovaných slov a tak dále. Tento proces – nazývaný autoregrese – se opakuje, dokud LLM neskončí.
Ačkoli je možné sepsat pravidla, jak modely LLM fungují, jejich výstupy nejsou zcela předvídatelné. Ukazuje se, že tato extrémně velká počítadla dokážou věci, které menší nedokážou, a to způsobem, který překvapí i lidi, kteří je vyrábějí. Jason Wei, výzkumník z OpenAI, napočítal 137 takzvaných „emergentních“ schopností napříč řadou různých modelů LLM.
Tak velké, že vzbuzuje obavy
Schopnosti, které se objeví, nejsou magie – všechny jsou v nějaké formě zastoupeny v tréninkových datech modelů LLM (nebo v pokynech, které jim jsou dány). Ale neprojeví se, dokud LLM nepřekročí určitý, velmi vysoký práh svého rozsahu. V jednom rozměru LLM neví, jak psát věty zahrnující gender v němčině o nic lépe, než kdyby to dělal náhodně. Udělejte však model jen o něco větší a najednou se objeví nová schopnost. GPT-4 prošel americkou jednotnou advokátní zkouškou, jejímž cílem je otestovat dovednosti právníků předtím, než získají licenci, v 90. percentilu. O něco menší GPT-3.5 propadl.
Emergentní schopnosti jsou vzrušující, protože naznačují nevyužitý potenciál modelů LLM. Inženýr Jonas Degrave ve společnosti DeepMind pro výzkum letectví vlastněné Alphabetem ukázal, že ChatGPT lze přesvědčit, aby fungoval jako terminál příkazového řádku počítače, který kompiluje a spouští přesně programy. Jen o trochu větší, a přijde přemýšlení a modely mohou najednou být schopny dělat spoustu nových užitečných věcí. Ale ze stejného důvodu mají odborníci obavy. Jedna analýza ukazuje, že když se modely stanou velkými, rozvinou se sociální předsudky. Není snadné určit, jaké škodlivé chování může ležet ladem a čekat na trochu větší rozsah, než se spustí.
Odkud vzali data? Z internetu
Současný úspěch modelů LLM při generování přesvědčivého textu, stejně jako jejich vynořující se překvapivé schopnosti, jsou způsobeny sloučením tří věcí: ohromného množství dat, algoritmů schopných se z nich učit a výpočetního výkonu. Podrobnosti o konstrukci a funkci GPT-4 zatím nejsou veřejné, ale podrobnosti o GPT-3 jsou v článku nazvaném Jazykové modely se učí málokdo, který v roce 2020 vydala společnost OpenAI.
Než uvidí jakákoliv tréninková data, váhy v neuronové síti GPT-3 jsou většinou náhodné. V důsledku toho bude jakýkoli text, který vygeneruje, nesmyslný. Posouvat svůj výstup k něčemu, co dává smysl, a nakonec k něčemu, co je plynulé, vyžaduje trénink. GPT-3 byl trénován na několika zdrojích dat, ale většina z nich pochází ze snímků celého internetu v letech 2016 až 2019 pořízených z databáze s názvem Common Crawl.
Na internetu je spousta haraburdí, takže počátečních 45 terabajtů bylo filtrováno pomocí jiného modelu strojového učení, aby se vybral pouze vysoce kvalitní text: 570 gigabajtů, datová sada, která se vejde na moderní notebook. Kromě toho byl GPT-4 trénován na neznámém množství obrázků, pravděpodobně několik terabajtů. Pro srovnání AlexNet, neuronová síť, která v roce 2010 znovu vzbudila rozruch v oblasti zpracování obrazu, byla trénována na datovém souboru 1,2 milionu označených snímků, celkem 126 gigabajtů – méně než desetina velikosti pravděpodobného datového souboru GPT-4.