Fra lænestolslingvister til ChatGPT: Sprogmodeller i AI

Udgivet: 2023

Historien bag de sprogmodeller, der kører under motorhjelmen på de meget omtalte AI-chatbots, giver en idé om, hvad en sprogmodel egentlig er.

Når vi taler om sprogmodeller i sammenhæng med kunstig intelligens, er det i reglen såkaldte Large Language Models (LLM), vi taler om. Du har sikkert hørt om sprogmodellerne GPT, LaMDA, BERT og så videre. I teknologiforståelsesfaget vil talen før eller siden falde på LLM’er og AI-drevne chatbots. Hensigten med artiklen her er at give dig en indledende idé om, hvad en LLM er.

Begrebet ”sprogmodel” er meget bredt, idet en ”model” jo er alt, der repræsenterer eller beskriver et eller andet i virkeligheden på en forenklet måde. Arkitekter og skibskonstruktører bygger modeller for at forstå de vigtigste egenskaber ved en konstruktion, og forskere tegner modeller i artikler for at anskueliggøre komplicerede processer. Sprogforskere skaber også modeller. En sprogteori som Noam Chomskys generative grammatik eller Hallidays systemisk funktionelle lingvistik er en slags model af sproget.

Grammatikbøger og ordbøger

Faktisk kan man sige, at en grammatikbog og en ordbog tilsammen udgør en simpel sprogmodel, for med de to på bordet foran sig burde man, med lidt arbejde, i princippet kunne formulere en hvilken som helst sætning i sproget.

Det er værd at huske på, for på et simpelt niveau er det et godt billede af, hvordan en LLM virker. ”Grammatikbogen”, oversigten over mulige sætningsstrukturer, er selve LLM’en. Ordbogen, som i praksis er langt mere omfattende end bare en ordliste, kaldes i fagsproget et ”referencekatalog”. LLM’en og referencekataloget er tilsammen den motor, der driver en chatbot som ChatGPT.

En LLM er en type af kunstig intelligens, som er skabt ved at lade et neuralt netværk med meget stor kapacitet ”træne på” enorme samlinger af autentiske tekster, herunder bøger, nyhedsartikler, videnskabelige artikler, internetsider og så videre. Disse samlinger udgør LLM’ens referencekatalog.

At ”træne” betyder, at man lader det neurale netværk bryde teksterne ned i små såkaldte ”tokens” (det kunne være sætninger, ord og morfemer, men i praksis er dén måde, de forskellige LLM’er ”tokeniserer” på, velbevarede forretningshemmeligheder) og beregne den statistiske sandsynlighed for, at kombinationer af disse tokens forekommer i autentisk sprog.

Åbne og lukkede referencekataloger

Med andre ord hjælper referencekataloget ikke blot LLM’en med at modellere sproget, det er også referencekataloget, der bestemmer, hvilke emner du kan chatte med LLM’en om. I skrivende stund er OpenAI’s GTP-3 model baseret på et lukket referencekatalog, der blev indsamlet til og med 2021. Der er med andre ord grænser for, hvad du kan chatte med ChatGPT om. Hvis du spørger den om krigen i Ukraine, vil den skrive om Ruslands invasion af Krim i 2014. Den aktuelle krig i Ukraine startede først efter, at referencekataloget var færdigindsamlet, så ChatGPT kan ikke skrive om den.

Men om ganske kort tid lancerer Microsoft efter planen en ny version af søgemaskinen Bing, der vil være integreret med den kommende GTP-4 model. Når det sker, vil referencekataloget i princippet være åbent, og alt, der er tilgængeligt på nettet, vil være en del af modellens ”ordbog”.

Regelbøger eller beskrivelser

Sprogforskere har drømt om at skabe perfekte modeller af sproget siden schweiziske Ferdinand de Saussure i begyndelsen af det tyvende århundrede begyndte at skelne skarpt mellem ”sprogsystemet” og ”sprogbrugen”.

Sprogvidenskabens opgave var, mente han, at studere det ”sprogsystem” (de principper, regler og betingelser), der ligger til grund for al sprogbrug, og det ville være en fejl at fokusere på konkret sprogbrug, som jo ofte er rodet, irrationel og endda stærkt individuel. I store dele af det tyvende århundrede arbejdede sprogforskere sådan. Man koncentrerede sig om at skrive regelbøgerne og ignorerede den rodede måde, folk faktisk talte og skrev på. Det gjorde man ofte ud fra sætningseksempler, som sprogforskeren selv havde opfundet, for at afprøve et eller andet princip.

I dag omtaler man den praksis som ”lænestols-lingvistik”. Var man blevet i lænestolen, var LLM’erne, som vi nu kender dem, ikke blevet til, for regelbaserede sprogmodeller har vist sig alt for ufleksible som grundlag for at generere autentisk sprog.

Op af lænestolen og ud i verden

Men i slutningen af 1960’erne begyndte fokus at skifte fra regler og principper til det sprog, der rent faktisk tales af folk. Man begyndte fx at interessere sig for forskelle i den måde, forskellige samfundsgrupper bruger det samme sprog på. Det blev almindeligt at indsamle og sammenligne større mængder materiale fra fx forskellige indkomstgrupper og studere forskelle i deres sprogs sætningskompleksitet, ordvalg og lignende. Og for at få overblik over det stadigt større tekstmateriale begyndte man i tiltagende grad at beskrive det statistisk.

Dermed var vejen til Large Language Models (LLM’er) åben, for når man først har en god statistisk beskrivelse af hyppigheder og frekvenser af forskellige sproglige fænomener, kan man bruge den til at komme med forudsigelser – lidt lige som en kortspiller, der tæller kort på et kasino. Når du ved, hvilke kort, der er i en pakke og hvilke, der allerede er i spil, kan du beregne sandsynligheden (probabiliteten) for hvilket kort, der kommer i spil som det næste. Et sprog er naturligvis uendeligt mere komplekst end et kortspil, men analogien illustrerer stadig en central pointe.

Probabilistiske sprogmodeller

Stærkt forsimplet beskriver en probabilistisk sprogmodel som en LLM sandsynligheden for, at en given bogstavstreng vil blive fortsat på en bestemt måde. Det har man opnået ved at lave stadigt mere komplicerede statistiske beskrivelser af bogstavsammenstillinger (sandsynligheden for sammenstillingen ’a-t’ er større end sandsynligheden for ’a-o’) i et enormt stort datamateriale.

Modellen beskriver fx, at det er mere sandsynligt at sætningen ”Det var en mørk og stormfuld aften. En dør smækkede […]” fortsætter med ”[…] og kvinden skreg” og ikke ”[…] og en ubåd dykkede ned under indlandsisen”. Det kan den, fordi dens træningssæt rummer mange tekster, der sammenstiller genrekarakteristiske ord som ’storm’, ’aften’, ’mørke’, og ’skrig’. Disse ord er ikke ret tit sammenstillet med ’indlandsis’ og ’ubåd’.

Sprogmodellen kan hele tiden indsætte den mest sandsynlige næste token i en streng af tokens. Og det er ikke bare et udvalg, men principielt alle kombinationer af alle tokens i træningsdatasættet, modellen laver statistik på. Udviklingen af LLM’er kræver dermed uhyre stor processorkapacitet og lagerplads, og derfor er teknologien først blevet mulig det seneste årti.

Du kender LLM’er mange steder fra

Feltet er fortsat med at vokse med tiltagende fart og inddrage indsigter og teknikker fra forskning i kunstig intelligens, maskinlæring og kognitionsforskning. I dag kender vi probabilistiske sprogmodeller fra en lang række hverdagssituationer: Den kunstige tale i bilers navigationssystem er baseret på probabilistiske sprogmodeller, og det er virtuelle assistenter som Siri og Alexa også. Når vi frustreres over ”the damned autocorrect”, er det fordi, vi har mødt den bagvedliggende sprogmodels begrænsninger. Du kender også LLM’er fra Google translate, antiplagieringssoftware og meget andet – og senest altså også fra intelligente chatbots.

 

Læs også de andre artikler om AI og sprogmodeller

 

Artikel 1 i serien: Kys! Bang! Zap! Brug ChatGPT til at undersøge litterære genrer.

Artikel 2 i serien: Men hvad skete der så?!? Fortæl historier med ChatGPT

Artikel 4 i serien: Undgå at menneskeliggøre AI, når du taler med elever

 

Tilmeld nyhedsbrev
×
Læremiddel-interesseret?

Tilmeld dig vores nyhedsbreve og få nyheder, ny viden og ny forskning direkte i din indbakke.