Lielie valodas modeļi ir tehnoloģija, kas pazīstama jau vairākus gadus, bet plašākā sabiedrībā atpazīstamību ieguva tikai nesen, pēc "ChatGPT" pakalpojuma radīšanas. Lai arī "ChatGPT" un citi ģeneratīvajos modeļos balstītie virtuālie asistenti īsā laikā jau paguvuši iziet pilnu ažiotāžas un sabiedrības vilšanās ciklu, šķiet, nav pamata apšaubīt, ka šādi modeļi arī turpmāk tiks izmantoti dažādu sadzīvisku, profesionālu un pētniecisku uzdevumu veikšanai.
Kas īsti ir lielie valodu modeļi? Kā to parādīšanās ietekmē latviešu valodu un zinātnieku darbu? Cik digitāli spēcīga ir latviešu valoda? Vai mums jebkad būs pašiem savs latviski trenēts lielais valodu modelis, un vai tādu vispār vajag?
Par šiem un citiem jautājumiem, kas saistīti ar lielo valodas modeļu parādīšanos ikdienā un zinātnē, sarunājas LNB Digitālās pētniecības pakalpojumu vadītāja un LU Ekonomikas un sociālo zinātņu fakultātes un Humanitāro zinātņu fakultātes lektore Anda Baklāne un LU Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijas (AiLab) vadītājs un LU Eksakto zinātņu un tehnoloģiju fakultātes asociētais profesors Normunds Grūzītis.
Anda Baklāne: Meklējot informāciju par to, kāds ir latviešu valodas digitālās attīstības līmenis, ilgu laiku atsauces teksts bija 2012. gadā veiktais "MetaNet" pētījums [1], kura rezultāti rādīja, ka latviešu valoda digitālajā vidē ir resursiem nabadzīga. Vai tā ir joprojām?
Normunds Grūzītis: Noteikti ne. Es domāju, ka arī tobrīd situācija nebija tik slikta, kā rāda dažādas metrikas. Latviešu valoda noteikti nebija resursiem nabadzīga. Viss ir relatīvs, protams. Viena lieta ir salīdzināt ar lielajām valodām – angļu, franču, vācu, bet, ja salīdzinām ar citām Eiropas mazajām valodām, kaut vai islandiešu valodu kā tipisku piemēru, tad mūsu valoda ir resursiem bagātāka. Katrā ziņā pietiekami, lai varētu izdarīt daudz vērtīgu lietu valodu tehnoloģijās.
Anda: Kas vispār ir valodas resurss?
Normunds: Varam dalīt divās lielās grupās. Pirmā ir dati, ar ko ļoti plaši tiek saprastas tekstu kolekcijas, arhīvi, runātās valodas ieraksti un tamlīdzīgi – tā saucamie teksta un runas korpusi, mašīnlasāmās vārdnīcas. Otra ir dažādi rīki. Rīki, īpaši mūsdienās, ir jānošķir divos zaros. Viens ir tā saucamie valodas modeļi – mākslīgais intelekts. Un tad ir visādi programmrīki, kur šie modeļi ir integrēti, lai varētu paveikt konkrētus uzdevumus. Bet kombinācijas var būt ļoti dažādas. Tas pats visiem zināmais "ChatGPT" – pats rīks un tā lietotāja saskarne ir ļoti vienkārša: viens lodziņš, viena podziņa, bet apakšā ir ļoti sarežģīts modelis, ar kuru cilvēks sarunājas. No otras puses, industrijā var būt dažādas darbplūsmas, biznesa procesi un tā tālāk, kas paši par sevi ir ļoti sarežģīti, ar sarežģītiem rīkiem un saskarnēm, bet modeļi, kas integrēti atsevišķos soļos, var būt pavisam vienkārši.
Anda: Vai ir kāds rīks, kura mums pietrūkst un ko steidzami vajadzētu izstrādāt?
Normunds: Rīks – tas nozīmē vajadzību. Bumbiņa ir lietotāju pusē – vai mums kaut kā pietrūkst? Tehnoloģiju ziņā mums viss kaut kas ir: runas atpazīšana, automātiska transkribēšana, mašīntulkošana, valodas ģenerēšana. Ne obligāti viss ir mūsu pašu taisīts. Mūsdienās lielie modeļi ir daudzvalodīgi – apgūstot lielās valodas, tie iemācījušies arī daudzas mazākas, un to mēs varam izmantot un integrēt savos rīkos.
Anda: Ja vajadzētu īsi un precīzi definēt – kas tad ir mākslīgā intelekta tehnoloģijas? Kas ir lielie valodas modeļi, un kā tie atšķiras no iepriekšējās paaudzes tehnoloģijām?
Normunds: Agrāk mēs katram uzdevumam būvējām ļoti atšķirīgus risinājumus. Teiksim, ja mums vajadzēja gramatiski analizēt, saprast vai tulkot tekstu, izstrādājām dažādas metodes, katrai valodai un katram uzdevumam savu. Pamazām tas viss ir reducējies uz nosacīti vienu tehnoloģiju, ar ko tiek risināta lielākā daļa valodas apstrādes problēmu. Valodu tehnoloģiju ekosistēma ir kļuvusi vairāk standartizēta: mums ir standarta valodas modeļi – neironu tīklu arhitektūras. Protams, tās ir dažādas un vajadzības gadījumā tiek pielāgotas attiecīgajiem uzdevumiem, bet tehnoloģiskais kodols ir viens liels āmurs, ar ko varam dzīt visas nagliņas.
Anda: Cik lielā mērā tos programmatūras risinājumus, ko jūs agrāk izmantojāt LU MII, aizstās tieši lielo valodas modeļu tehnoloģijas? Un kam joprojām varēs izmantot iepriekšējās paaudzes tehnoloģijas?
Normunds: Skaidrs, ka tehnoloģijas nāk un iet, un vietā nāk jaunas. Tas nebūt nenozīmē, ka tehnoloģijas, ko izmantojam šobrīd, izmantosim arī pēc pieciem vai desmit gadiem. Patiesībā tehnoloģiju attīstību var salīdzināt ar spirāli vai pendeli, kas svārstās no vienas puses uz otru. Ir haips, kad visi skrien līdzi jaunai tehnoloģijai, un tam seko zināma vilšanās, ja tehnoloģija nevar atrisināt visas problēmas. Pirms gada diskutējām, ka tagad visus atlaidīs no darba, jo cilvēki vairs nebūs vajadzīgi. Tagad visi ir nomierinājušies. Pendele svārstās – ienāk jaunās tehnoloģijas, mēs ar citām acīm paskatāmies uz iepriekšējām zināšanām un tehnoloģijām, sākam kombinēt. Savukārt spirāles princips nozīmē, ka atkal nonākam tur, kur jau bijām, bet ar citu izpratni, citām zināšanām. Neironu tīkli arī nav izgudroti pirms dažiem gadiem. Tehnoloģija ir jau sen, bet pielietojums radies šobrīd, jo visi citi vaļi arī sastājušies savās vietās – mums ir lieli dati, pietiekama skaitļošanas jauda un tā tālāk.
Anda: Nacionālajā bibliotēkā esam palikuši uz mazas pauzes, jo iestrādes, kas mums bija pirms lielajiem valodas modeļiem, šķiet, vajadzēs aizstāt. Pakalpojuma ideja paliktu tā pati. Piemēram, sagrupēt periodikas rakstus pa tematiem, dot rekomendācijas, dot kopsavilkumus, atrast līdzīgus tekstu fragmentus un tā tālāk. Tās funkcijas, ko mēs gribētu piedāvāt lasītājiem, ir palikušas, bet tas, kā mēs to izdarīsim un kāds būs algoritms, šobrīd nav līdz galam skaidrs. Ja vecais algoritms bija brīvi pieejams, par velti lietojams kods, ko varējām paņemt un vienkārši uzlikt tam pa virsu kādu grafisko saskarni, tad pašlaik jāgaida, kas notiks ar lielo valodas modeļu pakalpojumu izmaksām. Kā tev izskatās – kādā pakalpojuma režīmā lielie valodas modeļi mums būs pieejami tuvākajos gados?
Normunds: Ja kaut kas tiešām strādā konkrētam uzdevumam, kāpēc mest to miskastē? Nevajag pa visiem zvirbuļiem šaut ar lielgabalu, ja var izmantot arī vienkāršākus, lētākus, racionālākus risinājumus. Cilvēkiem tagad gribas aizstāt visus risinājumus ar "lielo" mākslīgo intelektu, bet tas ne vienmēr ir nepieciešams – ir arī mazāki modeļi, kas vēl nesen tika saukti par lielajiem valodas modeļiem un kas palīdz, piemēram, būtiski uzlabot meklēšanas funkcionalitāti: mēs varam meklēt ne vairs pēc precīziem atslēgvārdiem, bet pēc satura, idejas, jēgas. Tāpat ar runas transkribēšanu – tas ir viens konkrēts modelis konkrētam uzdevumam – mazāks nekā milzīgais ģeneratīvais modelis, bet ļoti labi veic savu darbu.
Anda: Ja runājam par konkrētām lietām, ņemsim vienu piemēru. Mākslīgā intelekta laboratorija izstrādājusi tā dēvēto "nosaukto entitāšu atrašanas" risinājumu. Varbūt tu vari pastāstīt vairāk, jo man tā šķiet lieliska lieta.
Normunds: Tas varbūt nav pārāk veikls tulkojums no angliskā named entity recognition; uzdevums tātad ir tekstā, teksta arhīvos pamanīt pieminētās personas, uzņēmumus, vietas, notikumus, dažādas laika atsauces, naudas vienības un tā tālāk. Tā ir problēma, ko var efektīvi risināt ar specializētu, samērā miniatūru valodas modelīti. To, protams, tikpat labi vai vēl labāk var darīt arī ar lielo "GPT" – tas atkarīgs no tā, cik labi mums izdodas definēt uzdevumu vai kādi mums ir ieejas dati. Bet ir jautājums – vai vajag to lielo modeli, kur katrs vaicājums maksā, ja ir mazais modelītis, kam pajautāt nemaksā neko?
Anda: Bet vai mums jau ir mazais modelītis?
Normunds: Nu, mazais modelītis mums ir un ne viens vien. Turklāt, ja agrāk pētniecības komandas un industrijas uzņēmumi strādāja pie vienas vai dažām valodām, šobrīd valodu tehnoloģiju industrija kļuvusi ļoti daudzvalodīga. Mums vairs nav katrai valodai jātaisa kaut kas specifisks.
Anda: Kuri modeļi kaut ko spēj izdarīt ar latviešu valodu, un kas Latvijā tiek izmantots? Valodas modeļu, tostarp lielo, jau ir simtiem.
Normunds: Mēs vairs pat nevaram uzskaitīt visus valodas modeļus… Plašāk zināmais vārds ir "GPT", bet viss aizsākas ar valodas modeli "BERT". Un arī Bertam jau labu laiku ir vesela ģimene – Roberts, Alberts un tā tālāk. Ar šo ģimenīti aizsākās šis jaunais vilnis, kura rezultātā mums pēkšņi ir āmurs, kas der visām nagliņām – ļoti labi spēj orientēties kontekstā, saprast, kam jāpievērš uzmanība, kā viss teikumā sasaistās. Tie vairs nav tikai statistiski modelīši vai modelīši ar ļoti īsu atmiņu – konteksts, ko šie modeļi spēj analizēt, kļūst arvien garāks. Bet, protams, mazais modelītis nespēs darīt to, ko lielais "GPT", piemēram, efektīvi ģenerēt tekstu.
Anda: Kas būtu jādara, lai latviešu valodai būt tikpat fantastisks ģeneratīvais lielais valodas modelis, kurš spēj atbildēt uz visiem jautājumiem, rakstīt romānus un projekta pieteikumus, kvalitatīvi tulkot no dažādām valodām uz latviešu valodu? Ko tas mums prasītu – satrenēt šādu modeli? Kādi šķēršļi mums kavē pie tā nonākt?
Normunds: Vai tad latviešu valodai tas jau nav pieejams? Tas pats "GPT-4" un "GPT-4o" it kā taču dara visas šīs lietas.
Anda: Jā, bet ne tik labi kā angļu valodā.
Normunds: Ir jautājums – vai mēs vispār varam uztaisīt modeli, kas latviešu valodā darbojas tikpat labi kā "GPT-4"?
Anda: Tas ir mans jautājums – kas būtu jādara, lai es varētu modelim pateikt: "uzraksti man romānu, ko es varu labi pārdot nākamajā Frankfurtes grāmatu tirgū"? Man vajag tādu modeli!
Normunds: Tādu modeli, kurš būtu specifisks mūsu kultūrai, mūsu literatūras mantojumam…
Anda: Mums būtu jāsavāc komisija, kas uzraksta pareizu uzvedni, lai šis brīnišķīgais aparāts spētu uzrakstīt labi pārdodamu romānu.
Normunds: Nu, uzvednes un uzvedņu inženierija, protams, ir viena lieta. Droši vien tu arī esi eksperimentējusi "ChatGPT" – varbūt kaut kādus tekstus tas ģenerē, bet tam ir diezgan angliska dzīvesziņa. Kad "ChatGPT" vēl nebija iznācis, bet "GPT" modelis jau bija pieejams, daži ar to sāka spēlēties – mēs arī spēlējāmies un mēģinājām ģenerēt, piemēram, pasakas. Tobrīd "GPT-3" latviski vēl runāja mazliet lauzīti, bet tīri labi. Spēja ģenerēt arī gramatiski pieklājīgu tekstu. Arī saturs bija loģisks, bet tā dzīvesziņa nebija gluži tāda kā latviešu pasakās, bet gan tuvāka tai, kas ir "kapitālistiskajā" Amerikā. Ir vajadzīgi dati latviešu valodā, mūsu digitālais kultūras mantojums.
Anda: Es savulaik "ChatGPT" jautāju, cik daudz datu vajadzīgs, lai satrenētu lielo valodas modeli. Tas atbildēja, ka būtu nepieciešami kādi četrdesmit pieci terabaiti jeb simtiem miljardu vārdu. Vai tev tas šķiet ticami?
Normunds: Šis skaitlis droši vien attiecas uz lielajiem modeļiem, kas primāri ir apmācīti ar lielo valodu datiem. Vai latviešu valodā vispār pieejams tik daudz satura? To droši vien labāk spētu izvērtēt pati bibliotēka.
Anda: Ja mēs pacenstos, gan jau varētu izrēķināt, cik daudz datu ir visā digitālajā bibliotēkā. Ja runa ir par datu kopām, kas ir formāts, kas piemērots modeļu trenēšanai, ikdienas apritē bibliotēkā ir kāds pusmiljards vārdu – vairāk nekā tūkstotis grāmatu un liela apjoma periodikas dati. Tātad pusmiljards, salīdzinot ar divsimt miljardiem. Vai tev ir priekšstats, cik lielas datu kopas ikdienā ir AiLab apritē?
Normunds: AiLab pats neražo saturu. Mēs izmantojam citu radītus tekstus un audio ierakstus, veidojam teksta un runas korpusus, tajā skaitā sadarbībā ar bibliotēku. Nacionālajā korpusu kolekcijā [2], ko mēs veidojam kopā ar kādām padsmit institūcijām, šobrīd ir gandrīz četrdesmit tādas datu kopas jeb tā saucamie valodas korpusi – apkopoti, sakārtoti, strukturēti. Mums visiem kopā laikam nav pat trīs miljardu vārdu liela, kvalitatīva teksta masīva. Protams, ka eksistē daudz vairāk.
Anda: Tur tā lieta – trūkst kvalitatīva teksta, jo es lēšu, ka tas pusmiljards, ko mēs izmantojam, veido varbūt pāris procentus no digitālās bibliotēkas satura. Bet ir divi šķēršļi tam, lai mēs modeļu trenēšanai izmantotu visu digitālo bibliotēku. Pirmkārt, vecākā daļa ir sliktā kvalitātē, ar optiskās atpazīšanas kļūdām. Savukārt jaunākā daļa ir aizsargāta ar autortiesībām. To varētu risināt, slēdzot līgumus, bet tas droši vien radītu izmaksas. Turklāt šie modeļi, kuros izmantoti ar autortiesībām aizsargāti dati, nevarētu tikt izmantoti atvērtā piekļuvē.
Normunds: Paskatoties uz autortiesību jautājumu jaunām acīm, mēs visi būtu ieguvēji. Tas priekšstats droši vien ir, ka mēs gribam paņemt no citiem viņu datus un izmantot sava labuma gūšanai. Tāpēc ir angliskie termini fair use un fair share, kas nozīmē, ka mēs datus izmantojam un modeļus veidojam godprātīgi. No otras puses, jādomā arī, lai visi būtu ieguvēji, arī datu devēji. Varbūt tas ir kas līdzīgs "Spotify", kur katrs, kurš dalās ar datiem, nopelna savu daļiņu.
Anda: Par naudu runājot – droši vien visi pamanījuši, ka mākslīgā intelekta vilnis iet atplūdos un redzami pat tādi skandalozi virsraksti, ka "OpenAI" ("ChatGPT" veidotājs) varētu bankrotēt vai ka mākslīgā intelekta burbulis tūlīt plīsīs. Iespējams, ka plīsīs, bet tas taču nenozīmē, ka lielie valodas modeļi pēkšņi kļūs neaktuāli?
Normunds: Te noteikti jānošķir divas lietas – akciju tirgus un tehnoloģija. Tehnoloģija ir uz palikšanu. Ko mēs ar to varējām izdarīt vakar, varēsim izdarīt arī rīt un vēl labāk. Tas, kas notiek akciju tirgū, ir pilnīgi cits jautājums. Bet es neesmu finanšu analītiķis.
Anda: Jautājums – vai mums kā sabiedrībai ir izdevīgi tik daudz ieguldīt šajā tehnoloģijā? Tā katrā ziņā ir noderīga, mēs to nenoliedzam, bet vai tā ir ieguldījumu vērta? Mēs arī zinām, ka šie serveri ēd ļoti daudz elektrības, dzer ļoti daudz ūdens, nav ekoloģiski. Vai tās dažas lietas, ko mēs tagad varēsim izdarīt ātrāk un efektīvāk, atsver ieguldījumus?
Normunds: Jā un nē. Te ir vismaz triju veidu intereses, kas savā starpā mijiedarbojas, bet tomēr ir dažādas. Ja mēs runājam par komerciālām interesēm, tad diez vai kādam būtu tiešām izdevīgi investēt milzīgus savus līdzekļus, lai no nulles uztrenētu milzīgu latviešu valodai specifisku modeli. To izdarīt var, bet tas diez vai atmaksāsies. Bet ir arī akadēmiskās intereses. Ja industrijā ir jāspēj nopelnīt, tad zinātnē un pētniecībā jāļauj eksperimentēt. Mēs bieži vien jau iepriekš apzināmies, ka tērēsim vairāk, nekā varēsim atgūt īstermiņā, bet ir ļoti būtiski iegūt un attīstīt zināšanas lielo modeļu trenēšanā. Protams, ka industrija un zinātne – tās nav ar lineālu nodalāmas pasaules, mums ir arī ļoti daudz pētniecisko projektu sadarbībā ar industriju.
Tāpat industrija neizbēgami nodarbojas ar pētniecību, lai attīstītu savus produktus. Bet tad ir vēl trešās intereses – nacionālās intereses: valoda, kultūra, drošība. Un šie modeļi saistās ar visām trim. Mums vairs pat nav aktuāls jautājums, vai to var atpelnīt un vai tas ir racionāli. Ja mēs gribam pastāvēt kā nācija, tad mums tas ir vajadzīgs.
Anda: Vai mums vajag Latvijā radītu, nekomerciālu modeli tieši drošības apsvērumu dēļ? Jo mēs negribam, lai šāds pakalpojums būtu tikai kādas ārvalstu korporācijas rokās?
Normunds: Tas atkal nav gluži "jā" vai "nē" jautājums. Ja mēs pieņemam, ka mums ir resursi, lai šādu modeli trenētu, tad darām visu no nulles un ieguldām milzīgus līdzekļus, lai uztaisītu bāzes modeli, kas pats par sevi vēl nebūs lietojams, bet var tikt pielāgots un instruēts konkrētiem uzdevumiem. Šis modelis varētu būt neatkarīgs no ārzemju korporācijām, bet, tā kā mēs dzīvojam daudzvalodīgā pasaulē, līdzīgas lietas dara arī citās valstīs, tāpēc nākamais jautājums – vai tiešām labāk darīt visu no nulles? Protams, ja tāda iespēja nokrīt no gaisa un ir finansējums, ir skaitļošanas resursi, tad obligāti darām. Tas atbilst akadēmiskajām interesēm – ja mēs varam uz vietas iegūt kādu zinātību, to vajag darīt. Taču, ja mums ir gan ierobežots datu daudzums, gan skaitļošanas resursi, gan finansiālie līdzekļi, tad loģiskāk būtu pakāpties uz kāda atvērta un jau satrenēta modeļa pleciem. Piemēram, nesen "Meta" izlaida modeli "Llama 3", kam ir 400 miljardi parametru – tas ir milzīgs un trenēts aptuveni 140 valodās. Starp tām ir dažas prioritārās valodas, kurās bijis daudz datu, un tad ir tādas valodas kā latviešu valoda, kur datu bijis mazāk. Tik un tā šis brīvi pieejamais modelis jau tagad spēj radīt ļoti labu tekstu latviski, balstoties uz zināšanām, kas iegūtas citās valodās. Un rīt noteikti parādīsies kāds cits atvērtais modelis, kas būs labāks par šo.
Anda: Ir cilvēki, kas apgalvo, ka mums pašiem nav vērts neko trenēt, jo mēs nekad netiksim līdzi lielajiem – tas pats "GPT" vienmēr piedāvās labāku modeli. Turklāt pieņemsim, ka mēs satrenējam savējo, bet kur ņemt naudu, lai to attīstītu?
Normunds: Tāpēc ir vēl trešā opcija – neko netrenēt un nepielāgot. Teiksim, ņemam "Llamu", "Gemmu" vai kāda cita atvērtā modeļa jaunāko versiju un lietojam tādu, kāda tā ir. Ir plaša problēmu grupa, kurā šādi var ļoti labi risināt dažādus procesu automatizācijas uzdevumus. Teiksim, aizpildīt garlaicīgas veidlapas, atlasot un izmantojot atbilstošo informāciju uzņēmumu vai valsts reģistru datubāzēs. To visu var izdarīt ar esošajiem modeļiem, nemēģinot tos pielāgot mūsu valodas vai kultūras niansēm, bet padodot aktuālo informāciju uzdevuma kontekstā. Tā ir tā saucamā Retrieval Augmented Generation jeb "RAG" metode [3], kas būtībā ir viens no galvenajiem industrijas jājamzirdziņiem un veids, kā šobrīd pelnīt naudu ar lielajiem modeļiem. Mēs integrējam tos esošajās informatīvajās sistēmās, saliekam kontekstā kopā ar uzvednēm un, teiksim, veidojam kopsavilkumus, aizpildām veidlapas, atbildam uz specifiskiem jautājumiem. Vienlaikus tas ir virziens, kurā mēs šos "inteliģentos" valodas modeļus, kas salasījušies literatūru un vēsturi un spēj ar mums šķietami cilvēcīgi diskutēt un filozofēt par lielām lietām, padarām par darba zirgiem ar klapēm uz acīm: tagad, lūdzu, nedomā ne ne pa labi, ne pa kreisi un tikai dari šo mehānisko darbu!
Anda: Es varētu pastāstīt par vienu no plāniem, ko mēs gribētu īstenot bibliotēkā, iespējams, ar "RAG" palīdzību – mākslīgais intelekts, integrēts digitālās bibliotēkas platformā, varētu atbildēt uz jautājumiem, līdzīgi kā "ChatGPT" to dara, un dotu rindkopas apmēra kopsavilkumus ar atsauču sarakstu blakus – nevis izdomātu, izfantazētu, bet reālu, no digitālās bibliotēkas resursiem. Respektīvi, tas būtu tas pats mākslīgā intelekta pakalpojums, ko jau pazīstam, tikai tā atbildes būtu patiešām saistītas ar mūsu resursiem un tas neizgudrotu to, kā tur nav, proti, nedotu izdomātas atbildes. Vai ar to latviešu valodas līmeni, kāds pašreiz ir "Llama", tas būtu iespējams?
Normunds: Ja mēs izmantojam "RAG" metodi, tad vārds "trenēšana" vairs nav aktuāls. Mēs ņemam gatavu modeli un veidojam uzvedni, piemēram, atbildēt bibliotēkas lasītājam uz konkrētu jautājumu. Bet, pirms šī uzvedne tiek darbināta, bibliotēkas arhīvā jāsameklē relevanta informācija. Teiksim, es vēlos parunāt par Blaumaņa novelēm – padiskutēt, saprast labāk. Tātad modeļa pirmais uzdevums ir – saprast kontekstu jeb atrast visas Blaumaņa noveles un citus darbus par šīm novelēm, un te ļoti labi var noderēt jau iepriekš pieminētie "BERT" tipa modeļi: šie mazie modelīši, kas nemaksā neko, bet spēj labi saprast jautājumus un palīdzēt atrast tiem atbilstošu informāciju datubāzē. Un, kad visa atbilstošā literatūra ir atrasta, mēs to teorētiski varam salikt sarunas kontekstā, t.i., likt modelim izlasīt un tad uzdot interesējošos jautājumus. Cits jautājums – vai modelis spēj tikt galā ar tik lielu kontekstu? Ar vienu noveli, visticamāk, tiks galā visi modeļi, jo tur šis konteksts varētu iekļauties kādos 8000 vārdos. Ar noveļu krājumu – kā nu kurš modelis, savukārt visu Blaumaņa tekstu kopumu būs pagrūti ielikt atvērtā koda modeļos. Vēl pirms pāris gadiem 1000 vārdu konteksta logs bija kaut kas iespaidīgs. Šie paši "BERT" modeļi strādāja ar vēl īsākiem konteksta logiem. Tad parādījās "GPT" tipa modeļi, kas var kontekstā analizēt tūkstošiem vārdu. "GPT-4" tie ir 128 tūkstoši. "Gemini Pro" versija sola jau miljonu.
Anda: Viena no pašreizējo modeļu problēmām ir, ka to prognozes var būt nepareizas – tiek izdomāti dati, kuru īstenībā nav. Ja čatbots atbild uz jautājumu nepareizi, mēs to izlasām un uzķeram. Bet masveida datu apstrādē kļūdas nevaram uzķert. Piemēram, ja pārnesam vecu datu struktūru uz jaunu, modelis aizpilda datus, kur to iepriekš nebija, piemēram, laukā, kur izdevumam nebija zināms gads, modelis izdomā, kāds gads tas būtu varējis būt. Mēs nekad nevarētu to visu izlasīt vēlreiz un pārbaudīt, tāpēc pašlaik ir arī zināma skepse, lai gan pirmajā acu uzmetienā izskatās, ka rezultāti ir brīnumaini labi.
Normunds: Būtisks ir cilvēks. Jautājums – kā mēs modeli lietojam? Vai naivi ceram, ka tas visu izdarīs un mēs varam iet mājās? Protams, nākamā vārda ģenerēšana vienmēr notiks un modelis to atspēries darīs, cik tik vien prasīsim, bet veiksmīgākās būs tās darbplūsmas, kurās piedalīsies arī cilvēks. Modelis ir kā cilvēka asistents, nevis aizstājējs. Ir vesela čupa uzdevumu, kurus var tiešām pilnībā automatizēt. Kaut vai tā pati numurzīmju atpazīšana – neviens jau nestāv un nepārbauda, vai kamera mūs pareizi atpazina pie barjeras. Vienkārši tas strādā tik labi, ka niecīgs kļūdu procents nav svarīgs. Bet tie nav ģeneratīvie modeļi – ar ģeneratīvajiem modeļiem vislabāk strādā tās darbplūsmas, kur pie kontroles pogām tomēr ir cilvēks, bet modelis palīdz procesu padarīt efektīvāku, ātrāku.
Anda: Līdz šim šķita, ka arvien pieaugošā automatizācija varētu novest pie arvien lielākas precizitātes, bet izskatās, ka mēs nekad neizkļūsim no kļūdu laikmeta. Tie, kas strādā ar datiem, labi zina, ka datu labošana un kārtošana patērē ļoti daudz laika salīdzinājumā ar datu analīzi. Un kļūdas šķiet nebeidzamas. Nesens piemērs. Mēs bibliotēkā pētām latviešu romānu atkārtotos izdevumus. Kaut kādā automatizācijas procesa posmā apgāds "Daugava" mums ir kļuvis par "Radisson Blu Daugava". Mēs to pat nepamanām, jo rakstām par simtiem izdevēju. Un tikai recenzents, izvērtējot akadēmisko rakstu, jautā, kas jums tā par izdevniecību "Radisson Blu". Cilvēks tāda veida kļūdas nekad nepieļautu. Cilvēks pieļauj cita veida kļūdu, bet šādu ne.
Normunds: Vēl viena lieta, kas varbūt paslīd garām. Rakstot uzvednes "ChatGPT" lodziņā, mēs mēģinām modeli ierobežot, fokusēt. Bet, ja modelis būtu mūsu lielākā kontrolē, mēs varētu mainīt dažādus tā parametrus, piemēram, regulēt tā "temperatūru". Tas nozīmē regulēt modeļa uzvedību un radošuma pakāpi. Katrā teksta ģenerēšanas solī modelis izvērtē varbūtību sadalījumu nākamā ticamākā vārda vai vārda daļas izvēlei. Ja modelim iestatīta zema temperatūra, tas vienmēr izvēlēsies visticamākos nākamos vārdus, taču ar augstāku temperatūru tiks izmantoti arī vārdi ar nedaudz mazāku varbūtību, kas būtiski ietekmē rezultātu.
Anda: Mēs abi bijām vasaras skolā [4], kurā uzstājās arī filozofe Līva Rotkale, kura ir vīlusies lielajos publiskajos valodas modeļos. Viņa teica, ka, piemēram, "ChatGPT" radot ļoti neoriģinālas metaforas. Es tieši iedomājos – ja to temperatūru varētu pagriezt augstāk, tās metaforas būtu tik oriģinālas, ka tik turies.
Normunds: Līdz pat nesakarīgām.
Anda: Kad šie lielie modeļi vēl nebija publiskā piekļuvē, pirmie zinātniski mākslinieciskie eksperimenti bija tieši tādi, kur nonsenss nāca ārā. Cilvēkam ļoti patīk šāda nozīmes nenoteiktība, viņš to uztver kā ko ļoti māksliniecisku. Ja pareizi sabalansē nenoteiktību, mākslīgais intelekts labi spēj radīt kaut ko, kas cilvēka ausīm izklausās radošs un nebūt ne mehānisks, kā mēs mēdzam domāt par tehnoloģiju radītiem produktiem. Ir versija, ka, piemēram, izklaides saturs būs arvien vairāk automatizēts. Un mākslinieciski augstvērtīgos darbos atsevišķas daļas, piemēram, dialogi vai raksturojumi, tiks veidotas daļēji automatizēti. Līdzīgi kā tas notiek, radot datorspēles – tur ir komandas radošais ieguldījums, bet tajā pašā laikā daudz kas no tā ir automatizēts – izkrāsošana, formu pabeigšana. Vai kaut kas tāds notiks arī ar tekstiem, kas tradicionāli bijuši cilvēku vārdu pa vārdam rakstīti? Ja šo saturu būs pārāk viegli radīt, tas, iespējams, kļūs arvien neinteresantāks cilvēkiem un pēc tā nebūs pieprasījuma. Varbūt nevienu vairs neinteresēs izklaides literatūra, absurda, nonsensa māksla un konceptuālā māksla, jo tas nebūs atšķirams no valodas modeļu produktiem. Varbūt mūs arvien mazāk interesēs arī humanitāro zinātņu akadēmiskie raksti, jo interpretācijas daļa, ko mēs tradicionāli tajos redzam, bieži ir tik nonsensīga, ka atšķirt to no kvalitatīva "ChatGPT" produkta nav iespējams. Vai tev ir līdzīgas apokaliptiskas pārdomas par jomu, kurā darbojies?
Normunds: Apokaliptisku pārdomu man nav. Es domāju, ka tās ir bērnu slimības, kas mums visiem jāizslimo. Un tad jau laiks rādīs, kas no tā dzīvos un kas nomirs dabiskā nāvē. Protams, ka jau pirmajos mēnešos pēc "ChatGPT" palaišanas parādījās robotiņi, kas "Amazon" tirgoja grāmatas, un bija muļķīši, kas tās grāmatas pirka un lasīja. Parādās kaut kas jauns, un cilvēki taustās, meklē.
Mēs pēdējā laikā savā laboratorijā esam ļoti daudz diskutējuši par to, ko modeļi spēj un ko nespēj izdarīt. Jau 2016. gadā mēs ieviesām jaunvārdu "tekstrade" un spriedām, kas tā ir, kur ir tās robežas? Ko tad šie jaunie modeļi īsti spēj darīt? Skaidrs, tie spēj veidot un noformēt tekstu, kas labi izskatās un labi lasās. Bet vai ar tekstradi pietiek? Nākamais vārdiņš, pie kā mēs nonācām, ir domrade. Vai jaunie modeļi ir spējīgi ģenerēt jaunas idejas? Daļēji, taču ir reālā pasaule un reālie eksperimenti, notikumi, no kuriem rodas jaunas atziņas un tiek veikti atklājumi – šeit modeļu spējas šķiet apstājas: sasaiste ar fizisko pasauli nav tik acīmredzama. Radīt tekstu, labi izteikties, lasīt, runāt, ģenerēt kaut kādas idejas – tās ir lietas, ko modeļi var veikt ļoti labi. Es domāju: tas ir pilnībā okei, ja literāts, filozofs, vēsturnieks vai jeburš cits zinātnieks izmanto šos modeļus kā savus asistentus, oponentus, diskusiju dalībniekus.
Anda: Līva Rotkale savā prezentācijā rādīja, ka "Google Scholar" var atrast akadēmiskos rakstus, kuros parādās "ChatGPT" dežūrfrāze "es kā MI valodas modelis nevaru atbildēt uz šo jautājumu" [5]. Tā ir atrodama daudzos akadēmiskos rakstos, un tas nozīmē, ka autors ne tikai pats nav pārlasījis to, ko viņam "ChatGPT" ir iedevis, bet to nav pamanījis arī recenzents un žurnāla redaktors.
Normunds: Nu, tas ir briesmīgi. Es arī izmantoju šos modeļus, gan rakstot zinātniskas publikācijas, gan gatavojoties lekcijām, gan programmējot, bet tas nebūt nav tā: "lūdzu, uzģenerē to un to" un tad copy–paste. Tā ir daļa no domāšanas un domu apmaiņas procesa.
Anda: Tā viennozīmīgi ir industrija, kas darbojas jau kādu laiku – žurnāli, kuri pelna naudu ar pseidoakadēmiskām publikācijām. Valodas modeļi šo industriju tikai stiprina. Tomēr es domāju par to, ka arī tie raksti, kuri ir tapuši cilvēka smagā darbā, bieži vien ir ļoti nekvalitatīvi. Un vērtība, ko tie dod kultūrai, sabiedrībai, ir tikpat maza kā "ChatGPT" ģenerēts teksts, kas nereti pat var būt diezgan sakarīgs. Piemēram, "ChatGPT" sacerēts mācību līdzeklis bieži vien būs kvalitatīvāks nekā nepietiekami kompetentu cilvēku sacerēts.
Normunds: Virspusēji kvalitatīvāks, jā. Publikācijas vispār ir tēma, par ko varētu diskutēt. Pētniecības projektus pārraugošās institūcijas no mums sagaida kvantitatīvus rezultatīvos rādītājus, t.sk. publikācijas, jo vairāk, jo labāk. Un būtībā visi ir kļuvuši par tādiem publikāciju ražotājiem. Tiek ražots arvien vairāk maznozīmīgu, mazvērtīgu, arī nekvalitatīvu publikāciju, jo daudz kas tiek vienkārši mērīts ar lineālu vai uz svara.
Anda: Vēl es domāju par teksta radīšanu kā procesu un tekstu kā rezultātu. Daudzos gadījumos mēs varam pilnīgi droši pateikt, ka rezultāts nav oriģināls. Piemēram, dzejolīšu rakstīšana – varbūt tā doma ir jau tūkstošreiz pateikta un tie paņēmieni tūkstošreiz izmantoti, bet es nekad neteikšu – jūs vairs nedrīkstat rakstīt, jūs vairs nedrīkstat teikt šīs banalitātes. Es domāju, ka cilvēkiem ir jāļauj teikt tos pašus vārdus vēlreiz, tāpēc ka tā ir cilvēka pieredze. Mūsu pienākums nav izlasīt visu, kas iepriekš ir uzrakstīts. Mums katram var būt sava pieredze, un mums ir tiesības to izteikt. Tādā ziņā neviens mākslīgais intelekts pēc definīcijas nevar aizvietot cilvēku, ja viņš kaut ko grib darīt. Ja viņš grib pats aizpildīt dokumentus, pats rakstīt neoriģinālus dzejolīšus, tad viņam jāļauj to darīt. Bet kā mēs varētu paturēt tos darbus, ko paši gribam darīt (kaut arī "GPT" to varētu izdarīt labāk), bet deleģēt tos darbus, ko negribam darīt? Kā varētu panākt šo līdzsvaru?
Normunds: Tas tiešām ir retorisks jautājums. Reizēm gribam nolikt malā rutīnas darbus un beidzot darīt kaut ko radošu, bet citreiz gribas atslēgties no radoša darba un pārkrāsot sienu, mazliet atpūtināt galvu, vienkārši padomāt.
Anda: Tiesa, tiesa. Man patīk datu labošanu izmantot relaksācijai, lai smadzenes atpūstos. Laboju kļūdas, kārtoju. Tas ir tā kā tamborēt vai adīt: citi cilvēki ada, es kārtoju datus.
Normunds: Vajag ļaut cilvēkiem spēlēties, jo tur daudz kas nāk ārā. Tā kā multenē par suni Funi – vējam vajag ļaut spēlēties, un tad viņš vienā brīdī sāks spēlēt.
[1] Skadiņa, I., Veisbergs, A., Vasiļjevs, A. et al. The Latvian Language in the Digital Age / Latviešu valoda digitālajā laikmetā. // META-NET White Paper Series: Latvian. Berlin: Springer, 2012.
[3] RAG, Retrieval-Augmented Generation (ar informācijas izguvi papildināta ģenerēšana) ir pieeja dabiskās valodas apstrādē, kas apvieno informācijas iegūšanu ar teksta ģenerēšanu. Šajā metodē modelis iegūst atbilstošus dokumentus vai datus no tīmekļa vai datubāzes, lai papildinātu un uzlabotu teksta ģenerēšanas procesu, padarot iznākumu precīzāku un kontekstuāli informētāku.
[4] Andas Baklānes un Normunda Grūzīša saruna norisinājās 2024. gada augustā, īsi pēc Starptautiskās Baltijas digitālo humanitāro zinātņu vasaras skolas, kas šogad bija veltīta lielajiem valodu modeļiem.
[5] "As an AI language model…" Līvas Rotkales lekciju "ChatGPT for humanities research" skat. šeit.
Saruna transkribēta, izmantojot LU MII izstrādāto runas transkribēšanas rīku late.ailab.lv. Intervija tapusi Latvijas Zinātnes padomes fundamentālo un lietišķo pētījumu projektā “Cilvēciskāki čatboti: komunikācijā balstīti risinājumi lietotāju pieredzes uzlabošanai” (Nr. lzp-2021/1-0151).
0