GPT-kielimalleistaan tunnetuksi tullutta tekoälytutkimuksen voimanpesää, OpenAI:ta, voi hyvällä omatunnolla pitää käynnissä olevan tekoälykehityksen alullepanijana ja kantavana voimana. OpenAI:n kielimallit ovat kehittyneet versio versiolta paremmiksi, vuonna 2018 kehitetystä GPT-1-kielimallista aina viime vuonna julkaistuun GPT-4o-malliin asti. Nämä parannukset ovat johtuneet pääasiallisesti mallien koon, koulutusdatan määrän sekä laskentatehon skaalaamisesta. Jatkuva kehitys on saanut monet luonnollisesti odottamaan GPT-5-mallia ja sen tuomaa seuraavaa hyppyä kielimallien kyvykkyydessä.
Kuitenkin jo noin vuosi sitten tekoälypiireissä levisi huhu OpenAI:n salaisesta Project Q* (lausutaan "Q-star") -nimisestä hankkeesta, joka oli jotain muuta kuin perinteinen kielimalli. Projektin tuotokset olivat huhun mukaan säikäyttäneet kyvykkyydellään jopa OpenAI:n välkyimpiä tutkijoita, mikä kävi ilmi julkisuuteen vuotaneesta sisäisestä kirjeestä. Monivaiheisen saagan jälkeen kielimalli (tai pikemminkin sarja uusia kielimalleja), nimeltään o1 julkistettiin viimein syyskuussa 2024 suhteellisen vähin äänin. Kyseessä on tekijöidensä mukaan "merkittävä edistysaskel, joka edustaa uutta tasoa tekoälyn kyvykkyydessä haastavissa ongelmissa". Lisäksi OpenAI julkaisi joulukuussa alustavia tuloksia o3-mallista, joka on seuraava versio o-sarjan malleista. (o2 ohitettiin tekijänoikeusongelmien välttämiseksi). Tästä blogista voit lukea nyt pölyn laskeuduttua olennaisimmat asiat o-sarjan kielimalleista.
Miten o-sarja eroaa aiemmista kielimalleista?
OpenAI ei vielä ole julkaissut kovinkaan syvällistä tietoa uuden o1-kielimallin (saati o3:n) toimintaperiaatteesta, mutta rivien välistä voidaan toki lukea jotain. Perusarkkitehtuuriltaan o1 on todennäköisesti aivan samanlainen kielimalli kuin kaikki muut GPT-3.5:n jälkeen julkaistut mallit. Se pohjautunee Transformer-neuroverkkoarkkitehtuuriin ja se on koulutettu suurella määrällä tekstiä ymmärtämään kieltä ja käsitteitä. Suurin eroavuus aiempiin tulee kuitenkin siinä, että o-mallit osaavat "ajatella" antamiaan vastauksia ennen niiden tuottamista käyttäjälle. Ajattelulla viitataan siihen, että kielimalli generoi ensin sisäistä monologia, jossa se pureksii annetun kysymyksen tai ongelman mahdollisimman pieniin palasiin ja lähtee ratkomaan sitä vaihe vaiheelta. Näitä sisäisiä ajatteluketjuja ei näytetä käyttäjälle.
Päällepäin tämä kuulostaa samalta kuin jo pitkään toimivaksi tunnettu ajatteluketju-promptaus (Chain of Thought, CoT), jossa kielimallia pyydetään kehotteessa "ratkaisemaan tehtävä vaihe vaiheelta." CoT-promptaus parantaa kielimallien vastauksia lähes aiheessa kuin aiheessa, mutta etenkin haastavammissa loogista päättelyä vaativissa tehtävissä. Idea onkin samanlainen, mutta o-malli eroaa siten, että se on koulutettu olemaan nimenomaan tehokas ajatteluketjujen luomiskone. Sen sijaan (tai lisäksi), että mallia on opetettu vahvistusoppimisella tuottamaan ihmistä miellyttäviä tekstisisältöjä, se on koulutettu luomaan jokaiseen ongelmaan looginen ajatteluketju, joka johtaa oikeaan vastaukseen.
Koulutusvaiheessa mallin luomien ajatteluketjujen jokaista vaihetta valvoo todennäköisesti toinen kielimalli. Mallin kouluttamiseen ei siis varsinaisesti tarvita ihmistä, mikä mahdollistaa ainakin teoriassa koulutettavan mallin kehittymisen ihmistä paremmaksi loogisissa pulmissa. Siirrytään siis imitoivasta oppimisesta rekursiiviseen itseoppimiseen. Samaa reseptiä on hyödynnetty aiemminkin esimerkiksi erilaisia pelejä pelaavissa tekoälyissä, joista Googlen AlphaGo ja AlphaZero lienevät tunnetuimmat. Ihmisten pelejä imitoimalla tekoäly voi oppia hyväksi pelaajaksi, mutta ihmistä parempi kyvykkyys saavutetaan vahvistusoppimisella. Samankaltaista menetelmää on nyt onnistuneesti sovellettu kielimalleihin, mikä avaa laajemman skaalan tehtäviä, joissa tekoäly voi kehittyä ihmistä paremmaksi.
Mallin kanssa julkaistussa paperissa todennettiin myös, että koulutusvaiheessa käytetyn laskentatehon (train time compute) lisäksi mallin vastausten laatuun vaikuttaa myös sille budjetoitu päättelyvaiheen laskentateho (test time compute). Toisin sanoen malli antaa sitä parempia vastauksia, mitä enemmän aikaa ja laskentatehoa sille annetaan päättelyä varten. Aiemmat kielimallit käyttivät jokaisen sanapalasen muodostamiseen saman verran aikaa ja laskentatehoa, kysymyksen haastavuudesta riippumatta. Tämän uuden kielimalliparadigma miettii haastavia ongelmia pidempään ja pääsee siten usein parempaan tulokseen.
Toinen tapa kuvailla o-paradigman mallien toimintaa on sen mukaan, mitä ne oikeastaan oppivat koulutuksensa aikana. Tavallista kielimallia kuvataan usein niin, että koulutusvaiheessa malli ”opettelee ulkoa” erinäisiä maailmaan liittyviä käsitteitä ja ilmiöitä, joita se kykenee sitten ”noutamaan” muististaan ja yhdistelemään uudelleen tarvittaessa suorittaessaan tehtäviä. Tästä poiketen, o-mallit oppivat koulutuksessaan erilaisia päättelyketjuja tai -algoritmeja, joita noudetaan ja yhdistellään tarvittaessa, kun kohdataan uudenlainen ongelma. Yksinkertaistettuna o1 opettelee siis erilaisia tapoja ratkaista ongelmia sen sijaan, että se opettelisi ulkoa faktoja.
Kuinka hyvin o-sarjan mallit toimivat ja mihin niitä voi käyttää?
Kun tarkastellaan o1-mallisarjan julkaisun yhdessä annettuja benchmark-testien tuloksia, voisi sanoa, että o-mallit ovat erittäin suuri parannus juuri siinä, mihin ne on suunniteltu. Perinteisessä chat-käytössä o-mallit eivät välttämättä vaikuta eroavan juurikaan aiemmista, mutta haastavissa aiheissa ja loogista päättelyä vaativissa tehtävissä kyseessä on merkittävä parannus – suurempi parannus kuin monikaan tekoälyn sisäpiiriläinen osasi odottaa.
Matematiikka, ohjelmointi sekä haastavat tiedekysymykset hoituvat o-sarjan malleilta parhaiten. Toki mallit tekevät vieläkin usein hölmöjä kielimalleille ominaisia virheitä, mutta parannus aiempaan on merkittävä. Uudet o1-mallit suoriutuvat paremmin myös monissa perinteisissä kielimallitesteissä ja julkaisuhetkellään o1 ponkaisi myös käyttäjien sokkoarviointeihin pohjautuvan LMSYS chatbot areenan listaykköseksi, tosin kirjoitushetkellä sen on jo ohittanut muutama perinteinen kielimalli. Ilmaiseksi nämä parannukset eivät tule, sillä perinteisemmän kielimallin käyttäessä yhden tehtävän ratkaisuun joitain senttejä maksavan määrän laskentatehoa, o1:lle vastaava summa on joitain euroja per tehtävä ja o3:lle jopa tuhansia euroja. Tämä on kuitenkin vain väliaikainen hidaste, sillä laskentatehon hinta tulee putoamaan jatkossa kuten ennenkin.
o1- ja o3-mallien suorituskyky suhteessa GPT-4o-kielimalliin ja ihmiseen
Tällä hetkellä käyttäjille on saatavilla varsinaisen o1-mallin lisäksi pienempi ja nopeampi, ohjelmointitehtäviin optimoitu o1-mini. Yksi selkeä käyttökohde o1-malleille onkin ohjelmointi, jossa kyseisistä malleista on tullut osa ainakin allekirjoittaneen työkalupakkia. Niiden käyttötapa poikkeaa tosin jonkin verran aiemmista ohjelmointiapureista, sillä o-sarjan mallit ovat mielestäni parhaimmillaan saadessaan tehdä itse koodin alusta loppuun, eikä niinkään olemassa olevan koodin täydentämisessä tai muokkaamisessa.
Tekoälysovellusten rakentamisessa o-sarjan mallit tuskin korvaavat täysin aiemmin käytössä olleita kielimalleja ainakaan ihan hetkeen, sillä ne ovat merkittävästi kalliimpia ja hitaampia tuottamaan lopullisen vastauksen. Perinteiset kielimallit hoitavat käyttäjän kanssa keskustelemisen ja simppelit tekstinymmärrystehtävät aivan yhtä hyvin. Sen sijaan prosessit, jossa vaaditaan monivaiheista päättelyä ja joissa päättelyvirheet ovat kalliita, o1-mallit ovat tärkeä osa työkalupakkia. Esimerkiksi monivaiheiset RAG-toteutukset, jossa kielimallin täytyy tehdä useita hakuja tai käyttää useita työkaluja ja koota niiden tuloksia yhteen, ovat yksi tällainen käyttökohde. Myös erilaisten rajapintakutsujen ja SQL-kyselyiden rakentaminen onnistuu o1-mallilta paremmin, mikä helpottaa erilaisten liiketoimintajärjestelmiin kytkeytyneiden apurien rakentamista.
Vaikutukset ja mitä on tulossa?
OpenAI o1 ja o3 edustavat suurta hyppäystä kielimallien kyvykkyydessä ratkaista haastavia ja monivaiheisia ongelmia. Kyseessä on vasta ensimmäiset iteraatiot ajatteluketjuja tuottavista kielimalleista, ja parantamisen sekä skaalaamisen varaa on varmasti vielä rutkasti. Myös ensimmäisiä kilpailevia samankaltaista lähestymistapaa hyödyntäviä malleja, kuten kiinalaisen DeepSeek startupin R1-malli, sekä Googlen Gemini 2.0 Flash Thinking on saatu markkinoille, ja lisää on varmasti tulossa. Voi myös olla, että laskentatehon saatavuuden parantuessa raja perinteisen kielimallin sekä ajattelumallin välillä hälvenee, kun vastaavaa kyvykkyyttä koulutetaan sisäänrakennetuksi kaikkiin kielimalleihin.
Alkuperäisten GPT-mallien julkaisusta asti valloilla on ollut ajattelu, jonka mukaan kielimalleissa suurempi on aina parempi. Viime aikoina ilmoille on kuitenkin noussut keskustelua siitä, onko kielimallien esikoulutusvaiheen skaalaamisella saavutettu jo kaikki mahdollinen hyöty irti. Yksi nykyisen tekoälybuumin tärkeimmistä henkilöistä, entinen OpenAI:n päätutkija ja Safe Superintelligence AI-tutkimuslaboratorion perustaja Ilya Sutskever muun muassa totesi Reutersille marraskuussa, että esikoulutuksen tulokset ovat saavuttaneet tasanteen ja on keksittävä jotain muuta.
Tätä tukee myös se, että useiden kielimallimarkkinoiden suurten pelaajien, kuten OpenAI:n, Googlen sekä Anthropicin seuraavat ja entistä suuremmat perinteiset kielimallit antavat yhä odottaa itseään. Kenties saavutetut parannukset eivät ole olleet uuden mallin julkaisemisen arvoisia. Katseet kääntyvät vahvistusoppimiseen pohjautuvaan jälkikoulutukseen, jonka o1 ja o3 osoittavat olevan jatkossa se merkittävin työkalu kielimallien kehittämisessä kohti ihmisentasoista älykkyyttä.
Yhteenveto aiemmista kielimalleista ja o-sarjan-malleista
Perinteiset kielimallit (esim. GPT-4o) |
o-sarjan mallit | |
Perusarkkitehtuuri | Transformer-neuroverkko | Transformer-neuroverkko |
Koulutusmetodi | Suuri määrä tekstiä (esikoulutus) & imitoiva vahvistusoppiminen ohjeiden noudattamiseen (jatkokoulutus) | Suuri määrä tekstiä (esikoulutus) & itsenäinen vahvistusoppiminen päättelyyn (jatkokoulutus) |
Päättelykyky | Rajoitetumpi, ei sisäänrakennettuja ajatteluketjuja | Tehokas ajatteluketjujen luomiskone, parempi päättelykyky |
Päättelyvaiheen laskentateho | Sama määrä laskentatehoa jokaiselle sanapalalle | Enemmän laskentatehoa haastavampiin ongelmiin |
Suorituskyky | Hyvä yleiskäytössä, loogisessa päättelyssä heikompi | Erinomainen loogisessa päättelyssä ja haastavissa tehtävissä |
Käyttökustannukset | Edullisempi | Kalliimpi |
Samuli Reinikainen
Samuli Reinikainen toimii Efimalla tekoälyn kehitys- ja asiantuntijatehtävissä. Hänellä on laajaa osaamista koneoppimisen eri osa-alueista sekä niiden soveltamisesta teollisuuden, talouden ja asiakaspalvelun järjestelmissä. Etenkin luonnollisen kielen käsittelyn tekoälyratkaisut kiinnostavat häntä. Samulia inspiroi edistyksellisimpien teknologioiden ja viimeisimpien tutkimustulosten soveltaminen käytännön ongelmanratkaisuun.