Pazemīgais sākums: agrīnas uz noteikumiem balstītas sistēmas
Tas, kas padarīja ELIZA ievērojamu, nebija tās tehniskā izsmalcinātība – pēc mūsdienu standartiem programma bija neticami vienkārša. Drīzāk tā bija dziļā ietekme uz lietotājiem. Neskatoties uz to, ka viņi zināja, ka runā ar datorprogrammu bez patiesas izpratnes, daudzi cilvēki izveidoja emocionālas attiecības ar ELIZU, daloties dziļi personīgās domās un jūtās. Šī parādība, kuru pats Veizenbaums uzskatīja par satraucošu, atklāja kaut ko fundamentālu par cilvēka psiholoģiju un mūsu vēlmi antropomorfizēt pat visvienkāršākās sarunu saskarnes.
Septiņdesmitajos un astoņdesmitajos gados uz noteikumiem balstīti tērzēšanas roboti sekoja ELIZA veidnei ar pakāpeniskiem uzlabojumiem. Tādas programmas kā PARRY (simulē paranoisku šizofrēniķi) un RACTER (kuras "autors" grāmatai "Policijas bārda ir pa pusei uzbūvēta") stingri ievēroja uz likumiem balstīto paradigmu, izmantojot iepriekš definētus modeļus, atslēgvārdu saskaņošanu un veidnes atbildes.
Šīm agrīnajām sistēmām bija nopietni ierobežojumi. Viņi faktiski nevarēja saprast valodu, mācīties no mijiedarbības vai pielāgoties neparedzētiem ievadiem. Viņu zināšanas aprobežojās ar visiem noteikumiem, ko viņu programmētāji bija skaidri definējuši. Kad lietotāji neizbēgami novirzījās ārpus šīm robežām, inteliģences ilūzija ātri sabruka, atklājot apakšā esošo mehānisko dabu. Neskatoties uz šiem ierobežojumiem, šīs novatoriskās sistēmas izveidoja pamatu, uz kura balstīsies visa turpmākā sarunvalodas AI.
Zināšanu revolūcija: ekspertu sistēmas un strukturēta informācija
Ekspertu sistēmas, piemēram, MYCIN (kas diagnosticēja bakteriālas infekcijas) un DENDRAL (kas identificēja ķīmiskos savienojumus), organizēja informāciju strukturētās zināšanu bāzēs un izmantoja secinājumu dzinējus, lai izdarītu secinājumus. Lietojot sarunvalodas saskarnēs, šī pieeja ļāva tērzēšanas robotiem pāriet no vienkāršas modeļu saskaņošanas un virzīties uz kaut ko līdzīgu argumentācijai — vismaz šaurās jomās.
Uzņēmumi sāka ieviest praktiskus lietojumus, piemēram, automatizētas klientu apkalpošanas sistēmas, izmantojot šo tehnoloģiju. Šīs sistēmas parasti izmantoja lēmumu kokus un uz izvēlnēm balstītas mijiedarbības, nevis brīvas formas sarunas, taču tās atspoguļoja agrīnus mēģinājumus automatizēt mijiedarbības, kurām iepriekš bija nepieciešama cilvēka iejaukšanās.
Ierobežojumi joprojām bija būtiski. Šīs sistēmas bija trauslas, nespējot graciozi apstrādāt negaidītas ievades. Tie prasīja milzīgas pūles no zināšanu inženieriem, lai manuāli kodētu informāciju un noteikumus. Un, iespējams, vissvarīgākais ir tas, ka viņi joprojām nevarēja īsti saprast dabisko valodu visā tās sarežģītībā un neskaidrībā.
Tomēr šis laikmets radīja svarīgus jēdzienus, kas vēlāk kļuva ļoti svarīgi mūsdienu sarunvalodas AI: strukturēts zināšanu attēlojums, loģiskie secinājumi un domēna specializācija. Tika sagatavota paradigmas maiņa, lai gan tehnoloģija vēl nebija pilnībā izveidota.
Dabiskās valodas izpratne: skaitļošanas lingvistikas izrāviens
Šo maiņu veicināja vairāki faktori: pieaugošā skaitļošanas jauda, labāki algoritmi un, galvenais, lielu teksta korpusu pieejamība, ko varētu analizēt, lai identificētu lingvistiskos modeļus. Sistēmas sāka iekļaut tādas metodes kā:
Runas daļas marķēšana: identificē, vai vārdi darbojās kā lietvārdi, darbības vārdi, īpašības vārdi utt.
Nosaukto entītiju atpazīšana: īpašvārdu (cilvēki, organizācijas, atrašanās vietas) noteikšana un klasificēšana.
Sentimenta analīze: teksta emocionālā toņa noteikšana.
Parsēšana: teikuma struktūras analīze, lai noteiktu gramatiskās attiecības starp vārdiem.
Viens ievērojams izrāviens tika panākts ar IBM Watson, kas viktorīnas šovā Jeopardy lieliski uzvarēja cilvēku čempionus! 2011. gadā. Lai gan Vatsons nebija tikai sarunvalodas sistēma, viņš demonstrēja vēl nepieredzētas spējas izprast dabiskās valodas jautājumus, meklēt plašās zināšanu krātuvēs un formulēt atbildes — iespējas, kas būtu būtiskas nākamās paaudzes tērzēšanas robotiem.
Drīz sekoja komerciāli pieteikumi. Apple Siri tika laists klajā 2011. gadā, nodrošinot sarunvalodas saskarnes plašiem patērētājiem. Lai gan mūsdienu standarti to ierobežo, Siri bija ievērojams progress, padarot AI palīgus pieejamus ikdienas lietotājiem. Tam sekos Microsoft Cortana, Google Assistant un Amazon Alexa, katrs virzot uz priekšu jaunākās sarunvalodas AI tehnoloģijas.
Neskatoties uz šiem sasniegumiem, šī laikmeta sistēmas joprojām cīnījās ar kontekstu, veselā saprāta spriešanu un patiesi dabiski skanošu reakciju radīšanu. Viņi bija sarežģītāki nekā viņu senči, kas balstīti uz noteikumiem, taču joprojām bija fundamentāli ierobežoti savā izpratnē par valodu un pasauli.
Mašīnmācība un uz datiem balstīta pieeja
Šajā laikmetā kā sarunu arhitektūras galvenās sastāvdaļas kļuva nodomu klasifikācija un entītiju iegūšana. Kad lietotājs iesniedza pieprasījumu, sistēma:
Klasificējiet vispārējo nolūku (piemēram, lidojuma rezervēšana, laikapstākļu pārbaude, mūzikas atskaņošana)
Izņemiet atbilstošās entītijas (piem., atrašanās vietas, datumus, dziesmu nosaukumus)
Kartējiet tos ar konkrētām darbībām vai atbildēm
Facebook (tagad Meta) Messenger platformas palaišana 2016. gadā ļāva izstrādātājiem izveidot tērzēšanas robotus, kas varētu sasniegt miljoniem lietotāju, izraisot komerciālas intereses vilni. Daudzi uzņēmumi steidzās ieviest tērzēšanas robotus, lai gan rezultāti bija dažādi. Agrīnās komerciālās ieviešanas bieži sarūgtināja lietotājus ar ierobežotu izpratni un stingrām sarunu plūsmām.
Šajā periodā attīstījās arī sarunu sistēmu tehniskā arhitektūra. Tipiskā pieeja ietvēra specializētu komponentu cauruļvadu:
Automātiskā runas atpazīšana (balss saskarnēm)
Dabiskās valodas izpratne
Dialoga pārvaldība
Dabiskās valodas paaudze
Teksta pārvēršana runā (balss saskarnēm)
Katru komponentu var optimizēt atsevišķi, ļaujot veikt pakāpeniskus uzlabojumus. Tomēr šīs konveijera arhitektūras dažkārt cieta no kļūdu izplatīšanās — kļūdas agrīnā stadijā tika kaskādes cauri sistēmai.
Lai gan mašīnmācīšanās ievērojami uzlaboja iespējas, sistēmām joprojām bija grūti saglabāt kontekstu ilgās sarunās, saprast netiešu informāciju un radīt patiesi daudzveidīgas un dabiskas atbildes. Nākamajam izrāvienam būtu nepieciešama radikālāka pieeja.
Transformatoru revolūcija: neironu valodu modeļi
Šis jauninājums ļāva izstrādāt arvien spēcīgākus valodu modeļus. 2018. gadā Google ieviesa BERT (Bidirectional Encoder Representations from Transformers), kas ievērojami uzlaboja dažādu valodas izpratnes uzdevumu veiktspēju. 2019. gadā OpenAI izlaida GPT-2, demonstrējot vēl nebijušas spējas radīt saskaņotu, kontekstuāli atbilstošu tekstu.
Visdramatiskākais lēciens notika 2020. gadā ar GPT-3, palielinot līdz 175 miljardiem parametru (salīdzinot ar GPT-2 1,5 miljardiem). Šis lielais mēroga pieaugums apvienojumā ar arhitektūras uzlabojumiem radīja kvalitatīvi atšķirīgas iespējas. GPT-3 varēja ģenerēt ārkārtīgi cilvēkiem līdzīgu tekstu, saprast kontekstu tūkstošiem vārdu un pat veikt uzdevumus, par kuriem tas nebija īpaši apmācīts.
Sarunvalodas AI gadījumā šie sasniegumi ir pārvērsti tērzēšanas robotos, kas varētu:
Uzturiet saskaņotas sarunas daudzos pagriezienos
Izprotiet niansētus vaicājumus bez īpašas apmācības
Izveidojiet dažādas, kontekstam atbilstošas atbildes
Pielāgojiet to toni un stilu, lai tie atbilstu lietotājam
Risiniet neskaidrības un vajadzības gadījumā paskaidrojiet
ChatGPT izlaišana 2022. gada beigās ieviesa šīs iespējas, piesaistot vairāk nekā miljonu lietotāju dažu dienu laikā pēc tā palaišanas. Pēkšņi plašai sabiedrībai bija pieejama sarunvalodas AI, kas šķita kvalitatīvi atšķirīga no jebkā, kas bija iepriekš — elastīgāka, zinošāka un dabiskāka mijiedarbībā.
Ātri sekoja komerciāla ieviešana, uzņēmumiem iekļaujot lielus valodu modeļus savās klientu apkalpošanas platformās, satura veidošanas rīkos un produktivitātes lietojumprogrammās. Ātrā ieviešana atspoguļoja gan tehnoloģisko lēcienu, gan šo modeļu sniegto intuitīvo saskarni – saruna galu galā ir visdabiskākais veids, kā cilvēkiem sazināties.
Izmēģiniet MI savā tīmekļa vietnē 60 sekundēs
Skatiet, kā mūsu MI acumirklī analizē jūsu tīmekļa vietni un izveido personalizētu tērzēšanas robotu - bez reģistrācijas. Vienkārši ievadiet savu URL un vērojiet, kā tas darbojas!
Multimodālās iespējas: ne tikai teksta sarunas
Redzes valodas modeļi, piemēram, DALL-E, Midjourney un Stable Diffusion, demonstrēja spēju ģenerēt attēlus no teksta aprakstiem, savukārt modeļi, piemēram, GPT-4 ar redzes iespējām, varēja analizēt attēlus un saprātīgi tos apspriest. Tas pavēra jaunas iespējas sarunvalodas saskarnēm:
Klientu apkalpošanas robotprogrammatūra, kas var analizēt bojātu produktu fotoattēlus
Iepirkšanās palīgi, kas var identificēt preces no attēliem un atrast līdzīgus produktus
Izglītības rīki, kas var izskaidrot diagrammas un vizuālos jēdzienus
Pieejamības funkcijas, kas var aprakstīt attēlus lietotājiem ar redzes traucējumiem
Arī balss iespējas ir dramatiski attīstījušās. Agrīnās runas saskarnes, piemēram, IVR (Interactive Voice Response) sistēmas, bija ļoti nomāktas, aprobežojoties ar stingrām komandām un izvēlņu struktūrām. Mūsdienu balss palīgi var saprast dabiskos runas modeļus, ņemt vērā dažādus akcentus un runas traucējumus un reaģēt ar arvien dabiskāk skanošām sintezētām balsīm.
Šo iespēju saplūšana rada patiesi multimodālu sarunvalodas AI, kas var nemanāmi pārslēgties starp dažādiem saziņas režīmiem, pamatojoties uz kontekstu un lietotāju vajadzībām. Lietotājs var sākt ar teksta jautājumu par printera labošanu, nosūtīt kļūdas ziņojuma fotoattēlu, saņemt diagrammu, kurā izceltas atbilstošās pogas, un pēc tam pārslēgties uz balss norādījumiem, kamēr viņa rokas ir aizņemtas ar remontu.
Šī multimodālā pieeja ir ne tikai tehnisks sasniegums, bet arī fundamentāla pāreja uz dabiskāku cilvēka un datora mijiedarbību — lietotāju satikšanu jebkurā saziņas režīmā, kas vislabāk atbilst viņu pašreizējam kontekstam un vajadzībām.
Izguves paplašinātā paaudze: AI iezemēšana faktos
Retrieval-Augmented Generation (RAG) parādījās kā risinājums šīm problēmām. Tā vietā, lai paļautos tikai uz apmācības laikā apgūtajiem parametriem, RAG sistēmas apvieno valodu modeļu ģeneratīvās spējas ar izguves mehānismiem, kas var piekļūt ārējiem zināšanu avotiem.
Tipiskā RAG arhitektūra darbojas šādi:
Sistēma saņem lietotāja pieprasījumu
Tas meklē atbilstošās zināšanu bāzes, lai iegūtu informāciju, kas attiecas uz vaicājumu
Tas ievada gan vaicājumu, gan izgūto informāciju valodas modelim
Modelis ģenerē atbildi, kuras pamatā ir iegūtie fakti
Šī pieeja piedāvā vairākas priekšrocības:
Precīzākas, faktiskākas atbildes, pamatojot ģenerēšanu pārbaudītā informācijā
Iespēja piekļūt jaunākajai informācijai, kas pārsniedz modeļa apmācības ierobežojumu
Specializētas zināšanas no domēna specifiskiem avotiem, piemēram, uzņēmuma dokumentācijas
Pārredzamība un attiecināšana, atsaucoties uz informācijas avotiem
Uzņēmumiem, kas ievieš sarunvalodas AI, RAG ir izrādījies īpaši vērtīgs klientu apkalpošanas lietojumprogrammām. Piemēram, bankas tērzēšanas robots var piekļūt jaunākajiem politikas dokumentiem, konta informācijai un darījumu ierakstiem, lai sniegtu precīzas, personalizētas atbildes, kas nebūtu iespējams ar atsevišķu valodas modeli.
RAG sistēmu attīstība turpinās, uzlabojot izguves precizitāti, sarežģītākas metodes izgūtās informācijas integrēšanai ar ģenerētu tekstu un labākiem mehānismiem dažādu informācijas avotu uzticamības novērtēšanai.
Cilvēka un mākslīgā intelekta sadarbības modelis: pareizā līdzsvara atrašana
Veiksmīgākās ieviešanas šodien notiek pēc sadarbības modeļa, kurā:
AI apstrādā rutīnas, atkārtotus vaicājumus, kas neprasa cilvēka spriedumu
Cilvēki koncentrējas uz sarežģītiem gadījumiem, kas prasa empātiju, ētisku argumentāciju vai radošu problēmu risināšanu
Sistēma zina savus ierobežojumus un vajadzības gadījumā vienmērīgi pārvēršas par cilvēkiem
Pāreja starp mākslīgo intelektu un cilvēku atbalstu lietotājam ir nemanāma
Cilvēkaģentiem ir pilns sarunu vēstures konteksts ar AI
AI turpina mācīties no cilvēka iejaukšanās, pakāpeniski paplašinot savas iespējas
Šī pieeja atzīst, ka sarunvalodas AI mērķis nav pilnībā aizstāt cilvēku mijiedarbību, bet gan to papildināt – apstrādājot liela apjoma, vienkāršus vaicājumus, kas patērē cilvēku aģentu laiku, vienlaikus nodrošinot, ka sarežģīti jautājumi sasniedz pareizo cilvēku pieredzi.
Šī modeļa ieviešana dažādās nozarēs ir atšķirīga. Veselības aprūpē mākslīgā intelekta tērzēšanas roboti var veikt tikšanās plānošanu un pamata simptomu skrīningu, vienlaikus nodrošinot, ka medicīniskās konsultācijas sniedz kvalificēti speciālisti. Juridiskajos pakalpojumos AI var palīdzēt dokumentu sagatavošanā un izpētē, vienlaikus interpretāciju un stratēģiju atstājot advokātu ziņā. Klientu apkalpošanā AI var atrisināt izplatītas problēmas, vienlaikus novirzot sarežģītas problēmas specializētiem aģentiem.
Turpinot attīstīties mākslīgā intelekta iespējām, robeža starp to, kas prasa cilvēku iesaistīšanos, un to, ko var automatizēt, mainīsies, taču pamatprincips paliek spēkā: efektīvam sarunvalodas AI ir jāuzlabo cilvēku spējas, nevis vienkārši tās jāaizstāj.
Nākotnes ainava: kur virzās sarunvalodas AI
Mēroga personalizēšana: nākotnes sistēmas arvien vairāk pielāgos savas atbildes ne tikai tiešajam kontekstam, bet arī katra lietotāja saziņas stilam, vēlmēm, zināšanu līmenim un attiecību vēsturei. Šī personalizēšana padarīs mijiedarbību dabiskāku un atbilstošāku, lai gan tā rada svarīgus jautājumus par privātumu un datu izmantošanu.
Emocionālais inteliģence: lai gan mūsdienu sistēmas var noteikt pamata noskaņojumu, nākotnes sarunvalodas AI attīstīs sarežģītāku emocionālo inteliģenci – atpazīs smalkus emocionālos stāvokļus, atbilstoši reaģēs uz ciešanām vai neapmierinātību un attiecīgi pielāgos savu toni un pieeju. Šī iespēja būs īpaši vērtīga klientu apkalpošanas, veselības aprūpes un izglītības lietojumprogrammās.
Proaktīva palīdzība: tā vietā, lai gaidītu skaidrus vaicājumus, nākamās paaudzes sarunu sistēmas paredzēs vajadzības, pamatojoties uz kontekstu, lietotāju vēsturi un vides signāliem. Sistēma var pamanīt, ka plānojat vairākas tikšanās nepazīstamā pilsētā, un proaktīvi piedāvāt transporta iespējas vai laika prognozes.
Nemanāma multimodāla integrācija: nākotnes sistēmas ne tikai atbalsta dažādas modalitātes, bet arī nevainojami tās integrēs. Saruna var notikt dabiski starp tekstu, balsi, attēliem un interaktīviem elementiem, izvēloties pareizo modalitāti katrai informācijas daļai, neprasot skaidru lietotāja atlasi.
Specializētie domēnu eksperti: lai gan vispārējas nozīmes asistenti turpinās pilnveidoties, mēs redzēsim arī augsti specializētu sarunvalodas AI pieaugumu ar dziļām zināšanām konkrētās jomās — juristu palīgus, kas izprot judikatūru un precedentus, medicīnas sistēmas ar visaptverošām zināšanām par zāļu mijiedarbību un ārstēšanas protokoliem, vai finanšu konsultantus, kas pārzina nodokļu kodeksus un investīciju stratēģijas.
Patiesi nepārtraukta mācīšanās: nākotnes sistēmas pāries no periodiskas pārkvalifikācijas uz nepārtrauktu mācīšanos no mijiedarbības, laika gaitā kļūstot noderīgākas un personalizētākas, vienlaikus saglabājot atbilstošus privātuma aizsardzības pasākumus.
Neskatoties uz šīm aizraujošajām iespējām, izaicinājumi joprojām pastāv. Privātuma problēmas, neobjektivitātes mazināšana, atbilstoša pārredzamība un pareiza līmeņa cilvēku pārraudzība ir aktuālas problēmas, kas veidos gan tehnoloģiju, gan tās regulējumu. Visveiksmīgākās ieviešanas būs tās, kas pārdomāti risina šīs problēmas, vienlaikus sniedzot lietotājiem patiesu vērtību.
Skaidrs ir tas, ka sarunvalodas AI ir pārcēlies no nišas tehnoloģijas uz galveno interfeisa paradigmu, kas arvien vairāk būs starpnieks mūsu mijiedarbībā ar digitālajām sistēmām. Evolūcijas ceļš no ELIZA vienkāršās modeļu saskaņošanas līdz mūsdienu izsmalcinātiem valodu modeļiem ir viens no nozīmīgākajiem sasniegumiem cilvēka un datora mijiedarbībā, un ceļojums nebūt nav beidzies.