Mūsdienu AI rītausma: GPT izpratne
Tas, kas padarīja GPT revolucionāru, bija ne tikai tā lielums (lai gan tajā laikā tā 117 miljoni parametru šķita milzīgi), bet arī tā pamatā esošā arhitektūra. Transformatora modelis, ko Google pētnieki ieviesa savā dokumentā "Uzmanība ir viss, kas jums nepieciešams", izrādījās ārkārtīgi efektīvs secīgu datu, piemēram, teksta, apstrādē. Atšķirībā no iepriekšējiem atkārtotiem neironu tīkliem, kas apstrādāja marķierus vienu pēc otra, transformatori varēja vienlaikus analizēt visas sekvences, izmantojot savu uzmanības mehānismu.
Šī paralēlā apstrāde ne tikai paātrināja apmācības laiku, bet arī ļāva modelim labāk uztvert liela attāluma atkarības tekstā. Pēkšņi AI varēja "atcerēties" to, kas tika minēts pirms rindkopām, un saglabātu tematisko konsekvenci garākos iznākumos. Pirmo reizi mašīnas ģenerēts teksts sāka šķist patiesi cilvēcisks.
Mērogošanas laikmets: no GPT-2 uz GPT-3
Taču īstais pavērsiena brīdis radās ar GPT-3 2020. gadā. Ar 175 miljardiem parametru — vairāk nekā 100 reižu lielāku nekā GPT-2 — tas nozīmēja milzīgu lēcienu iespējās. Modelis demonstrēja to, ko pētnieki sauc par "jaunām spējām" — prasmes, kurām tas netika īpaši apmācīts, bet tika izstrādāts, izmantojot mērogu un dažādu datu iedarbību.
Varbūt visievērojamākais ir tas, ka GPT-3 parādīja elementāras "dažu kadru mācīšanās" spējas. Ja uzvednē ir redzami tikai daži piemēri, tas var pielāgoties jauniem uzdevumiem, piemēram, tulkošanai, kopsavilkumam vai pat pamata kodēšanai. AI lauks sāka apzināties, ka mērogs ne tikai pakāpeniski uzlabo veiktspēju – tas būtiski mainīja šo sistēmu iespējas.
Ārpus izmēra: pilnveidošana, izmantojot RLHF
Ievadiet pastiprināšanas apmācību no cilvēku atsauksmēm (RLHF). Šī apmācības metodoloģija iepazīstina ar cilvēku vērtētājiem, kuri novērtē modeļa rezultātus, izveidojot atgriezeniskās saites cilpu, kas palīdz AI saprast, kuras atbildes ir noderīgas, patiesas un nekaitīgas. Modeļi, kas apmācīti ar RLHF, piemēram, ChatGPT un Claude, izrādījās ievērojami noderīgāki ikdienas uzdevumiem, vienlaikus samazinot kaitīgos rezultātus.
RLHF iezīmēja būtisku maiņu AI attīstības filozofijā. Ar neapstrādātu prognozēšanas spēku vairs nepietika — sistēmām bija vajadzīgas, lai saprastu cilvēcisko vērtību nianses. Šī apmācības pieeja palīdzēja modeļiem atbilstoši reaģēt uz sensitīvām tēmām, noraidīt neatbilstošus pieprasījumus un paust nenoteiktību, nevis pārliecinoši apgalvot nepatiesības.
Sākas multimodālā revolūcija
Šīs sistēmas darbojās, apmācot difūzijas modeļus plašām attēla un teksta pāru datu kopām. Apgūstot attiecības starp vizuālajiem jēdzieniem un to tekstuālajiem aprakstiem, viņi varētu pārveidot atbilstošos attēlos tādus pamudinājumus kā "sireālistiska kaķa glezna, kas spēlē šahu Salvadora Dalī stilā".
Tāpat runas atpazīšanas modeļi kļuva arvien precīzāki, un teksta pārvēršanas runā sistēmas kļuva gandrīz neatšķiramas no cilvēku balsīm. Video ģenerēšana, kamēr tā vēl bija agrīnā stadijā, sāka uzrādīt daudzsološus rezultātus ar tādām sistēmām kā Runway ML Gen-2 un Google Lumiere.
Katra modalitāte strauji attīstījās, taču tās lielākoties palika atsevišķas sistēmas. Nākamā revolūcija rastos, apvienojot šīs spējas.
Patiess multimodāls AI: redzēšana, dzirdēšana un izpratne
Šīs sistēmas var aprakstīt attēlos redzēto, izvilkt tekstu no dokumentiem, analizēt diagrammas un grafikus un pat atrisināt vizuālas mīklas. Lietotājs var augšupielādēt savā ledusskapī esošo sastāvdaļu fotoattēlu un jautāt: "Ko es varu pagatavot ar šīm?" Pēc tam AI identificē preces un iesaka atbilstošas receptes.
Tas, kas patiesas multimodālas sistēmas atšķir no vienkāršu atsevišķu modeļu savienošanas, ir to vienotā izpratne. Kad jautājat par attēla elementu, sistēma ne tikai palaiž atsevišķu attēla atpazīšanu un pēc tam teksta ģenerēšanu – tā attīsta integrētu izpratni par dažādām modalitātēm. Tas nodrošina sarežģītāku argumentāciju, piemēram, izskaidrojot, kāpēc mēma ir smieklīga, vai noteikt neatbilstības starp tekstu un attēliem.
Izmēģiniet MI savā tīmekļa vietnē 60 sekundēs
Skatiet, kā mūsu MI acumirklī analizē jūsu tīmekļa vietni un izveido personalizētu tērzēšanas robotu - bez reģistrācijas. Vienkārši ievadiet savu URL un vērojiet, kā tas darbojas!
Multimodālo sistēmu arhitektūra
Mūsdienu multimodālās arhitektūras katrai modalitātei izmanto specializētus kodētājus, kas pārveido neapstrādātos datus kopīgā reprezentācijas telpā. Piemēram, attēlu var apstrādāt ar redzes transformatoru (ViT), kas to sadala ielāpus un pārvērš tos iegulumos, savukārt teksts tiek marķēts un iegults atsevišķi. Šīs atšķirīgās iegulšanas pēc tam tiek projicētas kopējā telpā, kur pamata modelis var tos apstrādāt kopā.
Šī "torņa un tilta" arhitektūra ļauj modeļiem apgūt starpmodālas attiecības, izprotot, kā valodas jēdzieni atbilst vizuālajām iezīmēm vai audio modeļiem. Kad GPT-4 Vision fotoattēlā atpazīst orientieri, tas var savienot šo vizuālo attēlojumu ar tekstuālajām zināšanām par atrašanās vietas vēsturi, nozīmi un kontekstu.
Apmācības process parasti ietver lielas pārī savienota satura datu kopas — attēlus ar parakstiem, videoklipus ar transkriptiem un citus saskaņotus multimodālus datus. Mācoties no šiem izlīdzinājumiem, modelis veido iekšēju attēlojumu, kurā saistītās koncepcijas dažādās modalitātēs tiek kartētas cieši kopā tā vektora telpā.
Multimodālā AI reālās pasaules lietojumprogrammas
Veselības aprūpē sistēmas var analizēt medicīniskos attēlus kopā ar pacientu ierakstiem un simptomiem, lai palīdzētu noteikt diagnozi. Ārsts var augšupielādēt rentgena attēlu un uzdot konkrētus jautājumus par iespējamām bažām, saņemot ieskatu, kas apvieno vizuālo analīzi ar medicīniskām zināšanām.
Pieejamības nodrošināšanai multimodālais AI palīdz neredzīgajiem lietotājiem izprast vizuālo saturu, izmantojot detalizētus aprakstus, un palīdz nedzirdīgiem lietotājiem, nodrošinot runātā satura reāllaika transkripciju un tulkošanu.
Izglītībā šīs sistēmas rada interaktīvu mācību pieredzi, kurā skolēni var uzdot jautājumus par diagrammām, vēsturiskiem fotoattēliem vai matemātiskiem vienādojumiem, saņemot viņu mācīšanās stilam pielāgotus paskaidrojumus.
Satura veidotāji izmanto multimodālu AI, lai radītu papildu līdzekļus — rakstot rakstus un veidojot atbilstošas ilustrācijas vai veidojot izglītojošus videoklipus ar sinhronizētiem vizuāliem materiāliem un stāstījumu.
E-komercijas platformas ievieš vizuālo meklēšanu, kurā klienti var augšupielādēt sev tīkama produkta attēlu un atrast līdzīgas preces, savukārt mākslīgais intelekts apraksta galvenās funkcijas, kurām tas atbilst.
Varbūt vissvarīgākais ir tas, ka multimodālās sistēmas rada dabiskākas cilvēka un datora mijiedarbības paradigmas. Tā vietā, lai pielāgotu savu saziņu, lai tā atbilstu stingrām datoru saskarnēm, mēs varam arvien vairāk mijiedarboties ar tehnoloģijām tādos veidos, kā mēs dabiski sazināmies viens ar otru — izmantojot mainīgu vārdu, attēlu, skaņu un žestu kombināciju.
Ierobežojumi un ētiskie apsvērumi
Vizuālā izpratne salīdzinājumā ar cilvēka uztveri paliek virspusēja. Lai gan mākslīgais intelekts var identificēt objektus un aprakstīt ainas, tas bieži vien palaiž garām smalkas vizuālas norādes, telpiskās attiecības un kultūras kontekstu, ko cilvēki uzreiz atpazīst. Palūdziet multimodālajam AI izskaidrot sarežģītu inženiertehnisko diagrammu vai interpretēt fotoattēlā redzamo ķermeņa valodu, un tās ierobežojumi ātri kļūst acīmredzami.
Šīs sistēmas arī pārmanto un dažreiz pastiprina apmācību datos esošās novirzes. Sejas atpazīšanas komponenti noteiktām demogrāfiskajām grupām var darboties sliktāk, vai arī vizuālā argumentācija var atspoguļot kultūras novirzes attēlu interpretācijā.
Privātuma bažas pastiprina multimodālās sistēmas, jo tās apstrādā potenciāli sensitīvus vizuālos un audio datus. Lietotājs var kopīgot attēlu, neapzinoties, ka tas satur personisku informāciju fonā, ko AI var atpazīt un, iespējams, iekļaut savās atbildēs.
Iespējams, ka visaktuālākā problēma ir multimodāla AI potenciāls radīt pārliecinošus sintētiskos datu nesējus — dziļus viltojumus, kas apvieno reālistiskus attēlus, video un audio, lai radītu pārliecinošu, bet izdomātu saturu. Tā kā šīs tehnoloģijas kļūst pieejamākas, sabiedrība saskaras ar steidzamiem jautājumiem par mediju autentiskumu un digitālo pratību.
Nākotne: no multimodāla līdz multisensoriskajam AI
Jaunie pētījumi pēta iemiesotās AI sistēmas, kas savienotas ar robotizētām platformām, kas var fiziski mijiedarboties ar pasauli, apvienojot uztveri ar darbību. Robots, kas aprīkots ar multimodālu AI, varētu vizuāli atpazīt objektus, saprast verbālās instrukcijas un attiecīgi manipulēt ar savu vidi.
Mēs arī redzam agrīnu darbu pie AI sistēmām, kas var uzturēt pastāvīgu atmiņu un veidot kontekstuālo izpratni par ilgstošām mijiedarbībām. Tā vietā, lai katru sarunu uzskatītu par izolētu, šīs sistēmas veidotu nepārtrauktas attiecības ar lietotājiem, atceroties pagātnes mijiedarbību un mācīšanās preferences laika gaitā.
Iespējams, visvairāk pārveidojošākā attīstība būs mākslīgā intelekta sistēmas, kas var veikt sarežģītas spriešanas ķēdes dažādās modalitātēs — saskatīt mehānisku problēmu, spriest par fizikas principiem un ieteikt risinājumus, kas integrē vizuālo, tekstuālo un telpisko izpratni.
Tā kā šīs tehnoloģijas turpina attīstīties, tās arvien vairāk izjauks robežas starp specializētajiem rīkiem un vispārējas nozīmes palīgiem, kas, iespējams, novedīs pie AI sistēmām, kas var elastīgi risināt gandrīz jebkuru informācijas apstrādes uzdevumu, ko cilvēks var aprakstīt.
Secinājums: virzība uz multimodālo nākotni
Šis paātrinājums neliecina par palēnināšanās pazīmēm, un mēs, visticamāk, joprojām atrodamies AI stāsta pirmajās nodaļās. Tā kā šīs sistēmas turpinās attīstīties, tās pārveidos to, kā mēs strādājam, mācāmies, veidojam un sazināmies.
Izstrādātājiem multimodālā paradigma paver jaunas iespējas intuitīvāku un pieejamāku saskarņu izveidei. Uzņēmumiem šīs tehnoloģijas piedāvā iespējas automatizēt sarežģītas darbplūsmas un uzlabot klientu pieredzi. Indivīdiem multimodālais AI nodrošina jaudīgus rīkus radošumam, produktivitātei un piekļuvei informācijai.
Tomēr, lai orientētos šajā nākotnē, ir rūpīgi jāapsver gan iespējas, gan ierobežojumi. Visefektīvākās lietojumprogrammas būs tās, kas izmanto AI stiprās puses, vienlaikus ņemot vērā tā vājās puses, veidojot cilvēku un AI sadarbību, kas pastiprina mūsu kolektīvās spējas.
Pāreja no GPT uz multimodālu AI nav tikai tehnisks sasniegums — tā ir būtiska pārmaiņa mūsu attiecībās ar tehnoloģijām. Mēs pārejam no datoriem, kas izpilda komandas, uz palīgiem, kas saprot kontekstu, interpretē nozīmi dažādās modalitātēs un iesaistās cilvēku komunikācijas bagātībā un neskaidrībā. Šī pāreja turpinās attīstīties pārsteidzošā un pārveidojošā veidā arī turpmākajos gados.