No GPT līdz multimodālajam AI: izpratne par mūsdienu...
Ieiet Izmēģināt bez maksas
sept. 13, 2024 5 minūšu lasīšana

No GPT līdz multimodālajam AI: izpratne par mūsdienu AI iespējām

Izpētiet ceļu no uz tekstu balstītiem GPT modeļiem līdz izsmalcinātām multimodālām AI sistēmām, kas var vienlaicīgi apstrādāt tekstu, attēlus, audio un video.

No GPT uz multimodālu AI

Mūsdienu AI rītausma: GPT izpratne

Kad OpenAI 2018. gadā ieviesa GPT (ģeneratīvo iepriekš apmācītu transformatoru), tikai daži ārpus AI pētniecības kopienas varēja paredzēt, cik dramatiski tas mainīs mūsu attiecības ar tehnoloģijām. Sākotnējais GPT modelis, kas apmācīts daudzveidīgā interneta teksta korpusā, demonstrēja pārsteidzošas spējas ģenerēt saskaņotu, kontekstuāli atbilstošu tekstu no vienkāršām uzvednēm.
Tas, kas padarīja GPT revolucionāru, bija ne tikai tā lielums (lai gan tajā laikā tā 117 miljoni parametru šķita milzīgi), bet arī tā pamatā esošā arhitektūra. Transformatora modelis, ko Google pētnieki ieviesa savā dokumentā "Uzmanība ir viss, kas jums nepieciešams", izrādījās ārkārtīgi efektīvs secīgu datu, piemēram, teksta, apstrādē. Atšķirībā no iepriekšējiem atkārtotiem neironu tīkliem, kas apstrādāja marķierus vienu pēc otra, transformatori varēja vienlaikus analizēt visas sekvences, izmantojot savu uzmanības mehānismu.
Šī paralēlā apstrāde ne tikai paātrināja apmācības laiku, bet arī ļāva modelim labāk uztvert liela attāluma atkarības tekstā. Pēkšņi AI varēja "atcerēties" to, kas tika minēts pirms rindkopām, un saglabātu tematisko konsekvenci garākos iznākumos. Pirmo reizi mašīnas ģenerēts teksts sāka šķist patiesi cilvēcisks.

Mērogošanas laikmets: no GPT-2 uz GPT-3

Ja GPT bija koncepcijas pierādījums, GPT-2 bija brīdis, kad sabiedrība sāka aptvert AI potenciālu. Izlaists 2019. gadā ar 1,5 miljardiem parametru, GPT-2 ģenerēja tik pārliecinošu tekstu, ka OpenAI sākotnēji aizkavēja tā pilnīgu izlaišanu, pamatojot to ar bažām par iespējamu ļaunprātīgu izmantošanu. Modelis varēja rakstīt sakarīgus ziņu rakstus, izstrādāt pārliecinošus argumentus un pat radīt izdomātus stāstus ar konsekventiem varoņiem un sižetiem.
Taču īstais pavērsiena brīdis radās ar GPT-3 2020. gadā. Ar 175 miljardiem parametru — vairāk nekā 100 reižu lielāku nekā GPT-2 — tas nozīmēja milzīgu lēcienu iespējās. Modelis demonstrēja to, ko pētnieki sauc par "jaunām spējām" — prasmes, kurām tas netika īpaši apmācīts, bet tika izstrādāts, izmantojot mērogu un dažādu datu iedarbību.
Varbūt visievērojamākais ir tas, ka GPT-3 parādīja elementāras "dažu kadru mācīšanās" spējas. Ja uzvednē ir redzami tikai daži piemēri, tas var pielāgoties jauniem uzdevumiem, piemēram, tulkošanai, kopsavilkumam vai pat pamata kodēšanai. AI lauks sāka apzināties, ka mērogs ne tikai pakāpeniski uzlabo veiktspēju – tas būtiski mainīja šo sistēmu iespējas.

Ārpus izmēra: pilnveidošana, izmantojot RLHF

Lai arī cik iespaidīgs bija GPT-3, tas joprojām radīja tekstu, kas faktiski varēja būt nepareizs, neobjektīvs vai nepiemērots. Nākamais izrāviens nebija modeļu palielināšana, bet gan to labāk saskaņotība ar cilvēka vērtībām un nodomiem.
Ievadiet pastiprināšanas apmācību no cilvēku atsauksmēm (RLHF). Šī apmācības metodoloģija iepazīstina ar cilvēku vērtētājiem, kuri novērtē modeļa rezultātus, izveidojot atgriezeniskās saites cilpu, kas palīdz AI saprast, kuras atbildes ir noderīgas, patiesas un nekaitīgas. Modeļi, kas apmācīti ar RLHF, piemēram, ChatGPT un Claude, izrādījās ievērojami noderīgāki ikdienas uzdevumiem, vienlaikus samazinot kaitīgos rezultātus.
RLHF iezīmēja būtisku maiņu AI attīstības filozofijā. Ar neapstrādātu prognozēšanas spēku vairs nepietika — sistēmām bija vajadzīgas, lai saprastu cilvēcisko vērtību nianses. Šī apmācības pieeja palīdzēja modeļiem atbilstoši reaģēt uz sensitīvām tēmām, noraidīt neatbilstošus pieprasījumus un paust nenoteiktību, nevis pārliecinoši apgalvot nepatiesības.

Sākas multimodālā revolūcija

Kamēr teksta modeļi strauji attīstījās, pētnieki vienlaikus pētīja, kā AI varētu saprast citas modalitātes — attēlus, audio un video. Parādījās datorredzes modeļi, piemēram, DALL-E, Midjourney un Stable Diffusion, kas spēj radīt satriecošus attēlus no teksta aprakstiem.
Šīs sistēmas darbojās, apmācot difūzijas modeļus plašām attēla un teksta pāru datu kopām. Apgūstot attiecības starp vizuālajiem jēdzieniem un to tekstuālajiem aprakstiem, viņi varētu pārveidot atbilstošos attēlos tādus pamudinājumus kā "sireālistiska kaķa glezna, kas spēlē šahu Salvadora Dalī stilā".
Tāpat runas atpazīšanas modeļi kļuva arvien precīzāki, un teksta pārvēršanas runā sistēmas kļuva gandrīz neatšķiramas no cilvēku balsīm. Video ģenerēšana, kamēr tā vēl bija agrīnā stadijā, sāka uzrādīt daudzsološus rezultātus ar tādām sistēmām kā Runway ML Gen-2 un Google Lumiere.
Katra modalitāte strauji attīstījās, taču tās lielākoties palika atsevišķas sistēmas. Nākamā revolūcija rastos, apvienojot šīs spējas.

Patiess multimodāls AI: redzēšana, dzirdēšana un izpratne

Pāreja uz īstu multimodālu AI sākās, kad pētnieki izstrādāja sistēmas, kas vienlaikus varēja apstrādāt vairāku veidu ievades datus un apsvērt dažādas metodes. Tādi modeļi kā GPT-4 Vision, Claude Sonnet un Gemini tagad var analizēt attēlus līdzās tekstam, radot daudz dabiskāku mijiedarbības paradigmu.
Šīs sistēmas var aprakstīt attēlos redzēto, izvilkt tekstu no dokumentiem, analizēt diagrammas un grafikus un pat atrisināt vizuālas mīklas. Lietotājs var augšupielādēt savā ledusskapī esošo sastāvdaļu fotoattēlu un jautāt: "Ko es varu pagatavot ar šīm?" Pēc tam AI identificē preces un iesaka atbilstošas receptes.
Tas, kas patiesas multimodālas sistēmas atšķir no vienkāršu atsevišķu modeļu savienošanas, ir to vienotā izpratne. Kad jautājat par attēla elementu, sistēma ne tikai palaiž atsevišķu attēla atpazīšanu un pēc tam teksta ģenerēšanu – tā attīsta integrētu izpratni par dažādām modalitātēm. Tas nodrošina sarežģītāku argumentāciju, piemēram, izskaidrojot, kāpēc mēma ir smieklīga, vai noteikt neatbilstības starp tekstu un attēliem.

Izmēģiniet MI savā tīmekļa vietnē 60 sekundēs

Skatiet, kā mūsu MI acumirklī analizē jūsu tīmekļa vietni un izveido personalizētu tērzēšanas robotu - bez reģistrācijas. Vienkārši ievadiet savu URL un vērojiet, kā tas darbojas!

Gatavs 60 sekundēs
Nav nepieciešamas programmēšanas prasmes
100% droši

Multimodālo sistēmu arhitektūra

Efektīva multimodāla AI izveide ietver sarežģītu tehnisku izaicinājumu risināšanu. Dažādiem datu tipiem ir principiāli atšķirīgas struktūras — attēli ir telpiski pikseļu režģi, audio sastāv no viļņu formām, un teksts ir secīgi marķieri. Kā izveidot vienotu attēlojumu, kas atspoguļo šo atšķirīgo formātu nozīmi?
Mūsdienu multimodālās arhitektūras katrai modalitātei izmanto specializētus kodētājus, kas pārveido neapstrādātos datus kopīgā reprezentācijas telpā. Piemēram, attēlu var apstrādāt ar redzes transformatoru (ViT), kas to sadala ielāpus un pārvērš tos iegulumos, savukārt teksts tiek marķēts un iegults atsevišķi. Šīs atšķirīgās iegulšanas pēc tam tiek projicētas kopējā telpā, kur pamata modelis var tos apstrādāt kopā.
Šī "torņa un tilta" arhitektūra ļauj modeļiem apgūt starpmodālas attiecības, izprotot, kā valodas jēdzieni atbilst vizuālajām iezīmēm vai audio modeļiem. Kad GPT-4 Vision fotoattēlā atpazīst orientieri, tas var savienot šo vizuālo attēlojumu ar tekstuālajām zināšanām par atrašanās vietas vēsturi, nozīmi un kontekstu.
Apmācības process parasti ietver lielas pārī savienota satura datu kopas — attēlus ar parakstiem, videoklipus ar transkriptiem un citus saskaņotus multimodālus datus. Mācoties no šiem izlīdzinājumiem, modelis veido iekšēju attēlojumu, kurā saistītās koncepcijas dažādās modalitātēs tiek kartētas cieši kopā tā vektora telpā.

Multimodālā AI reālās pasaules lietojumprogrammas

Multimodālā AI praktiskie pielietojumi pārveido nozares visās jomās:
Veselības aprūpē sistēmas var analizēt medicīniskos attēlus kopā ar pacientu ierakstiem un simptomiem, lai palīdzētu noteikt diagnozi. Ārsts var augšupielādēt rentgena attēlu un uzdot konkrētus jautājumus par iespējamām bažām, saņemot ieskatu, kas apvieno vizuālo analīzi ar medicīniskām zināšanām.
Pieejamības nodrošināšanai multimodālais AI palīdz neredzīgajiem lietotājiem izprast vizuālo saturu, izmantojot detalizētus aprakstus, un palīdz nedzirdīgiem lietotājiem, nodrošinot runātā satura reāllaika transkripciju un tulkošanu.
Izglītībā šīs sistēmas rada interaktīvu mācību pieredzi, kurā skolēni var uzdot jautājumus par diagrammām, vēsturiskiem fotoattēliem vai matemātiskiem vienādojumiem, saņemot viņu mācīšanās stilam pielāgotus paskaidrojumus.
Satura veidotāji izmanto multimodālu AI, lai radītu papildu līdzekļus — rakstot rakstus un veidojot atbilstošas ilustrācijas vai veidojot izglītojošus videoklipus ar sinhronizētiem vizuāliem materiāliem un stāstījumu.
E-komercijas platformas ievieš vizuālo meklēšanu, kurā klienti var augšupielādēt sev tīkama produkta attēlu un atrast līdzīgas preces, savukārt mākslīgais intelekts apraksta galvenās funkcijas, kurām tas atbilst.
Varbūt vissvarīgākais ir tas, ka multimodālās sistēmas rada dabiskākas cilvēka un datora mijiedarbības paradigmas. Tā vietā, lai pielāgotu savu saziņu, lai tā atbilstu stingrām datoru saskarnēm, mēs varam arvien vairāk mijiedarboties ar tehnoloģijām tādos veidos, kā mēs dabiski sazināmies viens ar otru — izmantojot mainīgu vārdu, attēlu, skaņu un žestu kombināciju.

Ierobežojumi un ētiskie apsvērumi

Neskatoties uz iespaidīgajām iespējām, mūsdienu multimodālajām AI sistēmām ir būtiski ierobežojumi un tās rada svarīgas ētiskas bažas.
Vizuālā izpratne salīdzinājumā ar cilvēka uztveri paliek virspusēja. Lai gan mākslīgais intelekts var identificēt objektus un aprakstīt ainas, tas bieži vien palaiž garām smalkas vizuālas norādes, telpiskās attiecības un kultūras kontekstu, ko cilvēki uzreiz atpazīst. Palūdziet multimodālajam AI izskaidrot sarežģītu inženiertehnisko diagrammu vai interpretēt fotoattēlā redzamo ķermeņa valodu, un tās ierobežojumi ātri kļūst acīmredzami.
Šīs sistēmas arī pārmanto un dažreiz pastiprina apmācību datos esošās novirzes. Sejas atpazīšanas komponenti noteiktām demogrāfiskajām grupām var darboties sliktāk, vai arī vizuālā argumentācija var atspoguļot kultūras novirzes attēlu interpretācijā.
Privātuma bažas pastiprina multimodālās sistēmas, jo tās apstrādā potenciāli sensitīvus vizuālos un audio datus. Lietotājs var kopīgot attēlu, neapzinoties, ka tas satur personisku informāciju fonā, ko AI var atpazīt un, iespējams, iekļaut savās atbildēs.
Iespējams, ka visaktuālākā problēma ir multimodāla AI potenciāls radīt pārliecinošus sintētiskos datu nesējus — dziļus viltojumus, kas apvieno reālistiskus attēlus, video un audio, lai radītu pārliecinošu, bet izdomātu saturu. Tā kā šīs tehnoloģijas kļūst pieejamākas, sabiedrība saskaras ar steidzamiem jautājumiem par mediju autentiskumu un digitālo pratību.

Nākotne: no multimodāla līdz multisensoriskajam AI

Raugoties nākotnē, AI iespēju attīstība neliecina par palēnināšanās pazīmēm. Nākamā robeža var būt patiesi multisensoras sistēmas, kas ietver ne tikai redzi un skaņu, bet arī pieskārienu, smaržu un garšu, izmantojot sensoru integrāciju un uzlabotu simulāciju.
Jaunie pētījumi pēta iemiesotās AI sistēmas, kas savienotas ar robotizētām platformām, kas var fiziski mijiedarboties ar pasauli, apvienojot uztveri ar darbību. Robots, kas aprīkots ar multimodālu AI, varētu vizuāli atpazīt objektus, saprast verbālās instrukcijas un attiecīgi manipulēt ar savu vidi.
Mēs arī redzam agrīnu darbu pie AI sistēmām, kas var uzturēt pastāvīgu atmiņu un veidot kontekstuālo izpratni par ilgstošām mijiedarbībām. Tā vietā, lai katru sarunu uzskatītu par izolētu, šīs sistēmas veidotu nepārtrauktas attiecības ar lietotājiem, atceroties pagātnes mijiedarbību un mācīšanās preferences laika gaitā.
Iespējams, visvairāk pārveidojošākā attīstība būs mākslīgā intelekta sistēmas, kas var veikt sarežģītas spriešanas ķēdes dažādās modalitātēs — saskatīt mehānisku problēmu, spriest par fizikas principiem un ieteikt risinājumus, kas integrē vizuālo, tekstuālo un telpisko izpratni.
Tā kā šīs tehnoloģijas turpina attīstīties, tās arvien vairāk izjauks robežas starp specializētajiem rīkiem un vispārējas nozīmes palīgiem, kas, iespējams, novedīs pie AI sistēmām, kas var elastīgi risināt gandrīz jebkuru informācijas apstrādes uzdevumu, ko cilvēks var aprakstīt.

Secinājums: virzība uz multimodālo nākotni

Ceļš no tikai teksta GPT modeļiem līdz mūsdienu sarežģītajām multimodālajām sistēmām ir viena no visstraujākajām tehnoloģiskajām evolūcijām cilvēces vēsturē. Tikai pusdesmit gadu laikā mākslīgais intelekts no specializētiem pētniecības rīkiem ir kļuvis par plaši pieejamām sistēmām, ar kurām miljoniem cilvēku mijiedarbojas katru dienu.
Šis paātrinājums neliecina par palēnināšanās pazīmēm, un mēs, visticamāk, joprojām atrodamies AI stāsta pirmajās nodaļās. Tā kā šīs sistēmas turpinās attīstīties, tās pārveidos to, kā mēs strādājam, mācāmies, veidojam un sazināmies.
Izstrādātājiem multimodālā paradigma paver jaunas iespējas intuitīvāku un pieejamāku saskarņu izveidei. Uzņēmumiem šīs tehnoloģijas piedāvā iespējas automatizēt sarežģītas darbplūsmas un uzlabot klientu pieredzi. Indivīdiem multimodālais AI nodrošina jaudīgus rīkus radošumam, produktivitātei un piekļuvei informācijai.
Tomēr, lai orientētos šajā nākotnē, ir rūpīgi jāapsver gan iespējas, gan ierobežojumi. Visefektīvākās lietojumprogrammas būs tās, kas izmanto AI stiprās puses, vienlaikus ņemot vērā tā vājās puses, veidojot cilvēku un AI sadarbību, kas pastiprina mūsu kolektīvās spējas.
Pāreja no GPT uz multimodālu AI nav tikai tehnisks sasniegums — tā ir būtiska pārmaiņa mūsu attiecībās ar tehnoloģijām. Mēs pārejam no datoriem, kas izpilda komandas, uz palīgiem, kas saprot kontekstu, interpretē nozīmi dažādās modalitātēs un iesaistās cilvēku komunikācijas bagātībā un neskaidrībā. Šī pāreja turpinās attīstīties pārsteidzošā un pārveidojošā veidā arī turpmākajos gados.

Saistītie raksti

Kā novērtēt tērzēšanas robota veiktspēju
Kā izvēlēties labāko mākslīgā intelekta rakstnieku
Antropiskais Klods 3.7
AI zvanu centrs
ChatGPT Plus
Biznesa ROI, ieviešot sarunvalodas AI

Izmēģiniet MI savā tīmekļa vietnē 60 sekundēs

Skatiet, kā mūsu MI acumirklī analizē jūsu tīmekļa vietni un izveido personalizētu tērzēšanas robotu - bez reģistrācijas. Vienkārši ievadiet savu URL un vērojiet, kā tas darbojas!

Gatavs 60 sekundēs
Nav nepieciešamas programmēšanas prasmes
100% droši