Ինչ նշանակություն ունեն ChatGPT-ը և գեներացվող արհեստական բանականությունը գիտության համար. nature
13:47 - 09 փետրվարի, 2023

Ինչ նշանակություն ունեն ChatGPT-ը և գեներացվող արհեստական բանականությունը գիտության համար. nature

Բրիտանական Nature գիտական ամսագիրը հանրամատչելի հոդվածների բաժնում հրապարակել է վերլուծական նյութ գիտության համար գեներացվող արհեստական բանականության նշանակության մասին։ Հոդվածում ներկայացվում է ChatGPT-ի և արհեստական բանականությամբ աշխատող այլ գործիքների կիրառությունը գիտության մեջ և գիտնականների կողմից, դրանց դրական կողմերը և հնարավոր բացասական ազդեցությունը։ Հոդվածը ներկայացնում ենք կրճատումներով․

Դեկտեմբերին հաշվարկային կենսաբաններ Քեյսի Գրինին և Միլթոն Պիվիդորին ձեռնամուխ եղան անսովոր փորձի. նրանք խնդրել էին ոչ գիտնական ասիստենտին օգնել բարելավել իրենց երեք հետազոտական աշխատանքները: Նրանց ջանասեր ասիստենտը մի քանի վայրկյանում փոփոխություններ էր առաջարկել փաստաթղթերում. յուրաքանչյուր ձեռագրի վերանայումը տևել էր մոտ հինգ րոպե: Կենսաբանության վերաբերյալ մեկ ձեռագրում նրանց օգնականը նույնիսկ սխալ էր հայտնաբերել հավասարման հղման մեջ: Փորձը միշտ չէ, որ սահուն էր ընթանում, բայց վերջնական ձեռագրերն ավելի հեշտ էին ընթերցվում, իսկ վճարները համեստ էին՝ մեկ փաստաթղթի համար 0,50 դոլարից պակաս: 

Հունվարի 23-ին Գրինին ու Պիվիդորին հայտնեցին, որ իրենց օգնականը ոչ թե մարդ է, այլ արհեստական բանականության (AI) ալգորիթմ՝ GPT-3-ը, որն առաջին անգամ թողարկվել է 2020 թվականին: Սա գեներացվող արհեստական բանականությամբ շատ գովազդված չաթբոտի ոճով աշխատող գործիք է, որը կարող է համոզիչ սահուն տեքստ արտադրել՝ գրել արձակ, պոեզիա, համակարգչային կոդ կամ, ինչպես գիտնականների դեպքում, խմբագրել հետազոտական աշխատանքները։ 

Այս գործիքներից ամենահայտնին, որը հայտնի է նաև որպես լեզվի մեծ մոդել կամ LLM, ChatGPT-ն է՝ մեկը GPT-3 տարբերակներից, որը մեծ համբավ ձեռք բերեց անցյալ տարվա նոյեմբերին թողարկվելուց հետո, քանի որ անվճար է և հեշտությամբ հասանելի: Այլ գեներացվող արհեստական բանականություններ կարող են նույնիսկ ստեղծել պատկերներ կամ հնչյուններ: 

«Ես իսկապես տպավորված եմ։ Սա կօգնի մեզ՝ հետազոտողներիս, ավելի արդյունավետ լինել»,- ասում է Ֆիլադելֆիայի Փենսիլվանիայի համալսարանի աշխատակից Պիվիդորին։ Այլ գիտնականներ այժմ հայտնում են, որ պարբերաբար օգտագործում են LLM-ները ոչ միայն ձեռագրերը խմբագրելու համար, այլ նաև օգնելու իրենց գրել կամ ստուգել համակարգչային կոդեր և գեներացնել գաղափարներ: 

«Հիմա ես ամեն օր օգտագործում եմ LLM»,- ասում է Իսլանդիայի համալսարանի համակարգչային գիտնական Հաֆշտեյն Էյնարսոնը: Նա սկսել է GPT-3-ից, բայց այժմ անցել է ChatGPT-ին, որն օգնում է նրան պատրաստել պրեզենտացիաներ, ուսանողական քննություններ և դասընթացի առաջադրանքներ, ինչպես նաև ուսանողական թեզերը վերածել հոդվածների: Նրա խոսքով շատերն այն օգտագործում են որպես թվային քարտուղար կամ օգնական։ 

LLM-ները որոնողական համակարգերի, կոդ գրող ասիստենտների և նույնիսկ չաթբոտերի մի մասն են, որոնք բանակցում են այլ ընկերությունների չաթբոտերի հետ՝ ապրանքների լավագույն գները ստանալու համար: ChatGPT-ի ստեղծող OpenAI-ը, որը գտնվում է  Սան Ֆրանցիսկոյում, հայտարարել է ծառայության ամսական $20-անոց բաժանորդագրության մասին՝ խոստանալով ավելի արագ արձագանքման հնարավորություն և առաջնահերթ մուտք դեպի նոր հնարավորություններ (չնայած դրա փորձնական տարբերակը կմնա անվճար): Իսկ տեխնոլոգիական հսկա «Մայքրոսոֆթը», որն արդեն ներդրումներ է կատարել OpenAI-ում, հունվարին հայտարարեց հետագա ներդրումների մասին, որոնք, ըստ տեղեկությունների, կկազմեն մոտ 10 միլիարդ դոլար: LLM-ները կներառվեն բառերի և տվյալների մշակման ընդհանուր ծրագրային ապահովման մեջ։ Հասարակության մեջ գեներացվող արհեստական բանականության ապագա տարածվածությունը երաշխավորված է թվում հատկապես այն պատճառով, որ այսօրվա գործիքները տեխնոլոգիան ներկայացնում են զարգացման նախնական փուլում:

Բայց LLM-ները նաև լայն մտահոգություն են առաջացրել՝ սկսած կեղծ տվյալներ գեներացնելուց մինչև վախեր այն մասին, որ մարդիկ արհեստական ինտելեկտի կողմից ստեղծված տեքստը ներկայացնում են որպես իրենց սեփականը: Երբ Nature-ը հետազոտողներին հարցրեց ChatGPT-ի նման չաթբոտերի հնարավոր օգտագործման մասին հատկապես գիտության մեջ, նրանց ոգևորությունը փոխարինվեց վախով: 

«Եթե հավատում եք, որ այս տեխնոլոգիան վերափոխման ներուժ ունի, ապա կարծում եմ՝ պետք է մտահոգվեք դրա մասին»,- ասում է Գրինին: Հետազոտողների խոսքով շատ բան կախված կլինի նրանից, թե ինչպես ապագա կարգավորումներն ու ուղեցույցները կարող են սահմանափակել արհեստական բանականությամբ չաթբոտերի օգտագործումը:

 

Սահուն, բայց ոչ փաստական

Որոշ հետազոտողներ կարծում են, որ LLM-ները լավ են համապատասխանում այնպիսի առաջադրանքներն արագացնելու համար, ինչպիսիք են հոդվածներ կամ դրամաշնորհներ գրելը, պայմանով, որ կա մարդկային վերահսկողություն: 

«Գիտնականներն այլևս չեն պատրաստվում նստել և երկար նախաբաններ գրել դրամաշնորհային հայտերի համար։ Նրանք պարզապես պատրաստվում են համակարգերին խնդրել դա անել»,- ասում է նյարդաբան Ալմիրա Օսմանովիչ Թունսթրոմը:

Լոնդոնում տեղակայված ծրագրային ապահովման խորհրդատվական ընկերության՝ InstaDeep-ի հետազոտական ինժեներ Թոմ Թումիելը ասում է, որ ամեն օր օգտագործում է LLM-ներ՝ որպես համակարգչային կոդ գրելու օգնականներ: 

«Այն գրեթե նման է ավելի լավ Stack Overflow-ին»,- ասում է Թումիելը՝ նկատի ունենալով համայնքի հանրաճանաչ կայքը, որտեղ ծրագրավորողները պատասխանում են միմյանց հարցումներին: 

Հետազոտողները, սակայն, ընդգծում են, որ LLM-ները հիմնովին անվստահելի են հարցերին պատասխանելիս՝ երբեմն գեներացնելով սխալ պատասխաններ: «Մենք պետք է զգույշ լինենք, երբ օգտագործում ենք այս համակարգերը գիտելիքներ ստանալու համար»,- ասում է Օսմանովիչ Թունսթրոմը:

Այս անվստահության պատճառն այն է, թե ինչպես են ստեղծված LLM-ները: ChatGPT-ն և մրցակիցները աշխատում են՝ ուսումնասիրելով լեզվի վիճակագրական օրինաչափությունները հսկայական առցանց տեքստային տվյալների շտեմարաններում, ներառյալ ցանկացած անճշտություն, կողմնակալություն կամ հնացած գիտելիք:

Արդյունքն այն է, որ LLM-ները հեշտությամբ տալիս են սխալներ և ապակողմնորոշիչ տեղեկություններ՝ հատկապես տեխնիկական թեմաների վերաբերյալ, որոնց համար նրանք կարող էին սովորելու քիչ տվյալներ ունենալ: LLM-ները նաև չեն կարող նշել իրենց տեղեկության աղբյուրը. եթե նրանց խնդրեն գրել ակադեմիական հոդված, նրանք կեղծ հղումներ են անում: 

Հաշվի առնելով այս նախազգուշացումները՝ ChatGPT-ն և այլ LLM-ները կարող են արդյունավետ օգնականներ լինել հետազոտողների համար, որոնք ունեն բավարար փորձ՝ ուղղակիորեն խնդիրները հայտնաբերելու կամ պատասխանները հեշտությամբ ստուգելու համար, օրինակ՝ արդյո՞ք համակարգչային կոդի բացատրությունը կամ առաջարկը ճիշտ է: 

Բայց այդ գործիքները կարող են մոլորեցնել միամիտ օգտատերերին: Օրինակ՝ դեկտեմբերին Stack Overflow-ը ժամանակավորապես արգելեց ChatGPT-ի օգտագործումը, քանի որ կայքի մոդերատորները հեղեղված էին մեծ թվով սխալ, բայց թվացյալ համոզիչ պատասխաններով, որոնք գեներացվել էին LLM-ների կողմից։ Սա կարող է մղձավանջ լինել որոնողական համակարգերի համար:

 

Հնարավո՞ր է վերացնել թերությունները

Որոնողական համակարգերի որոշ գործիքներ թույլ են տալիս շրջանցել LLM-ի սահմանման խնդիրները՝ օգտագործելով իրենց հնարավորությունները նախ՝ համապատասխան գրականության հարցումներ ուղղելու համար, այնուհետև համառոտ ամփոփելու որոնողական համակարգերի գտած կայքերից կամ փաստաթղթերից յուրաքանչյուրը՝ այդպիսով գեներացնելով հղված բովանդակություն (չնայած LLM-ը կարող է սխալ ամփոփել յուրաքանչյուր առանձին փաստաթուղթ): 

LLM ստեղծող ընկերությունները նույնպես քաջատեղյակ են այս խնդիրներին: Անցյալ սեպտեմբերին «Գուգլի» դուստր ձեռնարկությունը՝ DeepMind-ը, հոդված հրապարակեց «երկխոսության գործակալի» մասին, որը կոչվում էր Sparrow, որը, ինչպես ավելի ուշ հայտնեց ընկերության գործադիր տնօրեն և համահիմնադիր Դեմիս Հասաբիսը, այս տարի կթողարկվի փակ բետա տարբերակով. ամսագիրը հայտնել է, որ «Գուգլը» մտադիր է աշխատել գործառույթների վրա, ներառյալ աղբյուրներին հղում կատարելու հնարավորությունը: 

Ըստ որոշ գիտնականների՝ այս պահին ChatGPT-ն չի վարժվել այնքան մասնագիտացված բովանդակությամբ, որ օգտակար լինի տեխնիկական թեմաներով: Հարվարդի համալսարանի կենսավիճակագրության ամբիոնի ասպիրանտ Կարիմ Քարն այնքան էլ ոգևորված չէր, երբ փորձարկեց այն: «Կարծում եմ, որ ChatGPT-ին դժվար կլինի հասնել ինձ անհրաժեշտ հստակության մակարդակին»։ 

Որոշ տեխնոլոգիական ընկերություններ չաթբոտներ են պատրաստում հատուկ գիտական գրականության հիման վրա, չնայած նրանք ևս բախվում են մարտահրավերների: Անցյալ տարվա նոյեմբերին Meta-ն թողարկեց LLM ծրագիր, որը կոչվում էր Galactica, որը վարժվել էր գիտական ամփոփագրերի վրա՝ նպատակ ունենալով այն հատկապես արդյունավետ դարձնել ակադեմիական բովանդակություն ստեղծելու և հետազոտական հարցերին պատասխանելու համար: Դեմո տարբերակը հանվել է հանրային հասանելիությունից այն բանից հետո, երբ օգտատերերը դրա մեջ հայտնաբերել են անճշտություններ և ռասիզմ։ 

 

Անվտանգություն և պատասխանատվություն

Galactica-ն բախվել է անվտանգության հայտնի խնդրի, որը էթիկայի մասնագետները տարիներ շարունակ մատնանշել են. առանց գեներացվող բովանդակության վերահսկման, LLM-ները կարող են հեշտությամբ օգտագործվել գեներացնելու ատելության խոսք և սպամ, ինչպես նաև ռասիստական, սեքսիստական և այլ վնասակար ասոցիացիաներ, որոնք կարող են անուղղակիորեն արտահայտվել ուսումնական տվյալների մեջ: 

Բացի ուղղակիորեն վնասակար բովանդակություն ստեղծելուց՝ մտավախություն կա, որ արհեստական բանականությամբ աշխատող չաթբոտերն իրենց ուսումնական տվյալներից կարող են գեներացնել պատմական կողմնակալ փաստեր կամ գաղափարներ աշխարհի մասին, ինչպիսիք են որոշակի մշակույթների գերազանցությունը։ Այս մասին ասում է Միչիգանի համալսարանի գիտության, տեխնոլոգիայի և հանրային քաղաքականության ծրագրի տնօրեն Շոբիտա Պարթասարաթին: 

«Քանի որ խոշոր LLM-ներ ստեղծող ընկերությունները հիմնականում պատկանում և բխում են այս մշակույթներից, նրանք կարող են շատ փորձեր չձեռնարկել հաղթահարելու այնպիսի կողմնակալություններ, որոնք համակարգային բնույթ են կրում, և որոնք դժվար է շտկելը», - հավելում է նա:

OpenAI-ը փորձեց շրջանցել այս խնդիրներից շատերը՝ որոշելով թողարկել ChatGPT-ն: Այն սահմանափակեց իր գիտելիքների բազան մինչև 2021 թվականը, արգելեց որոնումը ինտերնետում և ֆիլտրեր տեղադրեց՝ փորձելով ստիպել գործիքին հրաժարվել զգայուն կամ վնասակար հարցումների համար բովանդակություն գեներացնելուց: Դրան հասնելու համար, սակայն, մոդերատորներից պահանջվում էր պիտակավորել վնասակար տեքստի կտորները:

OpenAI-ի պաշտպանությունը այնքան էլ հաջող չէ։ Անցյալ տարվա դեկտեմբերին Կալիֆոռնիայի Բերկլիի համալսարանի հաշվարկային նյարդագետ Սթիվեն Պիանտադոսին Թվիթերում գրել էր, որ ինքը ChatGPT-ին խնդրել է մշակել Python-ի ծրագիր՝ որոշելու, թե արդյոք անձը պետք է խոշտանգվի՝ ելնելով իր ծագման երկրից:

Չաթբոտը պատասխանեց համակարգչային կոդով, որը օգտվողին խնդրում է մուտքագրել երկիր և վերադրաձնում է «այս անձը պետք է խոշտանգվի», եթե մուտքագրված երկիրը Հյուսիսային Կորեան, Սիրիան, Իրանը կամ Սուդանն է։ Հետագայում OpenAI-ն փակեց այս հարցը։ 

Անցյալ տարի գիտնականների խումբը թողարկեց այլընտրանքային LLM, որը կոչվում էր BLOOM: Հետազոտողները փորձել են նվազեցնել վնասակար արդյունքները՝ այն վարժեցնելով ավելի քիչ, բայց բարձրորակ բազմալեզու տեքստային աղբյուրներով: 

Որոշ հետազոտողներ ասում են, որ ակադեմիական շրջանակները պետք է ընդհանրապես հրաժարվեն խոշոր առևտրային LLM-ների աջակցելուց: Բացի այնպիսի խնդիրներից, ինչպիսիք են կողմնակալությունը, անվտանգության խնդիրները և աշխատողների շահագործումը, այս ժամանակատար ալգորիթմները նաև պահանջում են հսկայական քանակությամբ էներգիա վարժվելու համար, ինչը մտահոգություններ է առաջացնում դրանց՝ շրջակա միջավայրի ազդեցության վերաբերյալ: Մեկ այլ մտահոգություն է այն, որ մտածելու գործընթացը ավտոմատ չաթբոտերին փոխանցելով՝ հետազոտողները կարող են կորցնել իրենց սեփական մտքերը ձևակերպելու ունակությունը: 

Մեկ այլ շփոթություն է այնպիսի LLM-ների իրավական կարգավիճակը, որոնք վարժեցվել են ինտերնետից վերցված բովանդակությամբ, երբեմն ոչ այնքան հստակ թույլտվություններով: Հեղինակային իրավունքի և լիցենզավորման մասին օրենքները ներկայումս տարածվում են պիքսելների, տեքստի և ծրագրակազմի ուղղակի պատճենների վրա, բայց ոչ դրանց ոճով նմանակված բովանդակության: 

Գլխավոր նկարը՝ Paweł Jońca-ի


Եթե գտել եք վրիպակ, ապա այն կարող եք ուղարկել մեզ՝ ընտրելով վրիպակը և սեղմելով CTRL+Enter

comment.count (0)

Մեկնաբանել