NU ISSAI және DeepSeek: серпінді болашақты ЖИ арқылы қайта құру

Қытайлық DeepSeek компаниясы ұсынған жаңа ЖИ үлгілері — DeepSeek-V3 және DeepSeek-R1 — жасанды интеллект әлеміндегі улкен серпіліс ретінде бағаланды. Кейбір аспектілері бойынша OpenAI үлгілерінен асып түсетін бұл технологиялар ашық қол жетімді және Кейбір мүмкіндіктері бойынша OpenAI-дан асып түсетін технологиялар жалпыға қолжетімді болып, бүкіл әлем бойынша ірі технологиялық компаниялар үшін лайықты бәсеке болды. Nazarbayev University (NU) жанындағы Ақылды жүйелер мен жасанды интеллект институты (ISSAI) да Қазақстанның қажеттіліктеріне бейімделген ЖИ шешімдерін әзірлеу үшін осы үлгілерді зерттеп жатыр.

NU ISSAI бас директоры, доктор Атакан Варолдың айтуынша, қытайлық модельді белгілі бір тапсырмаға бейімдеу үшін, мысалы, қазақ тілін жақсы түсінуі немесе жоғары мамандандырылған салаларда жұмыс істеуі үшін, оны одан әрі дербес оқыту қажет. Қытайлық компания үлгіні дәл баптау әдісін ашпады.

Қазір дүние жүзіндегі көптеген зерттеу топтары DeepSeekR1 моделін әрі қарай қалай үйрету керектігін, оның негізінде неғұрлым жетілдірілген немесе бейімделген үлгілерді қалай жасау керектігін түсінуге тырысуда. ISSAI NU зерттеу тобы да осы мақсатқа ұмтылуда; Біздің зерттеушілер үлгінің блок- блокпен бөлшектеп қарастыруда, оның қалай жұмыс істейтінін түсіну үшін және осы архитектураны пайдалана отырып, ISSAI генеративті ЖИ үлгілерінің келесі буынын оқытуды жоспарлауда, — деді доктор Атакан Варол Институттың кейбір жоспарларымен бөлісе отырып.

Жақында институт Oylan тіл-визуалды моделін сынақтан өткізді. Оның мәтіндерді өңдейтін KAZ-LLM-ден айырмашылығы — суреттермен және мәтінмен жұмыс істейді. Команданың жинақталған тәжірибесі мультимодальды әмбебап үлгіні жасауға көмектеседі.

Мультимодальды сирек генеративті ЖИI моделінде біз Mixture of Experts деп аталатын тиімді DeepSeek архитектурасын пайдалануды жоспарлап отырмыз. DeepSeekR1 әзірше тек мәтіндік деректермен жұмыс істей алады, бірақ біздің модель, егер сәтті болса, болашақта мәтінді, суретті және дыбысты қабылдай алады.  Осылайша, біз кез келген кіріс деректерін өңдей алатын және мазмұнның кез келген түрін жасай алатын әмбебап мультимодальды генеративті ЖИ құралын жасағымыз келеді. Бұл қазіргі уақытта ЖИ жарысының қалаулы мақсаты  болып саналады», — деді профессор Варол.

Дегенмен, жаңа үлгілерді жасау жеткіліксіз, сонымен қатар оларды басқару және оларды көпшілікке қолжетімді ету үшін қосымша есептеу қуаты қажет. Мысалы, Oylan үлгісінің пилоттық нұсқасы бір ғана NVIDIA A100 серверінде жұмыс істеп тұр, бұл бір уақытта тек 20 адамға ғана пайдалануды шектейді.

Біздің мақсатымыз — алдымен институт үшін ресурстарды алу: есептеу қуаты мен операциялық шығындарға қаражат. Содан кейін біз ЖИ жарысына қосылуды және тиімді архитектураны пайдалана отырып, суретті, мәтінді және дыбысты өңдеуді біріктіретін мультимодальды сирек модель жасауды жоспарлап отырмыз. Бұл бізге орналастыру шығындарын азайта отырып, жасанды генеративті интеллект құруға мүмкіндік береді. Бірақ біз осы ауқымды тапсырманың бір бөлігі ғана болып табылатын модельді жасасақ та, тағы бір маңызды мәселе қалады: мұндай модельдерді оқыту және ауқымды пайдалану әлі де есептеу қуатын талап етеді», — деп қосты профессор.

ISSAI-дың KAZLLM моделі Қазақстанға өздерінің тілдік және мәдени ерекшеліктеріне бейімделген ірі тілдік үлгілерді жасаған 20-ға жуық елдің қатарына қосылуға мүмкіндік берді. Oylan-ның іске қосылуымен Қазақстан озық лингвистикалық-визуалды ЖИ үлгілерін әзірлеу үшін техникалық тәжірибесі мен интеллектуалдық әлеуеті бар елдердің қатарына қосылды. Суреттерді, мәтінді және дыбысты оңай өңдей алатын сирек мультимодальды ЖИ үлгілері осы жылы пайда болады деп күтілуде. Қазақстан осындай технологияға ие елдердің біріне айналса, цифрлық егемендікті сақтауға және жаһандық цифрлық кеңістікте бәсекеге қабілеттілікті арттыруға толық мүмкіндігі бар.

NU Баспасөз қызметі