Изследователите на Tencent са разработили нова рамка за обучение, наречена „Think in Games“ (TIG), която преподава AI модели на стратегически разсъждения, като ги обучава в играта с мултиплейър _honor of Kings_. Проучването установи, че при определени условия по -малките езикови модели могат да надминат много по -големи.
Използвайки реални данни за съвпадение от _honor of Kings_, екипът комбинира контролирано и подсилване на обучението с техника, наречена Group Relative Policy Optimization (GRPO). Tencent съобщи, че QWEN3-14B е постигнал 90,9% правилни стратегически решения след 2000 стъпки за обучение-като преодолее DeepSeek-R1 при 86,7%. Изследователите заявиха, че TIG рамката може да помогне на AI системите да развият както способността на играта, така и обяснимите разсъждения, с потенциални приложения извън играта. [THE DECODER]
Свързани
Нашия източник е Българо-Китайска Търговско-промишлена палaта