Говорният модел Step-Audio-R1.1 с отворен код на StepFun оглавява класацията на световния бенчмарк

Според съобщение от StepFun от 15 януари, неговият модел с отворен код Step-Audio-R1.1 е класиран номер 1 в света в голяма международна класация за оценка.

IMG_4778.jpeg

StepFun каза, че бенчмаркът за изкуствен анализ на речта – една от най-авторитетните оценки на трети страни за нативни аудио модели – е актуализиран, като Step-Audio-R1.1 заема челната позиция. Бенчмаркът е широко считан за ключов индустриален стандарт за оценка на модели, които обработват сурово аудио директно и извършват сложни логически разсъждения, с основни показатели за оценка, включително точност и латентност на първия токен.

Според StepFun, подобно на големите езикови модели, речевите модели трябва да притежават силни способности за разсъждение, за да позволят по-високо ниво на интелигентност и по-естествено взаимодействие човек-машина. С резултат от точност от 96,4%, Step-Audio-R1.1 превъзхожда водещи модели като Grok, Gemini и GPT-Realtime, поставяйки нов рекорд за всички времена в бенчмарка. По отношение на цялостния баланс между производителност и скорост, Step-Audio-R1.1 значително превъзхожда сравнимите говорни модели.

IMG_4779.jpeg

Step-Audio-R1, първоначално издаден от StepFun, е признат за първия в света модел за разсъждение на родната реч с отворен код. Той е в състояние да разбира и разсъждава реч от край до край, без да въвежда допълнителна латентност, което позволява на системата да „мисли веднага щом чуе“, подобно на човешки слушател.

Основните му възможности включват:

  • Разширено речево разсъждение
  • Ефективност на отговор в реално време
  • Разсъждения с мащабируема верига на мислите (CoT) в аудио домейна

Step-Audio-R1.1, най-новата надградена версия, допълнително подобрява производителността при разговор в реално време и възможностите за сложни речеви разсъждения. Пълният API за реч в реално време е планиран за пускане през февруари. Наличният в момента режим на чат вече интегрира ядрото R1.1, поддържайки извод за поточно предаване, който позволява на модела да мисли и говори едновременно.

Източник: IT Home

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin