DeepSeek тества 1M-Context Model, индустрията очаква издаване за лунната нова година

На 13 февруари DeepSeek започна да тества нов модел с дълъг контекст, поддържащ 1 милион токена в своите уеб и приложения версии, докато неговата API услуга остава на V3.2 с 128K контекст.

Наблюдатели от индустрията спекулират, че DeepSeek може да разкрие голямо ново издание по време на предстоящата лунна Нова година, потенциално възпроизвеждайки импулса на пробив, постигнат миналата година.

На 12 януари DeepSeek публикува нова изследователска статия, озаглавена “Условна памет чрез мащабируемо търсене: Нова ос на разреденост за големи езикови модели.” Сред авторите се появява Liang Wenfeng.

Хартията въвежда “условна памет,” разделяне на съхранението на статичен модел от динамичното изчисление чрез модул Engram. При идентичен брой параметри и ограничения на FLOP, подходът значително превъзхожда чистите базови модели на MoE.

На 1 декември миналата година DeepSeek пусна два официални модела: DeepSeek-V3.2 и DeepSeek-V3.2-Speciale. Съобщава се, че V3.2 е достигнала производителност на ниво GPT-5 при бенчмаркове за публично разсъждение, докато V3.2-Speciale спечели златни медали на IMO 2025, CMO 2025, ICPC Световни финали 2025 и IOI 2025.

Име на речника на NetEase Youdao “deepseek” неговата Дума на годината за 2025 г., цитирайки 8 672 940 годишни търсения. Според компанията, интересът към търсене е нараснал рязко през годината, първоначално воден от DeepSeek “евтин” пробив в изчислителната ефективност и подсилен от всяка голяма актуализация на продукта.

Източник: The Paper

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin