DeepSeek lança modelo intermediário rumo à nova geração
Startup chinesa apresenta versão experimental mais eficiente e reduz preço de APIs em mais de 50%
PEQUIM, 29 de setembro (Reuters) - A desenvolvedora chinesa de IA DeepSeek lançou seu mais recente modelo "experimental", que, segundo ela, é mais eficiente para treinar e melhor no processamento de longas sequências de texto do que as iterações anteriores de seus grandes modelos de linguagem.
A empresa sediada em Hangzhou chamou o DeepSeek-V3.2-Exp de um "passo intermediário em direção à nossa arquitetura de próxima geração" em uma postagem no fórum de desenvolvedores Hugging Face.
Essa arquitetura provavelmente será o lançamento de produto mais importante da DeepSeek desde que as versões V3 e R1 chocaram o Vale do Silício e os investidores de tecnologia fora da China.
O modelo V3.2-Exp inclui um mecanismo chamado DeepSeek Sparse Attention, que, segundo a empresa chinesa, pode reduzir custos de computação e aumentar o desempenho de alguns tipos de modelos. A DeepSeek anunciou em uma publicação no X na segunda-feira que está cortando os preços das APIs em "mais de 50%".
Embora seja improvável que a arquitetura de próxima geração do DeepSeek agite os mercados como as versões anteriores fizeram em janeiro, ela ainda pode colocar pressão significativa sobre rivais nacionais como o Qwen do Alibaba e seus equivalentes americanos como o OpenAI se conseguir repetir o sucesso do DeepSeek R1 e V3.
Isso exigiria que ele demonstrasse alta capacidade por uma fração do que os concorrentes cobram e gastam em treinamento de modelos.
Reportagem de Eduardo Baptista e Beijing Newsroom; Edição de Toby Chopra e Jan Harvey