A chinesa DeepSeek, mergulhou recentemente a indústria de IA no caos com o lançamento do modelo R1, que se diz competir com o o1 da OpenAI, apesar de ter sido treinado com 2.048 Nvidia H800s e a um custo de 5,576 milhões de dólares. No entanto, um novo estudo afirma que os custos reais incorridos pela empresa foram de 1,6 mil milhões de dólares, e que a DeepSeek tem acesso a cerca de 50.000 GPU Hopper da Nvidia.
A alegação de que a DeepSeek conseguiu treinar o R1 usando uma fracção dos recursos empregues pelas grandes empresas de tecnologias dedicadas ao desenvolvimento de produtos de Inteligência Artificial, resultou numa quebra recorde de 600 mil milhões de dólares na capitalização de mercado da Nvidia, num único dia. Se a startup chinesa conseguiu criar um modelo poderoso sem gastar milhares de milhões nas GPU de IA mais poderosas da Nvidia, o que impede todos os outros de fazerem o mesmo?
Mas será que a DeepSeek criou mesmo o seu modelo a um custo tão baixo? A SemiAnalysis diz que não.
A empresa de estudos de mercado diz que a DeepSeek tem acesso a cerca de 50.000 GPU Hopper, incluindo 10.000 H800s e 10.000 H100. Também tem encomendas para muitas outras H20 específicas para a China. As GPU são partilhadas entre a High-Flyer, o fundo por trás da DeepSeek, e a própria startup. Estão distribuídas por vários locais e são utilizadas para negociação, inferência, treino e investigação.
A SemiAnalysis escreve que a DeepSeek investiu muito mais do que o valor declarado de 5,5 milhões de dólares que fez o mercado de acções entrar em espiral – o estudo afirma que este custo de pré-treino é uma parte muito pequena do total. O investimento global da empresa em servidores é de cerca de 1,6 mil milhões de dólares, com cerca de 944 milhões de dólares gastos em custos operacionais. Os investimentos em GPU, entretanto, representam mais de 500 milhões de dólares.
Observa-se que a DeepSeek contratou todos os seus talentos exclusivamente da China. Isto contrasta com os relatos de outras empresas tecnológicas chinesas, como a Huawei, que tentam contratar trabalhadores do estrangeiro, com os funcionários da TSMC a serem alvos muito procurados. A DeepSeek alegadamente oferece salários de mais de 1,3 milhões de dólares para candidatos promissores, muito mais do que as empresas chinesas de IA concorrentes pagam.
A DeepSeek também tem a vantagem de gerir principalmente os seus próprios centros de dados, em vez de ter de depender de fornecedores externos de cloud. Isto permite mais experimentação e inovação em toda a gama de produtos de IA. A SemiAnalysis escreve que é o melhor laboratório de “open weights” (oo contexto do desenvolvimento de IA, “open weights” refere-se à prática de disponibilizar publicamente os pesos usados num modelo de machine learning. Os pesos são os parâmetros ajustados durante o treino do modelo que determinam como ele processa e interpreta os dados) da actualidade, superando o esforço Llama da Meta, a Mistral e outros.