深究AI現狀
非洲現今許多AI的努力主要集中在利用現有的大型語言模型(LLMs),如OpenAI的GPT、Google的Gemini或Meta的Llama。然而,中國的新創公司DeepSeek證明了AI產業不必被鎖定在單一軌道上。小型業者同樣可以提出突破性的創意,並對於構建強大模型所需的條件提出反駁。
AI競賽的突破
一年前,AI競賽看似步入正軌。OpenAI、Google和Meta主宰著這一領域,投入數十億美元來訓練更強大的模型。傳統智慧認為,AI的突破屬於那些擁有最深厚資金和最先進計算能力的人。這似乎是個排外的俱樂部,只有最富有的科技巨頭才被邀請加入。
然而,DeepSeek打破了這種沉悶的局面。這家中國的新創公司發布了DeepSeek-V3,一個可以與Meta的Llama 3.1相媲美的AI模型,據報導,它的訓練成本僅約為560萬美元。相比之下,Meta的類似模型報導成本約為6000萬美元,並需要超過3080萬GPU小時。即便是OpenAI的GPT-4估計訓練成本也超過1億美元。然而,DeepSeek僅憑這些資源的一小部分,就開發出了一個可以競爭的模型。
更令人驚訝的是,DeepSeek如何達成這一突破。這家公司並未使用最新、最昂貴的Nvidia H100 GPU,而是依賴較舊的H800晶片並優化訓練技術以降低計算成本。結果是,DeepSeek僅用了2000顆晶片就完成了模型訓練,而業界巨頭如OpenAI和Google通常使用16000顆或更多。
DeepSeek挑戰AI的現狀
DeepSeek的效率對中國以外的地區具有深遠的影響。長期以來,AI產業一直假設大科技公司的主導地位是不可避免的,因為只有最富裕的公司才能負擔建造AI模型所需的龐大基礎設施。但DeepSeek的成功對這一假設提出質疑。
如果一間資金有限且硬件受到限制的中國公司能夠實現這樣的壯舉,那麼AI的競賽或許並不僅僅關乎誰擁有最多的資金。
金融界已經注意到這點。在DeepSeek宣布後,Nvidia的股價暫時下跌,因為投資者擔心其最大的客戶——耗費數十億在AI基礎設施上的公司未來可能不再需要那麼多晶片。該行業一直以為AI開發需要無窮無盡的計算能力,但DeepSeek證明了更聰明、更有效的訓練方法可以產生競爭的結果。
對非洲的意義
DeepSeek的意外成功應該成為非洲AI初創公司的警示。長期以來,非洲在AI中的角色被限制於整合而非創新,使用外國模型,而不是構建新模型。普遍的看法是,非洲缺乏訓練基礎AI模型的資源,因為計算能力、資金和專業人才有限。
但DeepSeek的崛起可以挑戰這一心態。如果一個受到美國晶片出口限制的中國初創公司可以找到創意的解決方案並優化訓練技術,那麼為何非洲公司不行呢?
這並不是說非洲可以立即開始在DeepSeek的規模上訓練模型。但這證明了AI競爭尚未結束,反而是在演變中。
DeepSeek的意外崛起顯示創新可以來自任何地方。一年前,很少有人會預料到一個中國公司能夠提出與OpenAI和Google相媲美的替代方案。同樣,目前也沒有人期待非洲能夠建立一個具競爭力的AI模型。但正如DeepSeek所展示的那樣,意外之事可能成真。