爲大模型定制一顆芯片？

當我們回顧2023年爆火的AI時，有兩位明星獲得了最多的關注度，一位是开發了ChatGPT的OpenAI，另一位是爲各路AI選手提供雄厚算力的英偉達。

逢大模型必提OpenAI，逢顯卡必提英偉達，成了過往一年的常態。

但這樣的情形必然不會持續太久，不論是AI大模型還是AI顯卡，都是動輒每年上百億美元乃至於千億美元的市場，大家都不想讓兩家廠商獨吞蛋糕。

在大模型上，LaMDA 、LLaMA、Gemini等早已虎視眈眈，而在顯卡上，不光有傳統的英特爾與AMD這兩家，還有各類定制與自研芯片湧現，OpenAI與英偉達已經迎來了各自的競爭對手。

但更有意思的事情也在發生，AI的軟件和硬件並非天然對立，如果把大型語言模型和顯卡芯片結合在一起，會有什么樣的奇妙反應呢？

爲大模型量身打造芯片

想要訓練一個大模型，代表算力的芯片就是最關鍵的一環，也是成本最高的一環。

這也導致了一個問題，如果AI照着現在這幅樣子發展下去，那么成本就會越來越高，高到絕大部分公司都難以承受的地步，根據外媒估計，如今正在开發的大模型，平均每個需要花費約 10 億美元，而下一代大模型呢，平均每個需要花費 100 億美元來訓練，這個天文數字，在硅谷买下幾十家有潛力的初創公司都還有得找。

這也暴露出了目前行業最常用的英偉達顯卡的弊端，英偉達的GPU並非爲了AI而生，它起初是爲了處理各種各樣的圖形化計算而生產制造的，整體設計也沒有脫離傳統計算的範疇，面對人工智能蓬勃發展時，強大的算力有相當一部分被浪費了，也意味着白花花的銀子被浪費了。

大公司可以一邊着手自研，一邊繼續購买英偉達的顯卡，但對於中小型公司來說，顯卡成爲了他們最大的絆腳石，如此一來，AI在某種程度上就成爲了一部分公司的專屬。

不過這種需求已被一部分人所注意到，在美國硅谷，邁克-岡特（Mike Gunter）和雷納-波普（Reiner Pope）這兩位從谷歌出走的工程師，他們成立了一家名爲 MatX 的公司，而這家公司的目標，就是設計專門用於LLM（大型語言模型）的，更便宜、更快速、更適合人工智能的芯片。

在谷歌任職時，Gunter主要負責設計運行人工智能軟件的硬件（包括芯片），Pope則負責編寫人工智能軟件本身，這裏不得不提到谷歌此前自研的TPU了，從2014年發展至今，已經更迭了整整五代，但它們和英偉達H100一樣，都不是爲了LLM所量身打造的，放在人工智能領域中，顯得過於通用了一些。

Pope在接受採訪時表示：“我們試圖讓LLM在谷歌運行得更快，並取得了一些進展，但這有點困難，”他說到，“在谷歌內部，有很多人希望對芯片進行各種改動，因此很難只專注於 LLM。爲此，我們選擇了離开。”

這兩位創始人都認爲，在人工智能時代到來之際，芯片上額外的空間增加了不必要的成本和復雜性，因此需要“一刀切”，去掉所有不必要的部分，只保留必要的部分，MatX公司的做法就是在硅片上設計一個大型處理內核，目的只有一個，那就是盡可能快地將數字相乘——這是 LLM 的核心任務。

MatX表示，自己的芯片在訓練 LLM 和提供其結果方面將比英偉達的 GPU 至少好 10 倍。“英偉達有非常強大的產品，顯然是大多數公司的理想選擇，” Pope說，“但我們認爲我們可以做得更好。

其預測，通過贏得包括OpenAI和Anthropic PBC在內的多家主要人工智能企業的青睞，它的業務將蒸蒸日上。“這些公司的經濟狀況與一般公司完全相反，"Gunter說，"他們把錢都花在了計算上，而不是工資上。如果情況不改變，他們就會沒錢。”

無獨有偶，隔壁總部位於多倫多的人工智能芯片初創公司 Taalas，同樣立志於改變由英偉達主導的AI世界，公司創始人包括Ljubisa Bajic、Lejla Bajic 和 Drago Ignjatovic，他們均來自傳奇架構師Jim Keller所領導的Tenstorrent。

與前東家Tenstorrent不同的是，Taalas幾位創始人想开發一種自動流程，能將任何人工智能模型快速轉化爲定制芯片，其表示，由此產生的硬核模型的效率是軟件模型的 1000 倍。

“要實現人工智能的商品化，就必須將計算能力和效率提高 1000 倍，而目前的漸進式方法是無法實現這一目標的。我們不應該在通用計算機上模擬智能，而應該直接在芯片中打造智能，在芯片中實現深度學習模型是實現可持續人工智能的最直接途徑。”Taalas 首席執行官Ljubisa Bajic說。

Taalas認爲，公司會解決了當今人工智能硬件的兩大問題，即能效和成本。如果客戶需要在手機裏使用特定參數Llama2模型，而且確定了產品生命周期中的全部需求，那么可能只需要爲它提供一款最低功耗和最低成本的專用芯片，未來的AI在消費者日常生活中的普及程度將像電力一樣無處不在，而Taalas認爲自己能夠推動這一切的發展。

Taalas表示，它將在2024年第三季度推出首款大型語言模型芯片，並計劃在2025年第一季度向首批客戶提供芯片。

目前，這兩家打算顛覆目前AI芯片市場的公司都拿到了一筆數額不菲的投資，MatX獲得了2500萬美元的融資，而Taalas則獲得了5000萬美元的融資。

MatX的投資人提到，MatX這樣的公司象徵着人工智能世界的一種新趨勢，因爲他們正在把一些大公司开發出來的最好的創意（這些公司有點行動太慢、太官僚化）獨立商業化，硅谷之所以能成爲硅谷，正是因爲一批又批充滿活力的初創公司，初創公司能改變目前芯片行業沉悶的情況。

但問題也隨之而來，設計芯片並不是喫飯喝水那么簡單，設計和制造一款新芯片需要三到五年的時間，中間還不能出現重大失誤，五年前的想法拿到現在來看，不少已然過時，這就要求這些初創公司對未來技術趨勢有一個更准確的判斷。

上個月，英偉達已經推出了全新的B200芯片，原本可能上百倍的差距，或許已經縮小到數十倍，隨着時間的推移，這部分差距只會越來越小，到了優勢不那么明顯的時候，恐怕這些初創公司就很難說服英偉達原來的客戶遷移到新芯片之上了。

消費端客戶關心體驗和效果，大模型企業關心能效和成本，芯片公司看重技術與趨勢，這一條鏈路上環環相扣，誰能把握技術趨勢，誰就能真正勝券在握，看明白了這一點，我們或許就能明白爲何有MatX和Taalas這樣的公司湧現了。

英偉達的押注

比較有意思的是，英偉達雖然坐擁大半個AI芯片市場，但它也有自己的危機意識。此前雖傳出消息，它將爲部分廠商提供定制芯片服務，但在CEO黃仁勳的演講中，英偉達再怎么放下身段，也不會完全迎合與滿足客戶需求，與上述的新興芯片公司形成了鮮明反比。

英偉達的實際護城河是什么？毫無疑問是CUDA，黃仁勳將其視作成功的根本來源，這種生態絕非一朝一夕能夠建立起來，英偉達想做和要做的，就是把CUDA鋪設到無處不在。

因此，英偉達开始了自己的押注，根據金融數據公司Dealogic提供的數據，英偉達在2023年對30多家初創公司進行了投資，數量是上一年的三倍多。英偉達已發布的財報顯示，截至今年1月末的上一財季，該公司對其他公司的投資總額約爲15.5億美元，遠遠超過一年前的3億美元。

2023年，英偉達投資了大約11家AI基礎設施提供商，包括數據分析公司Databricks Inc.，GPU雲提供商CoreWeave Inc.和大語言模型提供商Mistral AI SAS，此外，英偉達還投資了像視頻生成器Twelve Labs Inc.，聊天機器人創建者Cohere Inc.和機器人流程自動化初創公司Adept AI Labs Inc.這樣的生成式AI公司。

英偉達的投資並不僅限於IT領域，還包括將AI應用於醫療保健的初創公司，它投資了八家藥物發現初創公司，包括Generate Biomedicines Inc.和Genesis Therapeutics Inc.，這兩家公司都在使用AI來發現新藥。

通過這些投資，英偉達不僅能夠支持和利用這些初創公司在AI領域的創新，把市場蛋糕做大；還能與重要客戶建立緊密聯系，形成了一個良好的生態。這種策略可能使英偉達在競爭激烈的市場中獲得優勢，因爲這些初創公司的成功可能進一步提升對英偉達產品的需求。同時，這也爲英偉達提供了一個了解市場動向、技術創新和客戶需求的窗口。

值得一提的是，根據英偉達2023財年的財報，其客戶現可通過雲服務，全面接觸英偉達AI的各個層面：AI超級計算機、加速庫軟件以及預訓練的生成式AI模型。用戶可通過瀏覽器，通過英偉達DGX Cloud服務，接入英偉達DGX AI超級計算機。在AI平台軟件層面，用戶能夠使用英偉達AI企業版，以訓練和部署大型語言模型或其他AI工作負載。在AI模型即服務層面，英偉達爲希望爲其業務定制生成式AI模型和服務的企業客戶提供NeMo和BioNeMo定制AI模型。

英偉達可能不會積極地提供定制芯片，但它卻一定會樂於推銷自己的定制生態，即使初期這些AI公司並不能提供什么實質性的回報，但它們所代表的未來趨勢，正是英偉達所看重的，這種做法有點像是電腦上的付費軟件，先提供一段時間的免費試用，等到用戶養成使用習慣了，再开啓收費模式。

而且英偉達這種拋磚引玉的做法不是沒有成功的先例，OpenAI爲什么會堅定不移地使用英偉達的芯片來訓練模型，最早可以追溯到免費贈送的DGX-1，一台超算就撬動了百億美元市場，這筆买賣怎么看這么劃算。