價格打骨折，豆包視覺理解模型正式發布，價格直降85%

12月18日，2024冬季火山引擎Force原動力大會上，豆包發布視覺理解模型，豆包視覺理解模型具備更強的內容識別能力、理解和推理、視覺描述等能力。

截至目前，豆包大模型日均tokens使用量超過4萬億，發布7個月以來增長超過33倍。

受此消息影響，今日A股抖音豆包概念股再次集體上漲。截至收盤，博瑞傳播、遙望科技、紫天科技等漲停，天娛數科、視覺中國等跟漲。

豆包“全家桶”更新

火山引擎總裁譚待表示，豆包視覺推理大模型進入“釐時代”，該模型的千tokens輸入價格僅爲0.003元，一元錢可以處理284張720P圖片，比行業價格便宜85%。這一價格的降低，使得AI技術更加普惠，加速了大模型在各行各業的應用落地。

豆包視覺理解模型的能力不僅限於識別視覺內容，它還具備出色的理解和推理能力。這意味着模型能夠根據圖像信息進行復雜的邏輯計算，完成分析圖表、處理代碼、解答學科問題等任務。

這種能力的提升，使得豆包大模型在多模態交互上補齊了短板，爲AI硬件產品的發展提供了更多可能性。例如，智能體耳機、智能玩偶、台燈等AI硬件產品，將能夠實現更高層次的交互，不再局限於語音層面。

視覺能力是大模型能力的核心，因爲視覺輸入佔據了人類交互信息的絕大多數。在下一代AI硬件終端中，如AI玩具或AI眼鏡，視覺SoC有望成爲標配，這也將新增對NAND存儲芯片的需求。

豆包大模型的升級，也帶來了算力需求的增長。隨着模型從文字到視覺理解模型和視頻生成模型的擴展，字節跳動的算力需求或許又要再上一個台階。

據分析師測算，以ChatGPT MAU（月活用戶）爲6億來看，推理需求約需35萬個A100顯卡，訓練需求需12萬個A100顯卡。視頻大模型對算力的需求勢必更高，例如即夢AI的視頻生成模型Magic Video v2若MAU達到1億，且每天有生成10分鐘視頻的需求，則需28萬個英偉達H100 GPU，MAU達到2億時，對H100的需求將達到55萬個。

這一算力需求的增長，對於A股中字節跳動算力硬件相關公司來說，是一個巨大的機遇。民生證券指出，豆包用戶數的快速增長帶來的將是算力中心的擴建，進而帶動AI服務器需求提升；同時，算力中心擴建帶來的不僅是基礎建設需求，更多的是熱管理的需求，字節AI端液冷有望拉動廣闊市場空間。

大模型應用加速落地

豆包大模型的應用正在快速擴展至多個行業。根據最新數據，截至12月中旬，豆包通用模型的日均tokens使用量已突破4萬億，相較於七個月前首次亮相時增長了33倍。

目前，豆包大模型已經與80%的主要汽車品牌建立了合作關系，並成功集成到衆多手機、PC等智能設備中，覆蓋的終端設備數量達到了3億台，智能終端對豆包大模型的調用次數在半年內增長了100倍，其中賽力斯汽車的模型調用量提升1400倍。

據不完全統計字節今年發布的 AI 應用就有接近 20 款，基本覆蓋了圖像、語音、音樂、視頻、3D 等主流的模態和場景，還推出了 AI 耳機 Ola Friend 等硬件產品。

在企業提升生產力方面，豆包大模型贏得了衆多企業用戶的支持。在過去三個月中，豆包大模型在信息處理領域的調用次數增長了39倍，客戶服務和銷售場景增長了16倍，硬件終端場景增長了13倍，AI工具場景增長了9倍，教育學習等領域也實現了顯著增長。

豆包大模型的升級也帶動了多款產品的更新換代。豆包通用模型pro已經與GPT-4o保持同步，但其使用成本僅爲後者的1/8；音樂模型從生成60秒的簡單旋律升級到能夠創作3分鐘的完整曲目；文生圖模型2.1版本在業界首次實現了精確生成漢字和一句話P圖的商業化能力，該模型已經集成到即夢AI和豆包App中。

預計在2025年春季，豆包視頻生成模型1.5版將發布，它將具備更長視頻的生成能力。同時，豆包端到端實時語音模型也即將推出，這將帶來多角色演繹、方言轉換等新功能。此外，隨着對熱管理需求的增加，字節AI端液冷技術有望开拓更廣闊的市場空間。

標題：價格打骨折，豆包視覺理解模型正式發布，價格直降85%

地址：https://www.iknowplus.com/post/177467.html