RK | 企業(yè) | 備注 |
---|---|---|
1 | 字節(jié)跳動 | 豆包 |
2 | 阿里巴巴 | Qwen |
3 | DeepSeek | Janus-Pro |
4 | 月之暗面 | Kimi-VL |
5 | 華為 | 盤古 |
6 | 騰訊 | 混元 |
7 | 智譜AI | GLM-4v |
8 | 百度 | 文心 |
9 | MiniMax | MiniMax-01 |
10 | 科大訊飛 | 星火 |
11 | 商湯科技 | 日日新SenseNova |
12 | 京東 | 言犀 |
13 | 360 | 360智腦 |
14 | 生數(shù)科技 | Vidu Q1 |
15 | 零一萬物 | Yi-Vision |
16 | 小冰公司 | 小冰 |
17 | 潤和軟件 | 潤知 |
18 | 云從科技 | 從容 |
19 | 萬興科技 | 天幕 |
20 | 神州醫(yī)療 | 雙引擎多模態(tài)大模型 |
21 | 中國電信 | 星辰 |
22 | 瑞為技術(shù) | 蜻豚視覺大模型 |
23 | 網(wǎng)易 | 易生諸相 |
24 | vivo | BlueLM-V-3B |
25 | 依圖科技 | 天問 |
26 | 第四范式 | 式說 |
27 | 百川智能 | Baichuan4 |
28 | 小米 | MILM |
29 | 軟通動力 | 天璇2.0MaaS |
30 | 云知聲 | 山海 |
31 | 面壁智能 | 面壁小鋼炮MiniCPM-V |
32 | OPPO | AndesGPT |
33 | 開普云 | 開悟 |
34 | 虹軟科技 | ArcMuse |
35 | 熵基科技 | 多模態(tài)BioCV |
36 | 當(dāng)虹科技 | BlackEye |
37 | 大華股份 | 星漢 |
38 | 西湖心辰 | 西湖大模型 |
39 | 瀾舟科技 | 孟子 |
40 | 階躍星辰 | Step-1o Vision |
2025.05 DBC/CIW/CIS |
當(dāng)下,人工智能正在占領(lǐng)全世界,無論科技巨頭還是科技新星,都瞄準(zhǔn)了多模態(tài)AI這個人工智能大模型的發(fā)展方向。
根據(jù)全球金融追蹤機(jī)構(gòu)PitchBook發(fā)布數(shù)據(jù)顯示,2024年,生成式AI領(lǐng)域的融資活動異?;鸨?,全年融資總額高達(dá)560億美元,同比增長192%。這些投資主要聚焦于多模態(tài)生成技術(shù)突破、大語言模型優(yōu)化、計(jì)算效率提升等方向。
大模型經(jīng)歷了從傳統(tǒng)單模態(tài)模型,到通用單模態(tài),再到通用多模態(tài)的演進(jìn)。單模態(tài)AI如語言模型、視覺模型、語音模型等已有很多產(chǎn)品發(fā)展落地,但現(xiàn)實(shí)世界的復(fù)雜性無法僅靠單一模態(tài)理解。為了讓AI更接近人類的認(rèn)知和交互水平,多模態(tài)技術(shù)應(yīng)運(yùn)而生。
多模態(tài)大模型通過整合文本、圖像、語音、視頻等多源數(shù)據(jù),實(shí)現(xiàn)跨模態(tài)理解與生成,顯著提升了AI的通用性和智能化水平。這種技術(shù)突破顛覆了傳統(tǒng)單模態(tài)模型的局限性,推動AI從專用化向泛用化演進(jìn),為產(chǎn)業(yè)智能化升級提供核心驅(qū)動力。
也正是這種跨越不同模態(tài)理解和創(chuàng)建信息的能力,超越此前側(cè)重于集成和處理特定數(shù)據(jù)源的單模態(tài)AI,贏得了各大科技巨頭的青睞。
多模態(tài)AI的核心在于多源數(shù)據(jù)的整合與對齊。通過將視覺、語言和聲音轉(zhuǎn)化為統(tǒng)一的潛在表示,讓模型可以實(shí)現(xiàn)跨模態(tài)學(xué)習(xí)。從生成式AI、自動駕駛、具身智能到智能體,多模態(tài)已經(jīng)成為推動AI從“單一感知”邁向“全局理解”的核心。
隨著深度學(xué)習(xí)的不斷發(fā)展,尤其是預(yù)訓(xùn)練模型的興起,多模態(tài)技術(shù)新的突破也隨之出現(xiàn)。預(yù)訓(xùn)練模型通過在大量無標(biāo)簽數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)到了豐富的知識表示,使得模型在下游任務(wù)上具備更強(qiáng)的泛化能力。
未來多模態(tài)智能的發(fā)展趨勢必將從現(xiàn)有的語言主導(dǎo)推理模式逐步轉(zhuǎn)向更深入的模態(tài)間動態(tài)協(xié)作模式。具體而言,下一代模型不僅需要具備視覺動作推理(如調(diào)用圖像編輯工具輔助推理)的能力,更要實(shí)現(xiàn)視覺狀態(tài)的主動更新和跨模態(tài)反饋,從而高效地驅(qū)動下一輪語言 - 視覺交互推理。
顯然,追求更高的智能上限和突破的多模態(tài)能力,已成為通往AGI路上必須搶攻的兩大技術(shù)高地。
我國在多模態(tài)領(lǐng)域的技術(shù)追趕速度加快,百度、騰訊、阿里巴巴等企業(yè)的大模型性能已接近國際頂尖水平。通過自主研發(fā)和生態(tài)構(gòu)建,我國正逐步打破國際技術(shù)壟斷,形成自主可控的AI產(chǎn)業(yè)鏈。未來,我國需持續(xù)加強(qiáng)基礎(chǔ)研究、優(yōu)化政策支持,以實(shí)現(xiàn)從“跟跑”到“領(lǐng)跑”的跨越。
結(jié)語
多模態(tài)大模型不僅是技術(shù)競爭的制高點(diǎn),更是推動數(shù)字經(jīng)濟(jì)與實(shí)體產(chǎn)業(yè)融合的核心引擎。未來,隨著量子計(jì)算、邊緣端推理芯片等技術(shù)的突破,結(jié)合復(fù)雜多模態(tài)方案的大模型有望具備更加完備地與世界交互的能力。
(文/朝槿)
e-Mail:lab@enet16.com