一、行業(yè)相關(guān)定義
多模態(tài)(Multimodality)是指集成和處理兩種或兩種以上不同類型的信息或數(shù)據(jù)的方法和技術(shù)。在機器學(xué)習和人工智能領(lǐng)域,多模態(tài)涉及的數(shù)據(jù)類型通常包括但不限于文本、圖像、視頻、音頻和傳感器數(shù)據(jù)。多模態(tài)系統(tǒng)的目的是利用來自多種模態(tài)的信息來提高任務(wù)的性能,提供更豐富的用戶體驗,或者獲得更全面的數(shù)據(jù)分析結(jié)果。
多模態(tài)大模型就是一種能夠理解和處理多種類型的機器學(xué)習模型——而類型也被叫做模態(tài),包括文本,圖片,音頻,視頻等。這種模型可以融合多種不同模態(tài)的信息,執(zhí)行更復(fù)雜和智能的任務(wù);如視覺問答(AI 面試官),圖文生成,語音識別與合成等。
二、行業(yè)市場規(guī)模
根據(jù)觀研報告網(wǎng)發(fā)布的《中國多模態(tài)大模型行業(yè)現(xiàn)狀深度研究與發(fā)展前景分析報告(2025-2032年)》顯示,多模態(tài)模型通過融合語言模態(tài)與圖像模態(tài),將語言模態(tài)包含的文本理解與思維鏈能力投射在圖像模態(tài)上,賦予了模型圖像理解與生成功能。從 AI 技術(shù)范式來看,多模態(tài)技術(shù)通過預(yù)訓(xùn)練+調(diào)參的方式顛覆了傳統(tǒng)機器視覺小模型 CNN 高度定制化的業(yè)務(wù)模式,模型的泛用性大幅度提高。
在市場需求的增長以及政策支持的背景下,我國大模型市場規(guī)模將不斷增長,預(yù)計到2025年市場規(guī)模將突破300億元。而多模態(tài)大模型作為AI模型的發(fā)展方向,在各項相關(guān)技術(shù)愈發(fā)成熟下,其應(yīng)用領(lǐng)域也將愈發(fā)廣泛,比如說商業(yè)定制、游戲和影視等。2024年上半年,國內(nèi)多模態(tài)大模型行業(yè)市場規(guī)模為33.33億元,具體如下:
資料來源:觀研天下數(shù)據(jù)中心整理
三、行業(yè)供應(yīng)規(guī)模
2023年生成式人工智能概念興起至今,國產(chǎn)生成式人工智能大模型如雨后春筍般涌現(xiàn)。截至目前,我國已初步構(gòu)建了較為全面的人工智能產(chǎn)業(yè)體系,相關(guān)企業(yè)超過4500家,核心產(chǎn)業(yè)規(guī)模已接近6000億元人民幣,產(chǎn)業(yè)鏈覆蓋芯片、算法、數(shù)據(jù)、平臺、應(yīng)用等上下游關(guān)鍵環(huán)節(jié)。
產(chǎn)品數(shù)量方面,生成式人工智能產(chǎn)品在我國百花齊放。截至2024年7月,我國完成備案并上線、能為公眾提供服務(wù)的生成式人工智能服務(wù)大模型已達190多個,我國以大模型為代表的人工智能普及率達16.4%。
產(chǎn)業(yè)融合方面,生成式人工智能與各行各業(yè)的融合正在我國加速落地。生成式人工智能與制造業(yè)、農(nóng)業(yè)、醫(yī)療、教育等傳統(tǒng)行業(yè)深度融合,推動產(chǎn)業(yè)轉(zhuǎn)型升級,促進新業(yè)態(tài)、新模式的不斷涌現(xiàn)。尤其在2024年,隨著生成式人工智能技術(shù)的日趨成熟,各大科技企業(yè)的模型調(diào)用價格顯著下降,從而明顯降低了其他行業(yè)對生成式人工智能技術(shù)的應(yīng)用成本。
截至2024年11月,我國共有309個生成式人工智能產(chǎn)品完成備案,北京、上海、廣東三省的生成式人工智能備案產(chǎn)品數(shù)量占比分別達到31.1%、27.2%和11.7%。
生成式人工智能產(chǎn)品完成備案數(shù)量(截止2024年11月)
屬地 | 數(shù)量 | 屬地 | 數(shù)量 |
北京 | 96 | 上海 | 84 |
廣東 | 36 | 浙江 | 25 |
江蘇 | 18 | 四川 | 9 |
貴州 | 5 | 湖南 | 4 |
山東 | 4 | 天津 | 4 |
河北 | 3 | 重慶 | 3 |
海南 | 2 | 安徽 | 1 |
福建 | 1 | 河南 | 1 |
黑龍江 | 1 | 湖北 | 1 |
江西 | 1 | 遼寧 | 1 |
寧夏 | 1 | 陜西 | 1 |
云南 | 1 | 國資委 | 6 |
資料來源:中國互聯(lián)網(wǎng)絡(luò)信息中心,觀研天下數(shù)據(jù)中心整理
2024年以來, 國內(nèi)Al 大模型Q技術(shù)和應(yīng)用逐漸從文本擴展至更多模態(tài)。隨著OpenAI發(fā)布GPT-4系列多模態(tài)版本,掀起了國內(nèi)外多模態(tài)理解大模型的研發(fā)熱潮和廣泛應(yīng)用。
市場主流多模態(tài)大模型產(chǎn)品
模型名稱 | 所屬團隊 | 屬地 | 類型 |
ChatGPT-4o-latest | OpenAI | 海外 | 閉源 |
GPT-4o-2024-05-13 | OpenAI | 海外 | 閉源 |
Step-1V-8k | 階躍星辰 | 國內(nèi) | 閉源 |
hunyuan-vision | 騰訊 | 國內(nèi) | 閉源 |
SenseChat-Vision 5.5 | 商湯 | 國內(nèi) | 閉源 |
Claude-3.5-Sonnet | Anthropic | 海外 | 閉源 |
InternVL2-40B | 上海人工智能實驗室 | 國內(nèi) | 開源 |
Gemini-1.5-Pro | 海外 | 閉源 | |
ERNIE-4-Turbo | 百度 | 國內(nèi) | 閉源 |
Qwen2-VL-72B | 阿里云 | 國內(nèi) | 開源 |
GLM-4V-Plus | 智譜AI | 國內(nèi) | 閉源 |
MiniCPM-V2.6 | 面壁智能 | 國內(nèi) | 開源 |
GPT-4Turbo-0409 | OpenAI | 海外 | 閉源 |
海螺AI | MiniMax | 國內(nèi) | 閉源 |
Yi-Vision | 零一萬物 | 國內(nèi) | 閉源 |
DeekSeek-VL-7b-chat | 深度求索 | 國內(nèi) | 開源 |
Phi-3.5-vision-Instruct | 微軟 | 海外 | 開源 |
資料來源:SuperCLUE-V,觀研天下數(shù)據(jù)中心整理
四、行業(yè)細分市場分析
1、C端市場
在面向C端用戶的,通用行政辦公類應(yīng)用和消費服務(wù)應(yīng)用受AI大模型影響的智能化升級節(jié)奏更快,產(chǎn)品化落地較快,其主因是在數(shù)據(jù)可采集的渠道更加豐富且受監(jiān)管的要求較低。2024年上半年中國多模態(tài)大模型toC市場規(guī)模約為20.00億元左右,具體如下:
資料來源:觀研天下數(shù)據(jù)中心整理
2、B端市場
面向B端用戶的,專業(yè)化程度較高的領(lǐng)域,例如醫(yī)療、金融、工業(yè)等行業(yè)的智能化升級需要更多專業(yè)領(lǐng)域的數(shù)據(jù)訓(xùn)練,相應(yīng)的商業(yè)化節(jié)奏較慢,其主因是行業(yè)的特殊性導(dǎo)致數(shù)據(jù)安全要求較高、試錯成本高、受監(jiān)管要求較高等。2024年上半年中國多模態(tài)大模型toB市場規(guī)模約為13.33億元左右,具體如下:
資料來源:觀研天下數(shù)據(jù)中心整理
五、行業(yè)競爭格局
在大模型領(lǐng)域,國際巨頭布局大模型較早,或投資或自研(微軟作為 OpenAI 最大股東、谷歌自研 Gemini 系列、以及 Meta 自研 Llama 系列等),并利用大模型賦能各自原有的強勢業(yè)務(wù)線,做產(chǎn)業(yè)升級。比如微軟用 GPT-4 賦能 Azure 云服務(wù)、Office365、搜索業(yè)務(wù)等;谷歌和 Meta 利用大模型生成創(chuàng)意廣告文案/圖片賦能廣告主,抑或是在廣告業(yè)務(wù)的多個環(huán)節(jié)提升精準度和效率。該模式常見于大廠,大模型+原有業(yè)務(wù)即利用大模型的語言能力提升傳統(tǒng)業(yè)務(wù)的智能化水平,同時利用傳統(tǒng)業(yè)務(wù)積累的龐大數(shù)據(jù)資源反哺大模型持續(xù)迭代。
國內(nèi)大模型的性能加速追趕海外。OpenCompass 于 2023 年 7 月由上海人工智能實驗室推出,構(gòu)建了一套中英文雙語評測基準,旨在系統(tǒng)性分析國內(nèi)外大模型的綜合客觀性能。通過其 24 年 1 月的榜單,我們觀測到智譜清言 GLM-4、阿里巴巴 Qwen-Max 和百度文心一言 4.0 具有較為全面的性能,在語言和知識等基礎(chǔ)能力維度上可比肩 GPT-4 Turbo。
目前,多模態(tài)是主流的迭代路徑,互聯(lián)網(wǎng)大廠利用生態(tài)優(yōu)勢將多模態(tài)能力融進具體使用場景。和海外相似,國內(nèi)大模型的迭代方向也能捕捉到多模態(tài)的趨勢。如百度文心一言的多模態(tài)體現(xiàn)在 toB 平臺“智能云千帆”,幫企業(yè)將大模型運用到需要文生圖、文生視頻的場景;訊飛星火則將多模態(tài)能力落地在教師助手、口語訓(xùn)練等教育場景。多模態(tài)的訓(xùn)練對參數(shù)規(guī)模和算力支持要求更高,芯片供給側(cè)的緊缺也一定程度上成為各平臺算力擴張的阻礙。
國內(nèi)大模型規(guī)格對比
模型名稱 | 參數(shù) | 模態(tài) | 上下文窗口 (tokens) | 是否開源 | 所屬公司 |
文心一言 4.0 | 超萬億 | 多模態(tài)(文本、視頻、圖像、音頻) | 約 2.8 萬字 | 否 | 百度 |
ChatGLM-6B | / | 多模態(tài)(文本、圖像) | 12.8 萬 | 是 | 智譜 AI |
Qwen-72B | 720 億 | 多模態(tài)(文本、視頻、圖像、音頻) | 3 萬 | 是 | 阿里 |
盤古 3.0 | 100/380/710/1000 億(四個版本) | 多模態(tài)(文本、圖像) | - | 否 | 華為 |
星火開源-13B | 130 億 | 多模態(tài)(文本、視頻、圖像、音頻) | - | 是 | 科大訊飛 |
資料來源:觀研天下數(shù)據(jù)中心整理
總體上,目前,我國多模態(tài)大模型企業(yè)不斷發(fā)展,如百度、騰訊、阿里巴巴、字節(jié)跳動、華為等,憑借強大的技術(shù)實力、海量的數(shù)據(jù)資源、充足的資金支持以及豐富的行業(yè)經(jīng)驗,在多模態(tài)大模型領(lǐng)域占據(jù)重要地位。例如,百度的文心大模型在 2024 年 11 月的日均 tokens 調(diào)用量超過 1.5 億次,用戶規(guī)模達 7000 萬;騰訊的混元大模型上線視頻生成能力,引發(fā)關(guān)注;字節(jié)跳動的豆包視覺理解模型以低價格吸引眾多客戶。
人工智能創(chuàng)業(yè)公司方面,以智譜 AI 為代表的初創(chuàng)企業(yè),通過技術(shù)創(chuàng)新和產(chǎn)品差異化,在市場中脫穎而出,獲得了一定的市場份額和用戶認可。如智譜 AI 完成 30 億元人民幣的新一輪融資,其 C 端產(chǎn)品 “清言” 用戶數(shù)達 2500 萬,商業(yè)化收入實現(xiàn)超 100% 的增長。
科研院所和高校方面,像北京智源研究院、清華大學(xué)等,在大模型評測等方面取得優(yōu)秀成果,為行業(yè)發(fā)展提供了技術(shù)支持和理論指導(dǎo),推動了多模態(tài)大模型技術(shù)的進步。(WWTQ)

【版權(quán)提示】觀研報告網(wǎng)倡導(dǎo)尊重與保護知識產(chǎn)權(quán)。未經(jīng)許可,任何人不得復(fù)制、轉(zhuǎn)載、或以其他方式使用本網(wǎng)站的內(nèi)容。如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請?zhí)峁┌鏅?quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至kf@chinabaogao.com,我們將及時溝通與處理。