多模態(tài)大模型與各產(chǎn)業(yè)融合正加速落地百度、騰訊、阿里巴巴等占據(jù)市場重要地位

2025-02-11 09:13

手機瀏覽

一、行業(yè)相關(guān)定義

多模態(tài)（Multimodality）是指集成和處理兩種或兩種以上不同類型的信息或數(shù)據(jù)的方法和技術(shù)。在機器學(xué)習(xí)和人工智能領(lǐng)域，多模態(tài)涉及的數(shù)據(jù)類型通常包括但不限于文本、圖像、視頻、音頻和傳感器數(shù)據(jù)。多模態(tài)系統(tǒng)的目的是利用來自多種模態(tài)的信息來提高任務(wù)的性能，提供更豐富的用戶體驗，或者獲得更全面的數(shù)據(jù)分析結(jié)果。

多模態(tài)大模型就是一種能夠理解和處理多種類型的機器學(xué)習(xí)模型——而類型也被叫做模態(tài)，包括文本，圖片，音頻，視頻等。這種模型可以融合多種不同模態(tài)的信息，執(zhí)行更復(fù)雜和智能的任務(wù)；如視覺問答(AI 面試官)，圖文生成，語音識別與合成等。

二、行業(yè)市場規(guī)模

根據(jù)觀研報告網(wǎng)發(fā)布的《中國多模態(tài)大模型行業(yè)現(xiàn)狀深度研究與發(fā)展前景分析報告（2025-2032年）》顯示，多模態(tài)模型通過融合語言模態(tài)與圖像模態(tài)，將語言模態(tài)包含的文本理解與思維鏈能力投射在圖像模態(tài)上，賦予了模型圖像理解與生成功能。從 AI 技術(shù)范式來看，多模態(tài)技術(shù)通過預(yù)訓(xùn)練+調(diào)參的方式顛覆了傳統(tǒng)機器視覺小模型 CNN 高度定制化的業(yè)務(wù)模式，模型的泛用性大幅度提高。

在市場需求的增長以及政策支持的背景下，我國大模型市場規(guī)模將不斷增長，預(yù)計到2025年市場規(guī)模將突破300億元。而多模態(tài)大模型作為AI模型的發(fā)展方向，在各項相關(guān)技術(shù)愈發(fā)成熟下，其應(yīng)用領(lǐng)域也將愈發(fā)廣泛，比如說商業(yè)定制、游戲和影視等。2024年上半年，國內(nèi)多模態(tài)大模型行業(yè)市場規(guī)模為33.33億元，具體如下：

資料來源：觀研天下數(shù)據(jù)中心整理

三、行業(yè)供應(yīng)規(guī)模

2023年生成式人工智能概念興起至今，國產(chǎn)生成式人工智能大模型如雨后春筍般涌現(xiàn)。截至目前，我國已初步構(gòu)建了較為全面的人工智能產(chǎn)業(yè)體系，相關(guān)企業(yè)超過4500家，核心產(chǎn)業(yè)規(guī)模已接近6000億元人民幣，產(chǎn)業(yè)鏈覆蓋芯片、算法、數(shù)據(jù)、平臺、應(yīng)用等上下游關(guān)鍵環(huán)節(jié)。

產(chǎn)品數(shù)量方面，生成式人工智能產(chǎn)品在我國百花齊放。截至2024年7月，我國完成備案并上線、能為公眾提供服務(wù)的生成式人工智能服務(wù)大模型已達(dá)190多個，我國以大模型為代表的人工智能普及率達(dá)16.4%。

產(chǎn)業(yè)融合方面，生成式人工智能與各行各業(yè)的融合正在我國加速落地。生成式人工智能與制造業(yè)、農(nóng)業(yè)、醫(yī)療、教育等傳統(tǒng)行業(yè)深度融合，推動產(chǎn)業(yè)轉(zhuǎn)型升級，促進(jìn)新業(yè)態(tài)、新模式的不斷涌現(xiàn)。尤其在2024年，隨著生成式人工智能技術(shù)的日趨成熟，各大科技企業(yè)的模型調(diào)用價格顯著下降，從而明顯降低了其他行業(yè)對生成式人工智能技術(shù)的應(yīng)用成本。

截至2024年11月，我國共有309個生成式人工智能產(chǎn)品完成備案，北京、上海、廣東三省的生成式人工智能備案產(chǎn)品數(shù)量占比分別達(dá)到31.1%、27.2%和11.7%。

生成式人工智能產(chǎn)品完成備案數(shù)量（截止2024年11月）

屬地	數(shù)量	屬地	數(shù)量
北京	96	上海	84
廣東	36	浙江	25
江蘇	18	四川	9
貴州	5	湖南	4
山東	4	天津	4
河北	3	重慶	3
海南	2	安徽	1
福建	1	河南	1
黑龍江	1	湖北	1
江西	1	遼寧	1
寧夏	1	陜西	1
云南	1	國資委	6

資料來源：中國互聯(lián)網(wǎng)絡(luò)信息中心，觀研天下數(shù)據(jù)中心整理

2024年以來, 國內(nèi)Al 大模型Q技術(shù)和應(yīng)用逐漸從文本擴展至更多模態(tài)。隨著OpenAI發(fā)布GPT-4系列多模態(tài)版本,掀起了國內(nèi)外多模態(tài)理解大模型的研發(fā)熱潮和廣泛應(yīng)用。

市場主流多模態(tài)大模型產(chǎn)品

模型名稱	所屬團(tuán)隊	屬地	類型
ChatGPT-4o-latest	OpenAI	海外	閉源
GPT-4o-2024-05-13	OpenAI	海外	閉源
Step-1V-8k	階躍星辰	國內(nèi)	閉源
hunyuan-vision	騰訊	國內(nèi)	閉源
SenseChat-Vision 5.5	商湯	國內(nèi)	閉源
Claude-3.5-Sonnet	Anthropic	海外	閉源
InternVL2-40B	上海人工智能實驗室	國內(nèi)	開源
Gemini-1.5-Pro	Google	海外	閉源
ERNIE-4-Turbo	百度	國內(nèi)	閉源
Qwen2-VL-72B	阿里云	國內(nèi)	開源
GLM-4V-Plus	智譜AI	國內(nèi)	閉源
MiniCPM-V2.6	面壁智能	國內(nèi)	開源
GPT-4Turbo-0409	OpenAI	海外	閉源
海螺AI	MiniMax	國內(nèi)	閉源
Yi-Vision	零一萬物	國內(nèi)	閉源
DeekSeek-VL-7b-chat	深度求索	國內(nèi)	開源
Phi-3.5-vision-Instruct	微軟	海外	開源

資料來源：SuperCLUE-V，觀研天下數(shù)據(jù)中心整理

四、行業(yè)細(xì)分市場分析

1、C端市場

在面向C端用戶的，通用行政辦公類應(yīng)用和消費服務(wù)應(yīng)用受AI大模型影響的智能化升級節(jié)奏更快，產(chǎn)品化落地較快，其主因是在數(shù)據(jù)可采集的渠道更加豐富且受監(jiān)管的要求較低。2024年上半年中國多模態(tài)大模型toC市場規(guī)模約為20.00億元左右，具體如下：

資料來源：觀研天下數(shù)據(jù)中心整理

2、B端市場

面向B端用戶的，專業(yè)化程度較高的領(lǐng)域，例如醫(yī)療、金融、工業(yè)等行業(yè)的智能化升級需要更多專業(yè)領(lǐng)域的數(shù)據(jù)訓(xùn)練，相應(yīng)的商業(yè)化節(jié)奏較慢，其主因是行業(yè)的特殊性導(dǎo)致數(shù)據(jù)安全要求較高、試錯成本高、受監(jiān)管要求較高等。2024年上半年中國多模態(tài)大模型toB市場規(guī)模約為13.33億元左右，具體如下：

資料來源：觀研天下數(shù)據(jù)中心整理

五、行業(yè)競爭格局

在大模型領(lǐng)域，國際巨頭布局大模型較早，或投資或自研（微軟作為 OpenAI 最大股東、谷歌自研 Gemini 系列、以及 Meta 自研 Llama 系列等），并利用大模型賦能各自原有的強勢業(yè)務(wù)線，做產(chǎn)業(yè)升級。比如微軟用 GPT-4 賦能 Azure 云服務(wù)、Office365、搜索業(yè)務(wù)等；谷歌和 Meta 利用大模型生成創(chuàng)意廣告文案/圖片賦能廣告主，抑或是在廣告業(yè)務(wù)的多個環(huán)節(jié)提升精準(zhǔn)度和效率。該模式常見于大廠，大模型+原有業(yè)務(wù)即利用大模型的語言能力提升傳統(tǒng)業(yè)務(wù)的智能化水平，同時利用傳統(tǒng)業(yè)務(wù)積累的龐大數(shù)據(jù)資源反哺大模型持續(xù)迭代。

國內(nèi)大模型的性能加速追趕海外。OpenCompass 于 2023 年 7 月由上海人工智能實驗室推出，構(gòu)建了一套中英文雙語評測基準(zhǔn)，旨在系統(tǒng)性分析國內(nèi)外大模型的綜合客觀性能。通過其 24 年 1 月的榜單，我們觀測到智譜清言 GLM-4、阿里巴巴 Qwen-Max 和百度文心一言 4.0 具有較為全面的性能，在語言和知識等基礎(chǔ)能力維度上可比肩 GPT-4 Turbo。

目前，多模態(tài)是主流的迭代路徑，互聯(lián)網(wǎng)大廠利用生態(tài)優(yōu)勢將多模態(tài)能力融進(jìn)具體使用場景。和海外相似，國內(nèi)大模型的迭代方向也能捕捉到多模態(tài)的趨勢。如百度文心一言的多模態(tài)體現(xiàn)在 toB 平臺“智能云千帆”，幫企業(yè)將大模型運用到需要文生圖、文生視頻的場景；訊飛星火則將多模態(tài)能力落地在教師助手、口語訓(xùn)練等教育場景。多模態(tài)的訓(xùn)練對參數(shù)規(guī)模和算力支持要求更高，芯片供給側(cè)的緊缺也一定程度上成為各平臺算力擴張的阻礙。

國內(nèi)大模型規(guī)格對比

模型名稱	參數(shù)	模態(tài)	上下文窗口（tokens）	是否開源	所屬公司
文心一言 4.0	超萬億	多模態(tài)（文本、視頻、圖像、音頻）	約 2.8 萬字	否	百度
ChatGLM-6B	/	多模態(tài)（文本、圖像）	12.8 萬	是	智譜 AI
Qwen-72B	720 億	多模態(tài)（文本、視頻、圖像、音頻）	3 萬	是	阿里
盤古 3.0	100/380/710/1000 億（四個版本）	多模態(tài)（文本、圖像）	-	否	華為
星火開源-13B	130 億	多模態(tài)(文本、視頻、圖像、音頻）	-	是	科大訊飛

資料來源：觀研天下數(shù)據(jù)中心整理

總體上，目前，我國多模態(tài)大模型企業(yè)不斷發(fā)展，如百度、騰訊、阿里巴巴、字節(jié)跳動、華為等，憑借強大的技術(shù)實力、海量的數(shù)據(jù)資源、充足的資金支持以及豐富的行業(yè)經(jīng)驗，在多模態(tài)大模型領(lǐng)域占據(jù)重要地位。例如，百度的文心大模型在 2024 年 11 月的日均 tokens 調(diào)用量超過 1.5 億次，用戶規(guī)模達(dá) 7000 萬；騰訊的混元大模型上線視頻生成能力，引發(fā)關(guān)注；字節(jié)跳動的豆包視覺理解模型以低價格吸引眾多客戶。

人工智能創(chuàng)業(yè)公司方面，以智譜 AI 為代表的初創(chuàng)企業(yè)，通過技術(shù)創(chuàng)新和產(chǎn)品差異化，在市場中脫穎而出，獲得了一定的市場份額和用戶認(rèn)可。如智譜 AI 完成 30 億元人民幣的新一輪融資，其 C 端產(chǎn)品 “清言” 用戶數(shù)達(dá) 2500 萬，商業(yè)化收入實現(xiàn)超 100% 的增長。

科研院所和高校方面，像北京智源研究院、清華大學(xué)等，在大模型評測等方面取得優(yōu)秀成果，為行業(yè)發(fā)展提供了技術(shù)支持和理論指導(dǎo)，推動了多模態(tài)大模型技術(shù)的進(jìn)步。（WWTQ）

更多好文每日分享，歡迎關(guān)注公眾號

【版權(quán)提示】觀研報告網(wǎng)倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán)。未經(jīng)許可，任何人不得復(fù)制、轉(zhuǎn)載、或以其他方式使用本網(wǎng)站的內(nèi)容。如發(fā)現(xiàn)本站文章存在版權(quán)問題，煩請?zhí)峁┌鏅?quán)疑問、身份證明、版權(quán)證明、聯(lián)系方式等發(fā)郵件至kf@chinabaogao.com，我們將及時溝通與處理。

猜你喜歡

游戲產(chǎn)業(yè)高質(zhì)量發(fā)展 AI+游戲趨勢明朗應(yīng)用空間廣闊

我國游戲產(chǎn)業(yè)生態(tài)持續(xù)優(yōu)化，國內(nèi)游戲市場規(guī)模穩(wěn)中有增。一方面，政策扶持力度加大，游戲版號穩(wěn)定發(fā)放，進(jìn)口版號發(fā)放頻率提升。另一方面，多款長青產(chǎn)品運營平穩(wěn)，數(shù)款新游憑借精良制作與玩法創(chuàng)新收獲高熱度與好口碑，游戲產(chǎn)業(yè)在促進(jìn)經(jīng)濟(jì)發(fā)展、助力文化傳播、激發(fā)科技創(chuàng)新等方面凸顯出積極的社會價值。根據(jù)中國音像與數(shù)字出版協(xié)會游戲出版工作委員

2025年07月02日