八月初的世界機(jī)器人大會(huì)上,宇樹科技創(chuàng)始人王興興演講時(shí)拋出了引發(fā)行業(yè)激烈討論的觀點(diǎn)。
他認(rèn)為,機(jī)器人尚未大規(guī)模落地的核心原因,并非硬件不足……最大的問題是模型?,F(xiàn)階段看視頻生成模型的路線,相比 VLA 收斂概率更大。
而有意思的是,幾乎在同一時(shí)間,靈生科技宣布開源業(yè)內(nèi)首個(gè)支持異步運(yùn)行的快慢雙系統(tǒng)視覺語言動(dòng)作框架 RealDualVLA,為機(jī)器人復(fù)雜操作任務(wù)提供了高效協(xié)同的全新解決方案,而這一方案背后的數(shù)據(jù)生成技術(shù),恰恰是靈生獨(dú)創(chuàng)的視頻生成模型 - 稱為 " 具身 Sora"。
2023 年,在騰訊等互聯(lián)網(wǎng)大廠有過多年 AI 算法和產(chǎn)業(yè)經(jīng)驗(yàn)的楊洪兵創(chuàng)辦北京靈生科技有限公司(簡(jiǎn)稱:靈生科技),專注于具身智能機(jī)器人大腦研發(fā),其核心產(chǎn)品為云 - 邊 - 端一體化大腦系統(tǒng)(LingBrain),目前已獲數(shù)千萬融資。
楊洪兵認(rèn)為,具身智能真正的變革,在于給機(jī)器人裝上一個(gè)能獨(dú)立思考和行動(dòng)的 " 大腦 " ,而機(jī)器人 " 大腦 " 的進(jìn)化,則來自開源帶來的生態(tài)繁榮。
靈生科技不僅開源了自研的 VLA 模型,還提出用生成視頻、" 跟我學(xué) " 的方式來訓(xùn)練機(jī)器人大模型,讓它們先像人一樣在腦海里 " 推演 " 操作流程,再去執(zhí)行任務(wù),從而把成功率拉到 95% 以上。
在楊洪兵看來,真正的機(jī)器人不應(yīng)是人跟在后面的遙控玩具,也不是實(shí)驗(yàn)室樣品,而是能理解語言、感知物理世界、完成復(fù)雜任務(wù)的 " 生產(chǎn)力伙伴 "。
最近,鉛筆道和楊洪兵就機(jī)器人大腦開源、具身 Sora、產(chǎn)業(yè)化路徑、門檻與挑戰(zhàn)等話題交流,以下是對(duì)話精華。
楊洪兵,靈生科技創(chuàng)始人
聲明:訪談對(duì)象已確認(rèn)文章信息真實(shí)無誤,鉛筆道愿為其內(nèi)容做信任背書。
01 讓人形機(jī)器人擺脫遙控器
鉛筆道:機(jī)器人大腦最大特點(diǎn)是什么?
楊洪兵:平時(shí)大家使用的豆包、元寶,主要用于對(duì)話,屬于語言模型。而機(jī)器人大模型的目標(biāo)是讓機(jī)器人 " 干活 ",從 " 聊天 " 到 " 行動(dòng) ",這是一個(gè)巨大的跨越。
語言模型只需理解語言,而機(jī)器人大模型需要理解物理世界——光照、摩擦、三維空間等,并將這些理解轉(zhuǎn)化為具體動(dòng)作,比如端茶、搬運(yùn)、分揀。
這需要大模型與機(jī)器人的控制系統(tǒng)緊密結(jié)合,從數(shù)字世界延伸到物理世界,為機(jī)器人賦予 " 思考 " 和 " 行動(dòng) " 的能力。
鉛筆道:機(jī)器人本體這么熱,為什么選擇做大腦?
楊洪兵:我本科畢業(yè)于西安交通大學(xué),碩士在清華,在百度、騰訊等互聯(lián)網(wǎng)大廠深耕人工智能技術(shù)多年。我非常了解大模型的訓(xùn)練、調(diào)優(yōu)和應(yīng)用,同時(shí)很熟悉產(chǎn)業(yè)需求痛點(diǎn)。
在當(dāng)前的機(jī)器人浪潮中,AI 領(lǐng)域目前有兩個(gè)主要方向:一類是像我這樣,人工智能背景,從軟件和算法出發(fā),去探索軟硬件的融合之路;另一類則是傳統(tǒng)的機(jī)器人專家,出身硬件,逐步向人工智能靠攏。
我們堅(jiān)信,機(jī)器人智能的未來一定是以 AI 為核心。如果只聚焦硬件,那只是傳統(tǒng)制造業(yè),而真正的具身 " 智能 " 需要 AI 來驅(qū)動(dòng)。
這也是靈生科技專注于研發(fā) " 機(jī)器人大腦 " 的原因,希望讓機(jī)器人擺脫遙控器,真正實(shí)現(xiàn)自主化。
鉛筆道:擺脫遙控器,這在機(jī)器人行業(yè)意味著什么?
楊洪兵:目前,很多機(jī)器人仍依賴遙控操作,觀眾和專家都指出,這更像是 " 遙控玩具 ",而非真正的智能。我們希望讓機(jī)器人大腦技術(shù)突破,讓機(jī)器人能夠自主奔跑,甚至完成復(fù)雜的操作任務(wù)。
我們公司雖然只運(yùn)行半年多,但憑借機(jī)器人大腦技術(shù),已與國(guó)內(nèi)多家大型客戶建立了合作關(guān)系,確定了合作和采購(gòu)訂單。就在上周二(8 月 12 日),我們發(fā)布了靈生開源 VLA 模型。
鉛筆道:為什么要開源 VLA 模型?
楊洪兵:最早,大模型領(lǐng)域多是閉源競(jìng)爭(zhēng),缺乏開放合作。DeepSeek 的開源舉動(dòng)打破了這種局面,帶動(dòng)了其他公司跟進(jìn)。我們希望成為機(jī)器人領(lǐng)域的 " 鯰魚 ",通過開源高質(zhì)量模型,推動(dòng)行業(yè)進(jìn)步。目前很多業(yè)內(nèi)公司也跟隨開源,這是一個(gè)積極的變化。開源不僅加速技術(shù)迭代,也讓整個(gè)生態(tài)更加繁榮。
鉛筆道:為何閉源仍是主流?
楊洪兵:目前閉源仍是主流。許多公司認(rèn)為模型是辛苦研發(fā)的成果,開源會(huì)被他人 " 拿走 ",擔(dān)心喪失競(jìng)爭(zhēng)優(yōu)勢(shì)。這種觀念導(dǎo)致行業(yè)封閉。
但我們認(rèn)為,開源能讓更多人貢獻(xiàn)模型,最終大家受益。國(guó)外在 VLA 模型開源上做得更好,領(lǐng)先的模型多來自國(guó)外。
靈生科技旗下搭載一體化大腦 Ling Brain 系統(tǒng)的具身智能機(jī)器人
02 讓機(jī)器人通過 " 推演 " 來學(xué)習(xí)
鉛筆道:宇樹科技王興興提到人形機(jī)器人尚未迎來 "ChatGPT 時(shí)刻 ",主要是因?yàn)闄C(jī)器人大腦的研發(fā)跟不上??ㄔ谀睦锪耍?/strong>
楊洪兵:核心問題在于數(shù)據(jù)匱乏。
語言模型之所以發(fā)展迅速,是因?yàn)槿祟悗浊陙矸e累了大量文字?jǐn)?shù)據(jù),可以直接用于訓(xùn)練。
但機(jī)器人智能需要的是行為數(shù)據(jù),而人類數(shù)百萬年的行為歷史并未被系統(tǒng)記錄下來。沒有攝像頭、沒有記錄設(shè)備,過去的行為無法追溯,導(dǎo)致今天機(jī)器人智能的數(shù)據(jù)極度匱乏。
我們的解決方案是通過視頻生成技術(shù)彌補(bǔ)數(shù)據(jù)不足。思路簡(jiǎn)單但實(shí)現(xiàn)復(fù)雜,我們生成大量行為視頻,讓機(jī)器人從中學(xué)習(xí),解決了數(shù)據(jù)瓶頸的難題。
另一個(gè)制約是行業(yè)的封閉性。
許多公司捂著自己的模型,形成了惡性循環(huán):數(shù)據(jù)少導(dǎo)致模型訓(xùn)練難,訓(xùn)練難又導(dǎo)致不愿開源,不開源進(jìn)一步減緩了行業(yè)發(fā)展,數(shù)據(jù)收集更困難。
鉛筆道:在開發(fā)機(jī)器人大腦的過程中,遇到了哪些技術(shù)上的挑戰(zhàn)?
楊洪兵:最大的制約在于數(shù)據(jù)來源。
目前行業(yè)內(nèi)主要有兩種路線:一種是以智元為代表的真機(jī)數(shù)據(jù)采集,通過實(shí)際操作獲取數(shù)據(jù);另一種是以銀河通用為代表的仿真環(huán)境,通過模擬生成數(shù)據(jù)。但這兩種方式都有局限。
我們提出了一條新路徑——通過視頻生成技術(shù),讓機(jī)器人從生成的視頻中學(xué)習(xí)。我們稱之為 " 具身 Sora":先生成一段視頻,比如機(jī)器人調(diào)酒的場(chǎng)景,機(jī)器人通過觀察視頻學(xué)習(xí)操作,無需實(shí)際操作就能掌握技能。這就像人類在做事前會(huì)先 " 推演 " 流程,符合思維規(guī)律。
此前行業(yè)忽略了這一點(diǎn),直接讓機(jī)器人 " 干活 ",往往準(zhǔn)確率低、成本高。我們通過 " 推演 " 技術(shù),讓機(jī)器人先模擬學(xué)習(xí),大幅提升了效率和成功率。
鉛筆道:這種 " 推演 " 的實(shí)際效果如何?
楊洪兵:效果非常顯著。通過視頻生成技術(shù),將機(jī)器人任務(wù)的成功率從原來的 90% 以下提升到 95% 以上,接近甚至超過行業(yè)標(biāo)準(zhǔn)。相對(duì)于純仿真技術(shù),數(shù)據(jù)構(gòu)建的成本更低,而且更容易解決 Sim2Real 的 Gap 問題。
鉛筆道:聽起來很簡(jiǎn)單,會(huì)被競(jìng)爭(zhēng)對(duì)手輕易模仿嗎?你們的壁壘在哪里?
楊洪兵:表面上看," 推演 " 技術(shù)似乎簡(jiǎn)單,但實(shí)際操作非常復(fù)雜。
生成視頻時(shí),需考慮光照、摩擦力、彈性力等物理世界中的復(fù)雜因素,這些都對(duì)技術(shù)提出了極高要求。
目前,市場(chǎng)上還沒有哪家公司能將視頻生成技術(shù)做到極致。我們是最早看到這一價(jià)值并持續(xù)投入的團(tuán)隊(duì)。持續(xù)的模型迭代和資源聚焦是我們保持優(yōu)勢(shì)的關(guān)鍵,這不是一朝一夕能復(fù)制的。
鉛筆道:大廠擁有強(qiáng)大的 AI 團(tuán)隊(duì)和產(chǎn)業(yè)化能力,他們會(huì)不會(huì)也來?yè)屨紮C(jī)器人大腦賽道?
楊洪兵:這是一個(gè)關(guān)鍵問題,也是我從大廠出來創(chuàng)業(yè)的根本原因。
大廠擅長(zhǎng)通用 AI,但要適配多樣化的本體并深入產(chǎn)業(yè)場(chǎng)景,需要軟硬件結(jié)合的垂直能力。這比純軟件開發(fā)更垂直也更復(fù)雜。
我們聚焦于 " 懂 AI、懂本體、懂產(chǎn)業(yè) " 的結(jié)合點(diǎn),這正是我們的差異化優(yōu)勢(shì)。
03 機(jī)器人大腦產(chǎn)業(yè)化三大挑戰(zhàn)
鉛筆道:如何通過開源模型實(shí)現(xiàn)盈利?與本體廠商和終端客戶的合作模式是怎樣的?
楊洪兵:我們的商業(yè)模式基于開放平臺(tái),同時(shí)提供增值服務(wù)。
對(duì)于開源模型,如果客戶需要進(jìn)一步優(yōu)化或定制,我們會(huì)提供收費(fèi)的技術(shù)支持,輸出模型側(cè)的能力來創(chuàng)造收入。
與本體廠商合作,我們通過增值服務(wù)收費(fèi);與終端客戶合作,我們直接通過為他們賦能大腦技術(shù)來收費(fèi)。
這種模式既支持生態(tài)共建,又確保了商業(yè)化的可持續(xù)性。無論是與本體廠商的增值合作,還是為終端客戶提供直接賦能,我們都能找到清晰的盈利路徑。
鉛筆道:你們定位有點(diǎn)像微軟——電腦廠商生產(chǎn)電腦,但操作系統(tǒng)多用 Windows。
楊洪兵:我們確實(shí)希望成為機(jī)器人智能領(lǐng)域的 "Windows" 或 "Android"。通過開源開放,我們的模型能適配不同形態(tài)的機(jī)器人本體,就像 Android 兼容各種手機(jī)型號(hào)一樣。
Android 雖然免費(fèi),卻創(chuàng)造了巨大價(jià)值,背后團(tuán)隊(duì)也有自己的生存之道。同樣,我們也希望通過開源建立行業(yè)地位,同時(shí)通過增值服務(wù)實(shí)現(xiàn)商業(yè)化。
鉛筆道:目前與大公司的合作進(jìn)展如何?具體有哪些合作模式和場(chǎng)景?
楊洪兵:我們與大公司的合作通常分三個(gè)階段:
第一階段是付費(fèi) POC(概念驗(yàn)證),客戶提供資金,我們?cè)谒麄兊膱?chǎng)景中生成視頻、訓(xùn)練模型并實(shí)現(xiàn)操作;第二階段是小批量采購(gòu),驗(yàn)證效果后開始小規(guī)模應(yīng)用;第三階段是中等規(guī)模乃至大批量復(fù)購(gòu)。
目前,我們的大部分合作已完成 POC 階段,進(jìn)入小規(guī)模復(fù)購(gòu)。這相較于仍停留在實(shí)驗(yàn)室階段的友商,是一個(gè)巨大的進(jìn)步。
鉛筆道:能否分享具體的合作案例?
楊洪兵:比如富士康集團(tuán)某高端網(wǎng)絡(luò)產(chǎn)品的生產(chǎn)中,我們靈生在運(yùn)用工業(yè)具身大腦,解決分揀中的泛化操作難題。
再比如在某國(guó)際 3C 巨頭,我們利用 RealDualVLA 解決產(chǎn)線中的精密操作難題,解決了泛化、精度、效率不可能三角。
而在半導(dǎo)體領(lǐng)域,我們和國(guó)內(nèi)頭部上市公司建立合作,用具身 Sora 生成場(chǎng)景操作視頻數(shù)據(jù),快速訓(xùn)練模型實(shí)現(xiàn)產(chǎn)業(yè)化部署,從而贏得客戶信賴。
鉛筆道:你們之間的信任怎么建立的?
楊洪兵:大企業(yè)客戶,決策非常謹(jǐn)慎。一般都要調(diào)研了多家同類機(jī)器人,從產(chǎn)品穩(wěn)定性、大模型的泛化性、工程化能力到量產(chǎn)能力四個(gè)維度進(jìn)行評(píng)估。
我們?cè)谶@幾個(gè)方面展現(xiàn)了差異化的優(yōu)勢(shì),也多次對(duì)公司進(jìn)行實(shí)地考察,最終被我們極致的產(chǎn)品力打動(dòng)。
鉛筆道:在產(chǎn)業(yè)化過程中,遇到了哪些難點(diǎn)?是如何克服的?
楊洪兵:產(chǎn)業(yè)化面臨三大挑戰(zhàn)。
首先,真實(shí)產(chǎn)業(yè)環(huán)境遠(yuǎn)比實(shí)驗(yàn)室復(fù)雜,實(shí)驗(yàn)室中的成果往往無法直接應(yīng)用。我們通過工程化和體系化能力提升,確保技術(shù)能適配上千、上萬臺(tái)機(jī)器的規(guī)?;枨螅瑢?duì)精度和穩(wěn)定性要求極高。
其次,數(shù)據(jù)不足是個(gè)普遍問題。我們利用具身 Sora 視頻生成技術(shù)彌補(bǔ)了數(shù)據(jù)缺失,填補(bǔ)了行業(yè)空白。
最后,產(chǎn)業(yè)環(huán)境更關(guān)注失敗次數(shù)的控制,而非成功次數(shù)。我們優(yōu)化了模型推理速度、效率和準(zhǔn)確率,確保交付和部署的穩(wěn)定性。
靈生科技于 WRC 展會(huì)精彩亮相
04 做垂域大腦,而非超級(jí)大腦
鉛筆道:現(xiàn)在很多機(jī)器人本體公司也在嘗試自研大腦。
楊洪兵:機(jī)器人本體公司確實(shí)有自研大腦的嘗試,追求 " 全棧自研 "。但正如一個(gè)人不可能精通所有領(lǐng)域,一個(gè)公司在每個(gè)環(huán)節(jié)都做到極致是很難的。本體公司即使投入研發(fā)大腦,資源分散,難以達(dá)到頂尖水平。這種 " 撒胡椒面 " 式的投入往往導(dǎo)致每個(gè)領(lǐng)域都不夠突出。專注和極致化才是核心競(jìng)爭(zhēng)力。即使本體公司有資金,也很難在每個(gè)環(huán)節(jié)都燒出頂尖產(chǎn)品。
鉛筆道:從本體公司角度看,把大腦交給外部供應(yīng)商可能會(huì)讓他們感到不安。你怎么看待這種顧慮?
楊洪兵:這種不安主要源于閉源模式帶來的不信任感。
所以,靈生一開始就選擇開源開放策略,我們的 VLA 模型完全向本體公司開放,源代碼透明可得,消除了他們的顧慮。
這就像 DeepSeek 的開源策略,吸引了眾多廠商使用,因?yàn)殚_源不僅降低風(fēng)險(xiǎn),還能借助生態(tài)的力量加速發(fā)展。
開源是行業(yè)的未來,自研大腦的趨勢(shì)會(huì)因資源限制和專業(yè)分工而逐漸向合作與開源靠攏。
鉛筆道:數(shù)據(jù)安全會(huì)成為問題嗎?
楊洪兵:數(shù)據(jù)安全確實(shí)是個(gè)重要考量。
我們的開源模型是預(yù)訓(xùn)練好的,合作伙伴可以基于私域數(shù)據(jù)進(jìn)行二次訓(xùn)練(Few-Shot Training),這些數(shù)據(jù)無需公開。
我們使用的都是公開透明的通用數(shù)據(jù),私域數(shù)據(jù)完全由客戶自己掌控,隱私性得到保障。開源的是模型和通用數(shù)據(jù),而非客戶的敏感數(shù)據(jù)。
鉛筆道:如果未來 " 大腦 " 足夠智能,是否會(huì)出現(xiàn)一個(gè)通用大腦,適配所有行業(yè)和場(chǎng)景?
楊洪兵:理論上,遠(yuǎn)期可能出現(xiàn)這種 " 超腦 ",類似 AGI(通用人工智能),能解決所有問題。但短期內(nèi)很難實(shí)現(xiàn)。
首先,超腦需要極高的泛化能力,相當(dāng)于人類所有智能的總和,這在技術(shù)上幾乎不可行。
其次,算力需求將遠(yuǎn)超當(dāng)前語言模型的幾萬倍,成本極高。
最后,必要性存疑——讓超腦去做瑣碎任務(wù),就像讓博士生算 1+1,性價(jià)比低。
我們更傾向于專注垂域大腦,在特定領(lǐng)域做到極致,而非追求贏家通吃的通用大腦,那需要數(shù)百億投入且風(fēng)險(xiǎn)極高。
鉛筆道:怎么應(yīng)對(duì)多樣化的場(chǎng)景需求?
楊洪兵:我們聚焦于泛工業(yè)場(chǎng)景。工業(yè)場(chǎng)景側(cè)重操作和作業(yè),物流解決搬運(yùn)、分揀等任務(wù)。我們的核心能力是 " 手腦協(xié)同 ",通過移動(dòng)與操作的結(jié)合,讓機(jī)器人達(dá)到甚至超越人類的智能水平。
鉛筆道:你們接下來的規(guī)劃是什么?
楊洪兵:首先,我們要服務(wù)好頭部 KA 客戶,回報(bào)他們的信任。目前靈生已經(jīng)和數(shù)十家客戶建立合作,未來靈生將服務(wù)千家以上客戶,打造真正能用、易用、好用的具身智能產(chǎn)品,為工業(yè)提供優(yōu)質(zhì)生產(chǎn)力。
其次,繼續(xù)推動(dòng)開源戰(zhàn)略,吸引更多開發(fā)者基于我們的模型進(jìn)行二次開發(fā)。我們解決了國(guó)內(nèi)機(jī)器人開發(fā)者缺乏開源大腦的痛點(diǎn),讓他們?cè)谖覀兊钠脚_(tái)上更便捷地開發(fā)應(yīng)用。這不僅服務(wù)于 B 端客戶,也面向開發(fā)者,通過共建生態(tài)加速產(chǎn)業(yè)落地。這是我們的核心優(yōu)勢(shì)和戰(zhàn)略方向。
鉛筆道:未來大腦足夠智能后,是否只需通過自然語言指令就能控制機(jī)器人?
楊洪兵:是的,我們的目標(biāo)是實(shí)現(xiàn)自然語言處理通用接口(NLI)。用戶只需用日常語言下達(dá)指令,機(jī)器人就能理解并執(zhí)行。這將讓機(jī)器人真正融入生活,成為解放人類的生產(chǎn)力工具。
我們目前已可以通過自然語言喚醒機(jī)器人。用戶下達(dá)指令,機(jī)器人就能根據(jù)指令執(zhí)行相應(yīng)動(dòng)作。這是一個(gè)重要的里程碑,讓機(jī)器人更貼近實(shí)際應(yīng)用場(chǎng)景。
來源:鉛筆道