辦公系統(tǒng)
個人會員
單位會員
首頁 新聞中心 新聞資訊 正文

【W(wǎng)RC大咖論道】科大訊飛股份有限公司副總裁、研究院院長劉聰:《訊飛星火超腦平臺賦能具身智能機器人發(fā)展》

2024-09-19

2024世界機器人大會以“共育新質(zhì)生產(chǎn)力 共享智能新未來”為主題,為期三天的主論壇和26場專題論壇上,416位國內(nèi)外頂尖科學(xué)家、國際組織代表、院士和企業(yè)家聚焦前沿技術(shù)、產(chǎn)業(yè)動向和創(chuàng)新成果,深入研討人工智能與機器人技術(shù)深度融合帶來的新趨勢、新機遇,共同打造了一場十分精彩的機器人領(lǐng)域前沿觀點盛宴!

在8月22日下午的主論壇上,科大訊飛股份有限公司副總裁、研究院院長劉聰以《訊飛星火超腦平臺賦能具身智能機器人發(fā)展》為主題發(fā)表演講。


數(shù)說2024世界機器人大會


論壇


26 家國際支持機構(gòu)

3 大主題 26 場專題論壇

416 名國內(nèi)外頂尖科學(xué)家、國際組織代表、院士和企業(yè)家

74 位國外嘉賓及港澳臺嘉賓參會

線上線下聽眾達(dá) 160萬 人次


展覽


27 款人形機器人集中亮相

首發(fā)新品 60 余款

近 170 家參展企業(yè) 600 余件參展產(chǎn)品

參觀人數(shù)近 25萬 人次


大賽


全球 10 余個國家和地區(qū)的 7000 余支賽隊

 13000 余名參賽選手

每天參賽人數(shù) 4000 余人



媒體關(guān)注


近 400 家國內(nèi)外媒體

短視頻平臺話題播放量達(dá) 2.9億


1726729870156225.jpg

劉聰(科大訊飛股份有限公司副總裁、研究院院長)


以下是演講內(nèi)容實錄 


非常高興能來參加世界機器人大會,和大家做一些分享和交流??拼笥嶏w是一家人工智能企業(yè),今天會結(jié)合我們一些實踐給大家分享一下我們在包括像人工智能大模型、大模型如何來賦能機器人行業(yè),給大家匯報一下進展和思考。

首先我們快速看一下,當(dāng)前這一年多大模型非?;?,當(dāng)前大模型最新的態(tài)勢是如何的,以ChatGPT為代表的這輪認(rèn)知智能大模型帶來了技術(shù)的智能涌現(xiàn),進一步掀起了人工智能的全新浪潮,我們也看到有些機構(gòu)對人工智能大模型對未來GDP的一些推動,對未來企業(yè)數(shù)字化變革的推動,以及我們有一些科學(xué)家說大模型對生物醫(yī)藥,對其它的科學(xué)領(lǐng)域也有很多的想象空間。

我國高度重視通用人工智能,從去年4月份中共中央政治局的會議到去年底的一些全新工業(yè)化會議,一再強調(diào)通過通用智能賦能我們的行業(yè)。再到今年的兩會,進一步提出人工智能+的理念。

我們可以看到,這一年這個行業(yè)非常的“”,以國際為例,既有帶頭的OpenAI不斷的推出一些新的版本,從3.5到4到4v、4t、4o一系列的內(nèi)容,包括Google合并了非常厲害的DeepMind這樣一些機構(gòu),當(dāng)然這里面還有LLama主打開源的模型,國內(nèi)大家熟悉的百模大戰(zhàn),這里我就不展開了。

我們簡單來看一下,應(yīng)該來講ChatGPT它是一個基于深度學(xué)習(xí)框架的大模型,并進一步的結(jié)合像Transformer,包括像強化學(xué)習(xí)這樣的一些算法創(chuàng)新,來實現(xiàn)了通用型的對話系統(tǒng),將原來只能完成一些專用的任務(wù),來實現(xiàn)可以現(xiàn)在完成文本生成各種各樣的一些任務(wù),所以我們說實現(xiàn)了一個技術(shù)的借閱。

如果站在語言智能的角度,我們知道語言是我們?nèi)祟愔腔鄣囊粋€重要部分,也是我們學(xué)習(xí)知識去傳遞信息的一個最重要的載體。這樣的一種方式有望讓我們的機器真正人類去學(xué)習(xí)語言、應(yīng)用語言,去掌握知識這樣的一個過程,從而開啟一個更加自然的交互。

這里我們以O(shè)penAI為代表,快速過一下它在過去一年多各個版本的最新效果,這塊其實是跟我們的多模態(tài)相關(guān)的,在GPT-4v包括現(xiàn)在已經(jīng)升級成了GPT-4o,以及用于畫圖的能力。

我們可以看到基于這樣的能力,它現(xiàn)在已經(jīng)能處理一些很復(fù)雜的內(nèi)容,像左邊可能你給它一個導(dǎo)航的截圖,你就可以問里面很多的內(nèi)容,它會根據(jù)圖里面的文字信息,包括圖片的信息給你一些規(guī)劃。

在右邊你不需要寫特別多的Plug,只要告訴它你給我生成一個咖啡店的廣告牌,上面寫什么字,就可以自動的去進行一些拓展,給你生成一些圖文并茂相關(guān)的圖片。

今年來講,OpenAI發(fā)布的最有影響力,可能也是在大模型里最有影響力的兩個方向,我想就是2024年2月份的Sora和5月份發(fā)布的GPT-4o,Sora我想大家都很熟悉了,通過整個文生視頻的功能,不管是在時長上還是在效果上,其實都達(dá)到了一個非常好的程度。

后面我們專家分析完,這個事并不是一個真的就去懂物理世界了,還是通過大量的數(shù)據(jù)算力這樣一些資源,來形成了一個大力出奇跡的模型。4o也是的,它號稱我是第一個用端到端模型來實現(xiàn)這樣一個全自然的、快速的交互,支持語音、文本這種視頻各種各樣的模態(tài),可以隨時打斷,中間還可以去表達(dá)各種各樣的情緒。

但其實我們也看到這兩個產(chǎn)品發(fā)布之后,目前來說并沒有真的都開放,Sora我們看到半年多了,國內(nèi)其實也有不少家在視頻生成上做的不錯的模型。而我們的GPT-4o發(fā)布了3個月之后,現(xiàn)在才剛剛開始讓少部分人去內(nèi)測、去體驗,這個也是說明了一個技術(shù)從發(fā)布到真正全面使用要經(jīng)歷這樣一個過程。

我們可以看到以剛才OpenAI的產(chǎn)品為例,不管是剛才說的GPT-4,GPT-4v、Sora,當(dāng)然這里面還有多語種的語言模型,除了算法創(chuàng)新,這里面有一個非常重要的點是它的核心底座,這也為什么說OpenAI它相當(dāng)于領(lǐng)先一步,有了這樣的底座之后,再結(jié)合它的算力和數(shù)據(jù),可以形成各個領(lǐng)域的技術(shù)突破。

我們發(fā)展一年多了,當(dāng)前來講有些技術(shù)在不斷的進步,在當(dāng)前我們?nèi)匀幻媾R哪些挑戰(zhàn),這里面也想跟大家分享一下。

首先我想是大模型可解釋問題,也就是大家原來熟知的幻想,客觀來講相對于OpenAI剛剛發(fā)布ChatGPT3.5的時候,現(xiàn)在我們的算法一方面模型更大了,數(shù)據(jù)更好了。

同時再通過我們的搜索插件,包括像知識增強,基本上幻覺已經(jīng)比原來緩解很多了。但是在一些像教育、醫(yī)療這樣一些場景,對結(jié)果的可靠度要求非常高的場景,其實還有很多的挑戰(zhàn)。

第二,剛才以GPT-4o為代表的,當(dāng)然也包含大家熟知的特斯拉的FST,這樣一些以端到端模型為代表的新方案,它會給我們帶來效果和體驗上的巨大提升。包括大家看到現(xiàn)在為什么沒有那么多的開放,實際上只有你真正做過才知道,這里面涉及多模態(tài)數(shù)據(jù)的對齊,端到端怎么樣更好的去做靈活定制的需求,其實仍然還有很多的技術(shù)挑戰(zhàn)。

第三,我們說個性化,大模型的個性化,怎么去解決最后一公里的問題,我經(jīng)常舉一個例子,ChatGPT剛出來的時候,或者國內(nèi)的一些大模型剛出來的時候,它寫一個東西你很驚艷。

但是寫了一段時間之后,你可能過了一段時間覺得這個要求就不夠了,因為寫出來的東西是個很通用的東西,它怎么寫出來是一個你特別想要,或者是你的風(fēng)格寫出來的,這個現(xiàn)在做不了,關(guān)于個性化有一些工作,但是在功能的定義,包括一些個性化的效果,我認(rèn)為還有很長的路要走。

除了剛才講的三個算法,我們說Standing  long,這個大家很熟了,必須要有大模型集群的建立,我們看到GPT-4級別你要想去做,起步的門檻可能是萬卡左右的集群。如何去構(gòu)建這樣的集群,如何去保持訓(xùn)練推理的高效,甚至是在這個過程當(dāng)中怎么樣通過整個系統(tǒng)的穩(wěn)定性,能讓這樣一個集群穩(wěn)定運行,尤其是像科大訊飛這樣的我們只能在國產(chǎn)的服務(wù)器上去做,我想怎么支持大模型的算力去進行建設(shè),也是一個非常重要的復(fù)雜系統(tǒng)性的工程。

接下來我們稍微看一下大模型與機器人的關(guān)系,大模型之后到底對機器人尤其是人形機器人起到了什么樣的作用,這兩年的確在機器人產(chǎn)業(yè)上有了非常大的進展,除了在資本市場或者是在創(chuàng)業(yè)圈,除了做大模型的,基本上一系列的就是做人形機器人的。

可能跟原來的人工智能時代,我們的人形機器人因為它的功能完備性、形態(tài)的親和性,本身我們就說它是人工智能去落地的載體,這里面有一些代表性的機器人。但是我們可以看到大模型出現(xiàn)之前,其實人形機器人更多是基于控制,我們基于小腦,它要去感知這樣一個環(huán)境,然后做一些決策,跟環(huán)境去交互做執(zhí)行。

這里面我們簡單分析了一下,有幾個問題:

第一,它不具備特別復(fù)雜的任務(wù),我說你的薯條在桌上,它可能會去拿,但是你讓它去抽屜里面拿一個薯條,它就不知道怎么去分解這樣一個任務(wù),這是一個現(xiàn)狀。

第二,可能它完成的是一些特定性的任務(wù),我們可以看到在一些工廠去做一些重復(fù)性的工作,但是你要做一些開放性的或者是通用性的任務(wù)就比較難。同時在這里面因為原來的模型限制,不管是視覺的、聽覺的這樣一些感知的模型能力也不夠強。

我們可以看到大模型,這一年多的實驗,以人形機器人為代表的機器人智能化帶來了巨大的提升空間,包括整個的底座加上思維鏈的能力,可以幫助人形機器人去處理一些非常復(fù)雜的任務(wù)去拆解、去規(guī)劃,包括也能進一步提升多模態(tài)視覺、聽覺的感知能力,以及這樣一些生成式模型帶來的數(shù)據(jù)模擬,可以降低我們在模型訓(xùn)練當(dāng)中的一些數(shù)據(jù)需求。

具體來講,整個在大模型情況之下,通過我們的大模型對任務(wù)的拆解,把這些指令映射到我們跟物理世界的交互,并且可以觸達(dá)到物理世界的一些指令,再通過我們的運動控制去形成這樣的閉環(huán),所以我們相信這個還是有非常大的空間。

第二部分是星火大模型的進展,剛剛提到大模型,基于通用大模型包括文本生成、知識問答、代碼等相關(guān)的能力,在各個方面的產(chǎn)業(yè)內(nèi)容革新、科研工作、專業(yè)行業(yè)虛擬助手都有非常大的空間,大家覺得大模型是一個不亞于互聯(lián)網(wǎng)和個人電腦的存在。

科大訊飛也是基于過去十多年在核心技術(shù)場景的積累,我們在2022年12月15日基于我們像認(rèn)知智能全國國重語音工程中心這樣一些國家級平臺啟動了這樣“1+N”的攻關(guān),既要做自主創(chuàng)新的底座,也要在教育醫(yī)療等各個行業(yè)形成一些行業(yè)落地的產(chǎn)品。

過去一年多非常卷,從0到1實現(xiàn)了7個版本模型的發(fā)布,我們快速看一下通用能力,現(xiàn)在在中文的任務(wù)上最新的星火V4.0版本可以對標(biāo)到GPT4T的知識問答等等相關(guān)的能力,現(xiàn)在多模態(tài)代碼還有一定的差距,剛剛說的除了文本大模型,多模態(tài)這件事情非常關(guān)鍵,所以我們說多模態(tài)能力覆蓋很多行業(yè)包括工業(yè)、機器人這是非常關(guān)鍵的。

底座模型基礎(chǔ)之上進一步做多模態(tài)模型相關(guān)的東西,這個只是給一些事例,大家有空可以看一下,給張圖能夠基于圖像本身,基于里面的文字內(nèi)容協(xié)同做一些分析,還能根據(jù)多個圖片對一些事件的連貫性做一些判斷。

還有一個很關(guān)鍵的點就是交互,科大訊飛從成立的時候我們的使命就是說讓每個機器不管是汽車、手機、機器人能聽會說,能理解會思考,如何打造更加自然的人機交互,一直是我們的追求。

現(xiàn)在訊飛已經(jīng)發(fā)布的自然交互能達(dá)到什么樣的效果。

(播放視頻)

這樣一個體驗全是真機交互的東西,一方面通過真正端到端的建模把原來從語音識別、文本理解再到合成可能需要三秒鐘的時間可以壓縮到這樣隨時打斷跟人的交互一樣,進一步結(jié)合原來在云領(lǐng)域的屬性解耦的原創(chuàng)技術(shù)可以把語音信號里說話人的情感信息解耦出來,而且可以靈活的控制,這樣就可以實現(xiàn)更多情緒的感知表達(dá)。

在8月30日我們的版本就會正式上線星火,更重要這樣一個框架我們認(rèn)為現(xiàn)在是先集中把語音交互做透,這樣一套框架未來拓展到智能里會方便很多,我們很快會看到在機器人的場景可以用到這樣一些更自然交互的邏輯。

這樣的內(nèi)容在車載、學(xué)習(xí)機其實有很多的應(yīng)用場景。我們針對一些復(fù)雜任務(wù)的拆解和規(guī)劃,這個例子也是一樣,可以基于大模型的底座做智能體的平臺。我想創(chuàng)建一個智能體,這個智能體里包含了一些任務(wù),我們大模型可以基于這樣一個任務(wù)拆解并相關(guān)的用各種各樣的智能體來實現(xiàn),這樣的方案也是助力機器人可以理解更加復(fù)雜的內(nèi)容。

同時我們剛剛提到了跟華為在去年10月24日建了國內(nèi)首個萬卡的國產(chǎn)化集群,并且現(xiàn)在所有的模型包括大家看到的急速語音交互的模型都是在全國產(chǎn)化上做的訓(xùn)練,這是我們在其它一些行業(yè),教育、醫(yī)療、辦公、軟硬件其實有很多大模型賦能的案例。

最后看一下基于星火大模型,我們的超導(dǎo)平臺如何賦能具身智能機器人,在這次大模型爆發(fā)之前,我們在2022年1月就提出的訊飛超導(dǎo)2030計劃,希望未來可以打造懂知識、擅學(xué)習(xí)、能進化,結(jié)合我們的多模感知深度理解多維表達(dá)這樣一個機器人未來可以走進千家萬戶,來幫助老人養(yǎng)老等等。

實際上來說在這個過程中跟產(chǎn)業(yè)鏈的合作伙伴,我們自己不做本體進行深度的合作,基于大模型也針對具身智能做的一系列工作,包括剛剛提到的整個任務(wù)理解規(guī)劃的能力,包括反過來通過在仿真中的算法,對于硬件結(jié)構(gòu)和參數(shù)形成一些調(diào)整的反饋,所以會提升整個運動的能力,將這種操作泛化的內(nèi)容。也是在去年9月份拉通了這樣從大模型大腦到運動的小腦這套本體全產(chǎn)業(yè)鏈,基于這樣一個內(nèi)容我們也是重點作為生態(tài)打造了超導(dǎo)平臺,這里面像麥克風(fēng)陣列、攝像頭這樣的前端傳感器跟后端算法的融合,也有像這樣一個模型怎么樣做到端側(cè),做在國產(chǎn)化芯片上這樣一個算力來實現(xiàn)不管是對話理解還是整個具身一系列功能。

在這個基礎(chǔ)上現(xiàn)在其實我們也是支持了業(yè)內(nèi)超過420多家機器人企業(yè),有很多包括我們的合作伙伴優(yōu)必選、宇樹、銀河通用智能等等,以及鏈接了3.5萬的機器人相關(guān)開發(fā)者,我們也是積極的在推動產(chǎn)學(xué)研的合作,包括是人形機器人的副組長單位,和中科大、哈工大也是聯(lián)合共建一些機器人學(xué)院或者聯(lián)合實驗室。

其實站在產(chǎn)業(yè)的角度,人形機器人還是面臨一些挑戰(zhàn)的,雖然現(xiàn)在有了很大的發(fā)展。

第一,成本過高,硬件成本過高短期內(nèi)會影響大的場合規(guī)?;膽?yīng)用。

第二,隨著模型能力越強。

其實除了對本體的成本,其實對于算力芯片的要求越來越高,未來針對這樣一個任務(wù)的應(yīng)用,人形機器人大規(guī)模操作這個數(shù)據(jù)集成本也挺高,所以怎么樣通過人工智能能降低這樣一些數(shù)據(jù)集的成本,也是未來我們要去協(xié)同做的工作。

站在通用大模型和人形機器人展望一下,首先還是要積極的推動應(yīng)用場景的開發(fā),而且剛剛說的人形機器人長遠(yuǎn)可能是終極目標(biāo),但是過程中要有合理的技術(shù)臺階推出一系列階段性的機器人矩陣產(chǎn)品,要加強上下游產(chǎn)業(yè)鏈通力合作,尤其是推動訊飛這樣做大模型的企業(yè)和智能本體機器人企業(yè)來推動整個產(chǎn)業(yè)的全面發(fā)展。

作為我們來說在大模型本身國產(chǎn)化的可控大模型繼續(xù)做,同時還需要做通用時代交叉學(xué)科人才培養(yǎng)。我今天的報告就到這里,感謝大家!


本文根據(jù)錄音整


返回列表頁

加入會員

學(xué)會官微