]]>
活動邀請CCDI廣電云規(guī)劃專家、寶聯(lián)科技創(chuàng)始人?席利寶、天云融創(chuàng)數(shù)據(jù)科技(北京)有限公司CEO 雷濤、中國傳媒大學(xué)人工智能系副教授 陶竹林、中國科學(xué)報社原副總編輯、《醫(yī)學(xué)科學(xué)報》總編輯 張明偉分別作主題報告。
席利寶表示AI是新時代的新質(zhì)生產(chǎn)力,AI高質(zhì)量發(fā)展從能源+算力+算法+數(shù)據(jù)+網(wǎng)絡(luò)+安全都需要協(xié)同;廣電在AI時代應(yīng)該緊握機(jī)會,塑造數(shù)字經(jīng)濟(jì)中的獨(dú)特優(yōu)勢,CCDI項(xiàng)目將對中國廣電發(fā)展起到樣板和示范作用;未來已來,中國廣電作為文化數(shù)字化國家隊(duì)、主力軍和排頭兵,當(dāng)仁不讓為數(shù)字經(jīng)濟(jì)發(fā)展注入動能,為中國特色的新型算力事業(yè)貢獻(xiàn)力量,為網(wǎng)絡(luò)強(qiáng)國、數(shù)字中國建設(shè)提供強(qiáng)有力的支撐。
雷濤就“無真相,無共識”這個話題發(fā)表了自己的觀點(diǎn),他認(rèn)為在這個碎片化信息時代,信息溯源和取證有待考證;此外,信息背景、知識背景、文化背景、邏輯判斷都難以讓人類達(dá)成共識。人工智能走到今天,爭論與分歧始終如影隨形,可以說AI的命運(yùn),正是在這些爭議與分歧中找到了真正的邊界與可能性,滿足了不確定時代不確定人群確定性的需求。此外雷濤從新聞生產(chǎn)速度、新聞?wù)Z境共鳴、AI組織的思維鏈觀點(diǎn)流做了內(nèi)容闡述,并分享了AI自動“拍攝”的宏大場面、AI自動生成多場景劇情豐富的電影劇情、AI森林巧克力廣告片、短劇自動完成中文轉(zhuǎn)英語韓語日語等實(shí)踐效果。重點(diǎn)推出了面向媒體的產(chǎn)品——AI采訪助手,該產(chǎn)品能實(shí)現(xiàn)數(shù)小時音/視頻自動解析;多人對話自動區(qū)分發(fā)言人、匯總發(fā)言觀點(diǎn);此外可以通過“你問我答”的相識,精準(zhǔn)定位關(guān)鍵內(nèi)容和視頻片段,無需反復(fù)觀看視頻便快速定位采訪對象重點(diǎn)發(fā)言內(nèi)容;最后,還可以多形態(tài)素材輸出,輕松復(fù)制文字素材或下載新合成的視頻素材。
陶竹林表示未來媒體即智能媒體,既要堅(jiān)守內(nèi)容的真實(shí)與價值,也要以創(chuàng)新引領(lǐng)時代變革。AI技術(shù)正在深刻重塑媒體生態(tài),從精準(zhǔn)內(nèi)容生成到智能傳播路徑優(yōu)化,為行業(yè)賦能無限可能。守正,是堅(jiān)守媒體的社會責(zé)任與傳播倫理;創(chuàng)新,是運(yùn)用AI等新技術(shù)推動媒體形態(tài)的升級與進(jìn)化。擁抱AI,就是擁抱媒體的未來,它不僅是工具,更是智能時代的必然選擇。以技術(shù)為翼,守住初心,未來的智能媒體將更高效、更智慧、更有溫度。
張明偉介紹了中國科學(xué)報社開發(fā)出的“小柯”論文新聞寫作機(jī)器人的相關(guān)情況。他認(rèn)為,將人工智能運(yùn)用到科學(xué)新聞寫作能夠有效滿足科研人員更好了解國際前沿科研進(jìn)展的需求,也能為科學(xué)傳播工作者提供初步選題線索。他建議媒體開發(fā)人工智能產(chǎn)品時要瞄準(zhǔn)用戶需求,善于借用外力,大膽擁抱新技術(shù)。
在過去一年您的機(jī)構(gòu)的實(shí)踐中,大語言模型在哪些場景上落地取得了成功?
您問題的核心在大語言模型,其實(shí)在基模(基礎(chǔ)模型)上,市場已經(jīng)在第二代視覺多模態(tài)大模型和第三代空間認(rèn)知大模型上取得了非常大的成果和突破。
當(dāng)然,大語言模型是知識的容器,在整個流水線中扮演非常關(guān)鍵的位置,可以有效地處理視覺和空間感知的多維信號擴(kuò)展人類的融合認(rèn)知。
咱們現(xiàn)場舉例,就今天的采訪視頻,我們要如何去編輯處理?還是傳統(tǒng)的定位到每一幀每一秒去剪輯?大語言模型在多模態(tài)在空間認(rèn)知上取得了非常大的一個成果,已經(jīng)可以基于語言模型抽象出每一個嘉賓的核心觀點(diǎn),還可以基于內(nèi)容選擇,所見、所選及所得,把勞動力從重復(fù)性的工作中解放出來,實(shí)現(xiàn)場景式理解視頻內(nèi)容。
Agent、RAG、GraphRAG,新大模型生態(tài)鏈技術(shù)層出不窮,在未來發(fā)展中,您看好哪些新的發(fā)展方向?它們會如何在資管領(lǐng)域取得應(yīng)用?
針對這個問題,我想先談一下大模型和數(shù)據(jù)的關(guān)系。因?yàn)槲覀兲煸茢?shù)據(jù)本身就同時做數(shù)據(jù)供給側(cè)的混合負(fù)載數(shù)據(jù)庫和數(shù)據(jù)消費(fèi)側(cè)的機(jī)器學(xué)習(xí)平臺。
那么,為什么我們要關(guān)注大模型和數(shù)據(jù)?
這個可以從存量和增量兩個方向上去看:存量是這兩年的主流,就是把已有的知識做知識封裝和知識移動,一種端到端的訓(xùn)練方法;增量是用RAG、用向量數(shù)據(jù)庫外掛在模型之上,將增量的信息全部訓(xùn)練進(jìn)去,我們?nèi)ツ暝贗TL發(fā)布的證券法規(guī)助手就是這種方法。現(xiàn)在的企業(yè)數(shù)據(jù),不僅僅只有文檔、手冊這些靜態(tài)的科技文獻(xiàn)內(nèi)容,更多的是流動的、數(shù)據(jù)價值密度更高的信息,這些是存在數(shù)據(jù)庫里的。
針對存量的一個核心關(guān)鍵詞就是大模型to DB,也就是我們怎么對高價值密度的數(shù)據(jù),在不用精密地組織語言的同時,還能作出準(zhǔn)確數(shù)字類問題的回答,比如客服里的定價問題、價格交易等問題。
我們服務(wù)于券商的數(shù)字人,播報的內(nèi)容是來自于實(shí)時交易系統(tǒng)的數(shù)據(jù)和研報文本內(nèi)容的結(jié)合。針對這樣的場景,就需要把大模型的模糊意圖匹配和精確的SQL操作形成連接。這種連接不是一對一的,面涉及到非常復(fù)雜的工程技術(shù)。如何保證像ASR語音識別這些機(jī)器學(xué)習(xí)模型回答一個準(zhǔn)確的答案?比如現(xiàn)在的銷量是多少,是產(chǎn)品的銷量還是區(qū)域的銷量。像這樣模糊的意圖匹配,怎么和數(shù)據(jù)庫里精確的字段完成匹配?在后臺,需要準(zhǔn)備大量的密集計算操作。傳統(tǒng)的MPP數(shù)據(jù)庫是沒有并發(fā)能力的,可能只能支撐一句話十幾個token的內(nèi)容。但高并發(fā)任務(wù),成百上千個寬表的OLAP執(zhí)行對數(shù)據(jù)基礎(chǔ)設(shè)施的要求非常高,只有HTAP數(shù)據(jù)庫能勝任這種大模型的高并發(fā)AP類業(yè)務(wù)的底座。
存量突出解決的場景就是針對密集計算的跟數(shù)據(jù)相關(guān)的大語言模型的交互。
第二個方向就是增量,這里面一個核心關(guān)鍵詞是合成數(shù)據(jù)。供給大模型的數(shù)據(jù)資源從哪里來?這里面涉及到非常多的場景,最早我們使用合同數(shù)據(jù)更多地是面向?qū)I(yè)領(lǐng)域的大模型微調(diào),需要有非常精準(zhǔn)的且合適的數(shù)據(jù)才能提供準(zhǔn)確的大模型服務(wù)。
Lora是一種常見的微調(diào)方法,它對輸入給模型的數(shù)據(jù)的要求也非常高。
我們?nèi)绾潍@取這種數(shù)據(jù)?比如做一個客服系統(tǒng),每家企業(yè)都有各自的產(chǎn)品手冊、規(guī)章制度,但是客戶會提什么樣的問題呢?傳統(tǒng)的方法是用人工標(biāo)注采集的方式去獲取這些Q&A,現(xiàn)在我們可以針對產(chǎn)品手冊的大模型來生成Q&A,這就是典型業(yè)務(wù)場景的合成數(shù)據(jù)。
那么lora的數(shù)據(jù)生成從哪里來?我們用不同版本的大模型去完成同樣問題的回答,他們的差異性就是權(quán)重分布,可以用來做精確的模型訓(xùn)練數(shù)據(jù)生成。
合成數(shù)據(jù)已經(jīng)開始從模型訓(xùn)練數(shù)據(jù)的生成到直接場景數(shù)據(jù)生成,大模型進(jìn)入到了數(shù)據(jù)飛輪效應(yīng),就像Robot讓我們看到的里程碑式技術(shù)是機(jī)器在供給自己,可以簡單類比理解一下,就是供給給機(jī)器訓(xùn)練所需要的數(shù)據(jù)就像汽車要加的油一樣,開始變成是自己生產(chǎn)出來的。
客觀說針對駕駛而言,一些極端災(zāi)害、路況交通事故是不可能通過大規(guī)模的路面采集獲取的。我們管它叫CoreData,CoreData是可以通過模型來生產(chǎn)的。現(xiàn)在我們在項(xiàng)目上就已經(jīng)開始交付合成數(shù)據(jù)數(shù)據(jù)集。
總結(jié)一下大模型和數(shù)據(jù)之間的關(guān)系,一個是在存量上,一個是在增量上。關(guān)于存量,我們關(guān)注到的核心技術(shù)是大模型to DB,它來解決如何跟上萬張表的、高價值密度的企業(yè)數(shù)據(jù)庫里的數(shù)據(jù)發(fā)生關(guān)系的問題;第二個是增量,他來解決如何持續(xù)的供給大模型,大模型的真正的算力出口在哪里,是提供一個服務(wù)還是提供一種新興的生產(chǎn)資料,供給我們更多的數(shù)據(jù)資源,也就是合成數(shù)據(jù)的概念。
近期非常引人注目的事件:OpenAI宣布終止對中國提供API服務(wù)。為了維護(hù)服務(wù)質(zhì)量和安全性,將采取額外措施來限制來自當(dāng)前不支持的國家和地區(qū)的API流量。
對國內(nèi)基于OpenAI的大模型所構(gòu)建的很多創(chuàng)業(yè)應(yīng)用生態(tài)無疑是一個巨大的打擊,兩個世界正在逐步脫鉤,越來越多的商業(yè)鏈條被切斷。這不僅僅發(fā)生在物理世界,也發(fā)生在數(shù)字世界的線上連接。與此同時,市場上還存在另外一種聲音,把這個信號看成一種巨大的機(jī)遇,剛好趁此機(jī)遇培養(yǎng)國內(nèi)的搜索引擎。
從“深藍(lán)”到AlphaGo,再到今天的ChatGPT,人工智能走過了符號主義的知識封裝,連接主義的知識學(xué)習(xí),和今天的生成式泛化表達(dá)能力開始參與到生產(chǎn)實(shí)踐。OpenAI的PPT式大模型作為人工智能的明星項(xiàng)目,我們聽到太多追捧的聲音,過度的神秘化和與之伴隨的自我矮化,加上7月9日關(guān)停面向大陸市場的API服務(wù)接口服務(wù),再次加重自我矮化且,失敗感撲面而來。
其實(shí)在北美市場,基礎(chǔ)大模型的發(fā)展已經(jīng)從單一模型訓(xùn)練Trainging發(fā)展為Serving多元化工業(yè)化基礎(chǔ)設(shè)施化。中國人工智能的發(fā)展如何擺脫依賴、實(shí)現(xiàn)優(yōu)勢破局和定義自己的生態(tài)位?這需要找到我們技術(shù)的獨(dú)特演進(jìn)路徑。
目前人工智能市場有兩條核心路徑,一種是無條件相信scalinglaw路徑,相信只要把數(shù)據(jù)喂進(jìn)去就會有涌現(xiàn)機(jī)制。用算力和數(shù)據(jù)堆積給已有的算法實(shí)踐Transformer,這種路徑就是在已知的知識結(jié)構(gòu)里去尋找未知拼接的方法,能力是有限的,就像在陸地上看著教科書學(xué)游泳一樣,一定會遇到模型基礎(chǔ)理論的天花板。在已知中組合篩選(條件概率)獲得的知識,只能是補(bǔ)齊現(xiàn)有的知識拼圖,例如通過大量的實(shí)驗(yàn)發(fā)現(xiàn)新的元素,可以補(bǔ)全門捷列夫發(fā)現(xiàn)元素周期表,但是不能誕生量子力學(xué)對基本粒子的理論和元素生成公式,更不可能產(chǎn)生牛頓的“加速度”阿拉伯?dāng)?shù)字“零和無窮大”這樣的觀念革命的知識。從學(xué)外語到學(xué)母語到建立認(rèn)知再到推理和邏輯的路徑完全不同。
谷歌、微軟、亞馬遜、HuggingFace等云廠商開始不再依賴單一大模型,而是跟更多的系統(tǒng)架構(gòu)配合,來組成一個務(wù)實(shí)的AGI的工程架構(gòu)。谷歌上個月發(fā)布的大模型成熟度參考架構(gòu),定義了從L0到L6 的分級,調(diào)用GPT直接使用單一大模型的能力僅僅是L0水平。加入提示詞工程,精調(diào)模型Lora的意圖理解,向量數(shù)據(jù)庫尋回私域數(shù)據(jù)的記憶,Agent規(guī)劃拆解,plugin執(zhí)行和反思等等,逐步完善大模型成熟度到更高等級。這是人工智能市場的第二條路徑。
可以這樣類比,大模型是西方發(fā)明的輪子,而今天中國已經(jīng)進(jìn)入了造車的時代。蒸汽機(jī)在英國誕生,但在北美被Nobody裝到木船上造就了輪船業(yè)的輝煌。中國人工智能的發(fā)展如何從重新發(fā)明輪子到快速引領(lǐng)智能產(chǎn)業(yè)的“造車運(yùn)動”,需要抓住基礎(chǔ)ABC問題本質(zhì),才能實(shí)現(xiàn)實(shí)現(xiàn)優(yōu)勢破局和定義自己的生態(tài)位。?
C算力——自力更生策略:硬件芯片是最早投入布局的,英偉達(dá)在生態(tài)的壟斷和貿(mào)易禁運(yùn),給了國產(chǎn)芯片獨(dú)立發(fā)展空間。
A算法——跟隨融合的纏斗策略:人工智能最底層核心邏輯是以數(shù)學(xué)的形態(tài)在論文上得以表達(dá),包括數(shù)據(jù)處理的方法和數(shù)據(jù)集。甚至實(shí)踐代碼都在以科學(xué)共享的形式爭相發(fā)表,科學(xué)無國界。為了更多的索引,論文往往會以最快的速度在跨國別的形式傳播。陸奇曾經(jīng)講過,我們從中關(guān)村到硅谷的距離是一個小時的時差。其實(shí)指的就是基礎(chǔ)算法層級和開源技術(shù)框架。數(shù)據(jù)科學(xué)家們?yōu)榱耸棺约旱难芯砍晒M快地發(fā)表,甚至跳過了像IEEE、CVPR大型頂會論文的審核機(jī)制,直接在arXiv網(wǎng)站上注冊發(fā)表,學(xué)術(shù)論文開始以天為單位在更新。打破中美科技壁壘的不是拿來主義的開源軟件套殼封裝,而是高索引引用的論文。論文不僅提供研究的方法路徑,依賴的基礎(chǔ)模型組件也提供了數(shù)據(jù)的流動,像指南一樣。
B數(shù)據(jù)——優(yōu)勢破局策略:硬件芯片所遵循的摩爾定律還是一個線性增長邏輯,但生成式合成數(shù)據(jù)遵循的卻是冪律指數(shù)型增長,只有抓住數(shù)據(jù)工程的冪律才能超越硬件的發(fā)展速度。
近日,前美軍四星上將加入了openAI董事會。毫無疑問他的崗位職責(zé)肯定不是指導(dǎo)研發(fā)的,那必定是瞄向兩年來OpenAI沉淀的提示數(shù)據(jù)。我們和大模型對話的內(nèi)容蘊(yùn)含大量的信息,據(jù)SBS等韓媒報道:三星剛引入ChatGPT還不到20 天,就發(fā)生了3起機(jī)密數(shù)據(jù)泄漏事件,其中涉及三星半導(dǎo)體設(shè)備測量資料、產(chǎn)品良率等信息。
問題往往會導(dǎo)向答案,獲得信息的過程本身也是信息。無獨(dú)有偶,近期,英偉達(dá)發(fā)布大模型一下子擠到第一陣營,為什么?英偉達(dá)沒講算力而是將重點(diǎn)放在了核心數(shù)據(jù)的介紹上,其模型訓(xùn)練使用了98%是合成數(shù)據(jù),是機(jī)器生產(chǎn)模型生產(chǎn)的數(shù)據(jù)。
如何讓國內(nèi)AI領(lǐng)跑世界是一道綜合考題,但歸根結(jié)底必須從骨髓里就是硬核科技企業(yè)。在產(chǎn)品線上,不能拿來主義,不能被卡脖子,不能有明顯的短板而且要有顯著的長板,才有肯能在國際競爭中跑出來。此外,外部環(huán)境對于技術(shù)成長、人才培養(yǎng)、產(chǎn)業(yè)生態(tài)的形成也很關(guān)鍵,不單是一家企業(yè)的事,也需要政府、生態(tài)共同去匹配發(fā)展的進(jìn)程。
人才破局:相關(guān)數(shù)據(jù)顯示,2023年就業(yè)形勢嚴(yán)峻,失業(yè)8700萬,畢業(yè)1158萬,是讓普通人是無工作還是讓這些人群進(jìn)入新技能藍(lán)海?政府應(yīng)該提早布局AI版的“藍(lán)翔技校”。AIGC內(nèi)容生產(chǎn),培養(yǎng)新技能藍(lán)領(lǐng)改變算法生成的猜盲盒過程,打造人機(jī)交互的流水線。
產(chǎn)業(yè)鏈破局:AI Pin、?Vision Pro等可穿戴的個人智能代理Personal Agent的出現(xiàn),F(xiàn)igure具身機(jī)器人的探索,這些EdgeAI的新興都需要整合全新的智能硬件產(chǎn)業(yè)鏈。AI pin融合了電容觸摸、HUD、手勢識別、數(shù)模喚醒等成熟的硬件技術(shù),大模型服務(wù)的載體,可以發(fā)揮中國全產(chǎn)業(yè)鏈精密制造的優(yōu)勢,快速跨界發(fā)明迭代一批GenAI的智能硬件。要想推動產(chǎn)業(yè)變革,實(shí)現(xiàn)產(chǎn)業(yè)組織的深刻調(diào)整,政府部門、教育機(jī)構(gòu)、高校研究機(jī)構(gòu)的角色和商業(yè)必須要發(fā)生一些變化。
就政府角色而言,充分發(fā)揮產(chǎn)業(yè)園區(qū)的優(yōu)勢,把企業(yè)、高校、科研院所等創(chuàng)新資源產(chǎn)業(yè)鏈上下游“整合”在一起,協(xié)同攻關(guān)科技難題。
]]>MaaS模型數(shù)據(jù)市場,是天云數(shù)據(jù)為了進(jìn)一步推動AI技術(shù)普及和應(yīng)用創(chuàng)新發(fā)展而構(gòu)建的一個綜合性平臺,為用戶提供了一個便捷的渠道,輕松地獲取、購買和部署各種預(yù)訓(xùn)練的AI模型,同時也為模型開發(fā)者提供了一個展示和銷售模型的平臺。
MaaS模型數(shù)據(jù)市場上,涵蓋了從圖像識別、自然語言處理、語音識別到預(yù)測分析等多個領(lǐng)域,能夠滿足不同行業(yè)和場景的應(yīng)用需求。首先,用戶可以根據(jù)自己的需求,采購合適的模型;其次,省去模型用戶從零開始訓(xùn)練時間和計算資源,直接將模型集成到自己的產(chǎn)品和服務(wù)中,加快模型創(chuàng)新的速度。
MaaS模型數(shù)據(jù)市場還為模型開發(fā)者提供了一個廣闊的展示和銷售空間,開發(fā)者將訓(xùn)練好的模型上架到市場,通過平臺的流量和影響力讓更多的潛在用戶了解并實(shí)現(xiàn)知識的商業(yè)化。與此同時,模型市場還為開發(fā)者提供了工具和服務(wù),幫助他們更好地管理和優(yōu)化自己的模型,提高模型的性能和可靠性。
生態(tài)建設(shè)也是天云數(shù)據(jù)的MaaS模型數(shù)據(jù)市場的使命之一,鼓勵開發(fā)者之間的合作和交流,減少重復(fù)勞動推動模型的共享和復(fù)用,提高行業(yè)的研發(fā)效率。
]]>