7月13日,第二十六屆中國北京國際科技產業博覽會(簡稱北京科博會)在國家會議中心開幕。本屆科博會年度主題為“實施創新驅動發展戰略 增強高質量發展動能”。會上,天云數據CEO雷濤發表《人工智能技術服務數字資產建設》主題演講。
近期非常引人注目的事件:OpenAI宣布終止對中國提供API服務。為了維護服務質量和安全性,將采取額外措施來限制來自當前不支持的國家和地區的API流量。
對國內基于OpenAI的大模型所構建的很多創業應用生態無疑是一個巨大的打擊,兩個世界正在逐步脫鉤,越來越多的商業鏈條被切斷。這不僅僅發生在物理世界,也發生在數字世界的線上連接。與此同時,市場上還存在另外一種聲音,把這個信號看成一種巨大的機遇,剛好趁此機遇培養國內的搜索引擎。
從“深藍”到AlphaGo,再到今天的ChatGPT,人工智能走過了符號主義的知識封裝,連接主義的知識學習,和今天的生成式泛化表達能力開始參與到生產實踐。OpenAI的PPT式大模型作為人工智能的明星項目,我們聽到太多追捧的聲音,過度的神秘化和與之伴隨的自我矮化,加上7月9日關停面向大陸市場的API服務接口服務,再次加重自我矮化且,失敗感撲面而來。
其實在北美市場,基礎大模型的發展已經從單一模型訓練Trainging發展為Serving多元化工業化基礎設施化。中國人工智能的發展如何擺脫依賴、實現優勢破局和定義自己的生態位?這需要找到我們技術的獨特演進路徑。
目前人工智能市場有兩條核心路徑,一種是無條件相信scalinglaw路徑,相信只要把數據喂進去就會有涌現機制。用算力和數據堆積給已有的算法實踐Transformer,這種路徑就是在已知的知識結構里去尋找未知拼接的方法,能力是有限的,就像在陸地上看著教科書學游泳一樣,一定會遇到模型基礎理論的天花板。在已知中組合篩選(條件概率)獲得的知識,只能是補齊現有的知識拼圖,例如通過大量的實驗發現新的元素,可以補全門捷列夫發現元素周期表,但是不能誕生量子力學對基本粒子的理論和元素生成公式,更不可能產生牛頓的“加速度”阿拉伯數字“零和無窮大”這樣的觀念革命的知識。從學外語到學母語到建立認知再到推理和邏輯的路徑完全不同。
谷歌、微軟、亞馬遜、HuggingFace等云廠商開始不再依賴單一大模型,而是跟更多的系統架構配合,來組成一個務實的AGI的工程架構。谷歌上個月發布的大模型成熟度參考架構,定義了從L0到L6 的分級,調用GPT直接使用單一大模型的能力僅僅是L0水平。加入提示詞工程,精調模型Lora的意圖理解,向量數據庫尋回私域數據的記憶,Agent規劃拆解,plugin執行和反思等等,逐步完善大模型成熟度到更高等級。這是人工智能市場的第二條路徑。
可以這樣類比,大模型是西方發明的輪子,而今天中國已經進入了造車的時代。蒸汽機在英國誕生,但在北美被Nobody裝到木船上造就了輪船業的輝煌。中國人工智能的發展如何從重新發明輪子到快速引領智能產業的“造車運動”,需要抓住基礎ABC問題本質,才能實現實現優勢破局和定義自己的生態位。?
C算力——自力更生策略:硬件芯片是最早投入布局的,英偉達在生態的壟斷和貿易禁運,給了國產芯片獨立發展空間。
A算法——跟隨融合的纏斗策略:人工智能最底層核心邏輯是以數學的形態在論文上得以表達,包括數據處理的方法和數據集。甚至實踐代碼都在以科學共享的形式爭相發表,科學無國界。為了更多的索引,論文往往會以最快的速度在跨國別的形式傳播。陸奇曾經講過,我們從中關村到硅谷的距離是一個小時的時差。其實指的就是基礎算法層級和開源技術框架。數據科學家們為了使自己的研究成果盡快地發表,甚至跳過了像IEEE、CVPR大型頂會論文的審核機制,直接在arXiv網站上注冊發表,學術論文開始以天為單位在更新。打破中美科技壁壘的不是拿來主義的開源軟件套殼封裝,而是高索引引用的論文。論文不僅提供研究的方法路徑,依賴的基礎模型組件也提供了數據的流動,像指南一樣。
B數據——優勢破局策略:硬件芯片所遵循的摩爾定律還是一個線性增長邏輯,但生成式合成數據遵循的卻是冪律指數型增長,只有抓住數據工程的冪律才能超越硬件的發展速度。
近日,前美軍四星上將加入了openAI董事會。毫無疑問他的崗位職責肯定不是指導研發的,那必定是瞄向兩年來OpenAI沉淀的提示數據。我們和大模型對話的內容蘊含大量的信息,據SBS等韓媒報道:三星剛引入ChatGPT還不到20 天,就發生了3起機密數據泄漏事件,其中涉及三星半導體設備測量資料、產品良率等信息。
問題往往會導向答案,獲得信息的過程本身也是信息。無獨有偶,近期,英偉達發布大模型一下子擠到第一陣營,為什么?英偉達沒講算力而是將重點放在了核心數據的介紹上,其模型訓練使用了98%是合成數據,是機器生產模型生產的數據。
如何讓國內AI領跑世界是一道綜合考題,但歸根結底必須從骨髓里就是硬核科技企業。在產品線上,不能拿來主義,不能被卡脖子,不能有明顯的短板而且要有顯著的長板,才有肯能在國際競爭中跑出來。此外,外部環境對于技術成長、人才培養、產業生態的形成也很關鍵,不單是一家企業的事,也需要政府、生態共同去匹配發展的進程。
人才破局:相關數據顯示,2023年就業形勢嚴峻,失業8700萬,畢業1158萬,是讓普通人是無工作還是讓這些人群進入新技能藍海?政府應該提早布局AI版的“藍翔技?!薄IGC內容生產,培養新技能藍領改變算法生成的猜盲盒過程,打造人機交互的流水線。
產業鏈破局:AI Pin、?Vision Pro等可穿戴的個人智能代理Personal Agent的出現,Figure具身機器人的探索,這些EdgeAI的新興都需要整合全新的智能硬件產業鏈。AI pin融合了電容觸摸、HUD、手勢識別、數模喚醒等成熟的硬件技術,大模型服務的載體,可以發揮中國全產業鏈精密制造的優勢,快速跨界發明迭代一批GenAI的智能硬件。要想推動產業變革,實現產業組織的深刻調整,政府部門、教育機構、高校研究機構的角色和商業必須要發生一些變化。
就政府角色而言,充分發揮產業園區的優勢,把企業、高校、科研院所等創新資源產業鏈上下游“整合”在一起,協同攻關科技難題。