今年5月,由北京市科協和北京市委網信辦指導,北京科技記者編輯協會聯合有關單位共同發布“科學”流言榜中的“二維碼還能用多久”引發社會公眾關注。如今在我們的生活中,二維碼隨處可見。信息獲取、網站跳轉、優惠促銷、結賬支付……一掃二維碼全部搞定。近期網上突然出現了這樣一種說法,說是“據不完全統計,二維碼每天的全球使用量高達100億個,所以很快就會被用完”。這是真的嗎?二維碼到底是如何產生的?它有多少種版本?人類真的有一天會把二維碼用光嗎?
天云數據CEO、北京科技記者編輯協會推薦協會理事、吳文俊人工智能科學技術獎獲得者雷濤接受中央電視臺采訪,為公眾答疑解惑,在新聞頻道《共同關注》欄目播出。
附采訪實錄:
問:什么是二維碼,以及二維碼是怎么出現的?
雷濤:二維碼的普及讓我們看到的一個非常成功的界面,這個界面是我們人和數字世界的一種連接。它的本質是一個服務的入口,我們通過掃描二維碼可以訪問數字世界里提供的大量服務。比如說掃碼支付,替代了使用現金服務;比如博物館里的畫,本是靜態的,但只要旁邊放上一個二維碼,我們通過掃描這個二維碼,就可以了解畫背后的一系列內容。所以二維碼它事實上是我們人和數字世界的橋梁,它的本質是一個標識,帶領我們找到相應的信息、相應的服務。無論是支付服務還是一個文件信息,亦或是一段代碼,乃至一個鏈接入口、一個網站,通過二維碼這個標識都可以到達。
問:是什么原因讓二維碼這個需求呈幾何級的增長?相信大家都有這種感受,幾年前我們還在用錢包、現金、用信用卡,現在幾乎就是一個手機可以走遍天下的感覺。
雷濤:二維碼的便利本質是服務能力下沉。我國的人口紅利決定了如果我們要滿足個性化服務,服務種類就會非常多,很難再用門戶的方式去連接數字化的世界。不管是PC還是手機APP的連接,都給了我們很多場景性服務的需要,輔助我們獲取數字世界的信息。這也是幾何級增長的原因。這些服務的入口需要通過一個簡單且唯一的標識,這就是二維碼。二維碼就像給人起名字一樣,我們也給服務起一個“名字”。這些數字里零零總總的多樣性服務,都有一個標識的“名字”,我們在場景里可以通過“名字”找到服務。
問:那二維碼是怎么演進來的?二維碼和商品交易上掃碼條形碼即一維碼的區別是什么?
雷濤:在我們這個時代,條形碼屬于規格化的行業標準,便于商家做商品的分類選擇。因此它有一套自己的協議,方便于控制生產流程的控制。但即使一個大超市,種類很齊全,大概就是幾千個SKU的品類,所以條形碼所覆蓋的數量是有限的。
二維碼是用數學的方法引入了隨機性,通過像素的排列組合可以使二維碼的體量更大。而且二維碼不需要去定義,就能能夠去掉條形碼上供應商、產地這些物理意義。通過隨機的像素組合來表達唯一性就夠了,通過唯一性導向后臺提供的實質性服務。就像IP地址一樣,沒有任何物理意義,通過DNS再解析到網址。
問:所以可以說二維碼是條形碼升級版嗎?
雷濤:可以這么理解。二維碼是數字世界標識的一次全面革新。
問:“科學”流言榜的流言提到:據不完全統計,二維碼每天的全球使用量高達100多億。所以,二維碼很快就會被用完。我們有一個數據,說微信三個月內可以用掉一千四百億個二維碼,雖然不確定數據的準確性,但聽上去很恐怖,二維碼是否會用盡?
雷濤:二維碼最高像素可以做到177×177,那意味著什么呢?意味著102oooo (個),這個體量是非常大的,但是它并不是靠這個體量來支撐,因為我們沒有必要做這么一個精細的177×177的二維碼,我的結論是二維碼不會用盡。剛才說的一千四百億,才是10的13次,如果是102oooo (個),這個體量不可想像。但二維碼并不是靠這個體量來支撐,我們也沒有必要做這么一個精細的177×177的二維碼,二維碼不像IP地址一樣有全局性。
二維碼有兩個特點,第一個是實時特性,第二個是時空特性。因為二維碼支撐地是我們跟數字世界服務的連接,這個服務都是個性化的,往往都跟空間屬性相關。也就是說,我在北京區域使用二維碼,生成一個二維碼;你在深圳區域使用二維碼,再生成一個二維碼:它不需要像IP地址一樣,需要一個全局屬性的時間戳。二維碼沒有那么強的全局性,所以在北京用使用的二維碼和我在深圳使用的二維碼重復了,其實對服務沒有產生太大影響。除非是互聯網的特性,服務本身是跨區域的。首先,二維碼的服務多數是本地化的;其次,使用的二維碼本身的服務具有時效性,最重要的,已經過期的二維碼可以再重復使用。
問:這個觀點和我們看到的說法不太一樣,市場上說二維碼它實際上是有一個總數在那兒的。它有一個確切的數值,但是由于我們人類存在的時間比較短暫,就算用,可能也是用不完,但實際上它是有一個上限的。
雷濤:我們要知道二維碼不是一個應用,它是一個標識。就像人類起名字一樣,每個人有他一個獨特的名字。這些方便于我們在社會連接時使用,就像我其實并不介意跟我同名同姓的人,首先他可能處在不同的領域空間里我們毫無交集,縱使我們在空間上有交集他不影響我跟身邊的群的溝通,大家還有身份標簽還有其他各種社會性標簽在,可以進行區分。
英國牛津大學的人類學家羅賓·鄧巴根據猿猴的智力與社交網絡提出:受大腦皮層有限性的限制,人類智力允許其擁有的穩定社交關系最大人數是148人,四舍五入后是150人,這就是著名的鄧巴數。但是互聯網出現極大的擴展了我們的連接屬性,比如一些權威的kol、知名網紅,他的標識就是不能重復的標識。
從這個角度來講,二維碼是遠遠不夠的,不僅是數量,還有形式。名字是對我們個體的標識,而二維碼是對我們人和數字世界連接這種服務所采用的標識。進入智能化社會。數字世界的服務不僅要連接人,更要連接物,還有物與物的鏈接。隨著IoT更多的設備,那就不見得都需要有一個獨特的命名,也就是我們需要為每一個需要數字化的物體命名。比如工業里要完成電池質檢,需要回溯190多道工序中每一粒電池,數字世界中的信息系統需要識別每一粒電池,就像我們人類起名字一樣分配每一粒電池一個標識,一天的增量是1000億,這大概是我們地球10億年來所有人類的名字總和,而這些名字的人有92%來到這里又離開了這個星球。
如果都要記住這些事物的名字,那會很困擾我們。事實上,我們是不需要記住身邊所有物體在數字世界中的名字的。很多二維碼會逐步淡出我們與數字世界的溝通,因為服務會更為多樣,之前二維碼連接的是數字世界中的一個應用,它是以代碼形式存在的。而今天隨著人工智能等新興技術的出現,代碼和我們大量的數據結合形成新的智能體,智能體可以人類更容易接受的更自然的方式與人類交互。比如聊天機器人robots智能體會基于人類的意圖判斷來路由至不同的功能執行器。也就是說智能體會替代我們去記錄,這些繁雜冗余的名字。那他會用一種更簡單的形式來記錄,也就是我們常用的隨機數,而不需要使用二維碼這樣需要復雜處理的圖像信號標識。而我們需要命名的也不僅僅是物體,還有這些things的所有行為。每一個智能體的行為也需要一個獨特的命名標識,這會產生更為龐大的幾何級數增長的數據規模,也就是我們的標識空間會更為龐大,但不用擔心這些。我們可以引入量子隨機來產生一個更大規模的隨機數去完成每一個物和每一個行為的獨特標識。
問:您能談一談二維碼的安全性問題
雷濤:二維碼本身是黑白的馬賽克拼接,在人類的視覺系統里是沒有辦法分辨出它所背后帶來服務的真假。就像起名字,李逵和李鬼都可以叫二維碼,因為二維碼本身是一個服務標識而已。因此服務本身的強安全屬性由‘誰掃碼誰獲取’,此外他有雙向認證的鑒別機制,服務是在二維碼所連接的兩者之間完成的。我們從一些支付平臺掃碼就有一個唯一標識,然后這個標識會在二維碼背后的服務主體上再去做二次確認。
問:如果說這二維碼真用完了,將來有更高技術出來了,會把它取代嗎?
雷濤:那一定的。我相信二維碼被替代是一個必然。事實上,我們不用擔心二維碼是不是會被用完,有一天二維碼退出我們人類視野不是因為它的數量不足,而是它的鏈接形式會被高階的服務替代。我們和數字世界的連接和交互會以更自然的方式進行,今天GPT大語言模型,用對話的形式連接服務,而且這也僅僅是開始。
語言的效率也很低,一維線性的文字,每秒幾個音符比特信息的發音很低效。Figure具身智能機器人已經可以用跨模態處理聲音視覺和空間感知,使用的是人類全新的隱式表達方式,是萬億參數空間在神經網絡上的分布,遠比數百像素排列組合出的二維碼圖像高級。我們在未來數字世界的生存,會有更多像二維碼這樣的過渡事物出現和消失,社會會向更文明的方向進步。文明讓我們懂得命名人,命名物,命名事件,再彼此連接和協作,創造更大規模的協同。
隨著IOT物聯網的進入,我們需要有更多的標識分配給不僅僅是服務本身,還要分配給我們身邊的物體、資源,甚至于這些物體、資源所產生的一系列的行為。這些數量更龐大,我怎么去標識?這個時候二維碼肯定做不到啊。那么在數據庫里如何分配這些標識,也就是這些數字標識服務于誰?現在二維碼是介于我們人和數字世界之間的一個連接,但未來更多的我們人會用一種更內原生的方式跟數字世界交流。比如我們的語言,我們現在有GPT這樣的聊天機器人,它可以代表一個智能體去跟數字世界人和物去做溝通,依然還需要標識但一定不是二維碼。
就像我們剛才說的數據,一天一千四百億,這么大體量的話,我們通常信息化手段是引用隨機數來生成一個隨機標識,就不再是正經八百起一個名字了,而是用隨機數。但隨機的算法也是有窮盡的,我們叫偽隨機。
標識用盡是一個“焦慮”話題,畢竟互聯網經歷過IPv4到IPv6的折騰。面向萬物互聯的智能時代,不僅僅是手機電腦需要標識,每一粒電池,每一顆LED都需要標識來支撐數字化運行,數智化空間需要更龐大的命名機制和空間。傳統信息化是基于操作系統的隨機函數(dev/urandom)生成一個唯一ID標識UUID,但今天數據庫記錄已經步入萬億級別,隨機函數分配的ID不得已循環使用,重名則會帶來復雜業務邏輯錯誤。天云提早布局,基于量子光柵二相的隨機性產生巨大隨機數,確保庫表內為每一行記錄標識的絕對唯一,并已經內嵌于數據庫內函數,來代替操作系統偽隨機UUID,SQL程序員可以直接調用量子隨機來增刪記錄。不僅僅是數據庫記錄標識,roadmap也考慮分布式數據庫的shading切片策略引入量子隨機數,天云Hubble數據庫是首個引入量子計算的國產信創數據庫,以上已經申請專利保護。
問:人臉識別技術算不算是二維碼技術的一種升級?
雷濤:這是一個很好的表達,但其實人臉識別技術和二維碼技術不能對標在一個概念上。
二維碼更像是一個人的名字一樣,人臉識別是對人類面孔、形態的一種表示方法。以前人類的表示方法是文字、公式、語言,我通過語言去描述一個人的面孔,但是面孔細節的差異性,我們用人類的簡單的語言體系是沒法去窮盡的。人臉識別背后的核心是神經網絡,神經網絡做了一次表達的升級,它可以用十幾億、幾十億、上萬億的參數去描述語言所不能夠涵蓋的信息,這個背后的技術叫卷積神經網絡。在早期的人臉識別,通過對個人像素照片做池化特征抽取,上下左右像素的連接狀態特征表達,通過這樣一個空間去記錄了人臉的全部信息。我們通過對文本語言文字之間上下左右、前后順序的表達,是時間序列的表達。因此我們就可以把人類的知識抽象出來,這也就是大模型技術。所以人臉識別是一種表達能力,而二維碼是一種標識技術。
問:我們在應用中經常要刷新二維碼,否則二維碼就過期了,這又是為什么?是一種安全的考慮?這個過期的這個二維碼就作廢了?當下廢掉的這個二維碼是否還會被重新使用?
雷濤:在服務的體系里頭,這個二維碼就過期了。但這個概念并不是對二維碼本身的,而是對應這個二維碼背后的服務。因為二維碼只是連接我們與那個服務之間的一個標識。
問:所以說這個玄機不在二維碼本身,而在于掃完之后的服務?
雷濤:二維碼只是一個路標而已,它要連接后面的服務,指向了一個我們所需要的個性化服務。在數字世界,個性化服務越來越多越來。大家接觸最多的是支付,
我們擁抱數字世界的越來越緊密,數字化服務的滲透和影響就越來越深,我們更多地希望個體會被關注,我們希望有個性化的服務來服務自己。因此國內的互聯網的繁榮,其實二維碼只是導向個性化服務的一種方式,因此也會有一些限制。
問:您覺得二維碼服務會萎縮嗎?
雷濤:我自己的看法二維碼會逐漸淡出我們的視野,核心是它的形式。如果說二維碼的繁榮跟我們的消費習慣有關系,那么二=二維碼淡出我們的視野跟我們的消費習慣就沒有關系了。我們會接觸到更多的智能物體,這些會開始產生新的標識方法,到時候我們就會需要一個新的代理來讓我們跟這些智能世界做交流,我們溝通的方式會通過一個個代理來完成。
智能體跟數字世界產生更多的連接,它就會產生一種新的表示方法。就像我剛才說的,引用量子隨機來完成對更多事物的唯一標識描述,也就是我們所處理的界面會因為我們所要連接的對象發生變化,我們不再直接獲取服務,而是通過我們的個人助理來獲取更多服務的時候,二維碼一定會退出我們連接的視野。
此外,隨著越來越多的智能設備出現,就像我們從瀏覽器走到Apps再走到現在的掃碼入口,它會有更多更直接更本質性的連接方法。
問:二維碼的普及可以說是用戶用腳投票選出來的,這和它的低成本、便捷直接相關,為什么二維碼可以做到這樣?二維碼的專利在誰手上啊,它的源頭在哪里?
雷濤:二維碼就是一個隨機生成數的圖片,一臺服務器可以成百上千萬地去快速生產二維碼。
二維碼是數字序列的排列組合,并沒有像藝術創造一樣有版權,這也是數字世界和工業世界很本質的一個區別。數字世界追求共享的循環螺旋上升,而工業社會為了保護專利發明會有一套體系化的方法。
在數字世界里強調連接、強調共享,所以在信息社會服務里最核心的是算法。比如大模型所使用后臺的transformer,就好比人臉識別的卷積神經網絡,它都是以科學論文的形式在整個產業界做分享和創造的。所以我們感謝科學家,他為我們創造了數字化世界里里程碑式的財富。這些財富往往會被后人以更大的貢獻、成就所導引推動,會繼續運用起來,不會像工業時代一樣用版權去限制它。