]]>
活动邀请CCDI广电云规划专家、宝联科技创始人 席利宝、天云融创数据科技(北京)有限公司CEO 雷涛、中国传媒大学人工智能系副教授 陶竹林、中国科学报社原副总编辑、《医学科学报》总编辑 张明伟分别作主题报告。
席利宝表示AI是新时代的新质生产力,AI高质量发展从能源+算力+算法+数据+网络+安全都需要协同;广电在AI时代应该紧握机会,塑造数字经济中的独特优势,CCDI项目将对中国广电发展起到样板和示范作用;未来已来,中国广电作为文化数字化国家队、主力军和排头兵,当仁不让为数字经济发展注入动能,为中国特色的新型算力事业贡献力量,为网络强国、数字中国建设提供强有力的支撑。
雷涛就“无真相,无共识”这个话题发表了自己的观点,他认为在这个碎片化信息时代,信息溯源和取证有待考证;此外,信息背景、知识背景、文化背景、逻辑判断都难以让人类达成共识。人工智能走到今天,争论与分歧始终如影随形,可以说AI的命运,正是在这些争议与分歧中找到了真正的边界与可能性,满足了不确定时代不确定人群确定性的需求。此外雷涛从新闻生产速度、新闻语境共鸣、AI组织的思维链观点流做了内容阐述,并分享了AI自动“拍摄”的宏大场面、AI自动生成多场景剧情丰富的电影剧情、AI森林巧克力广告片、短剧自动完成中文转英语韩语日语等实践效果。重点推出了面向媒体的产品——AI采访助手,该产品能实现数小时音/视频自动解析;多人对话自动区分发言人、汇总发言观点;此外可以通过“你问我答”的相识,精准定位关键内容和视频片段,无需反复观看视频便快速定位采访对象重点发言内容;最后,还可以多形态素材输出,轻松复制文字素材或下载新合成的视频素材。
陶竹林表示未来媒体即智能媒体,既要坚守内容的真实与价值,也要以创新引领时代变革。AI技术正在深刻重塑媒体生态,从精准内容生成到智能传播路径优化,为行业赋能无限可能。守正,是坚守媒体的社会责任与传播伦理;创新,是运用AI等新技术推动媒体形态的升级与进化。拥抱AI,就是拥抱媒体的未来,它不仅是工具,更是智能时代的必然选择。以技术为翼,守住初心,未来的智能媒体将更高效、更智慧、更有温度。
张明伟介绍了中国科学报社开发出的“小柯”论文新闻写作机器人的相关情况。他认为,将人工智能运用到科学新闻写作能够有效满足科研人员更好了解国际前沿科研进展的需求,也能为科学传播工作者提供初步选题线索。他建议媒体开发人工智能产品时要瞄准用户需求,善于借用外力,大胆拥抱新技术。
在过去一年您的机构的实践中,大语言模型在哪些场景上落地取得了成功?
您问题的核心在大语言模型,其实在基模(基础模型)上,市场已经在第二代视觉多模态大模型和第三代空间认知大模型上取得了非常大的成果和突破。
当然,大语言模型是知识的容器,在整个流水线中扮演非常关键的位置,可以有效地处理视觉和空间感知的多维信号扩展人类的融合认知。
咱们现场举例,就今天的采访视频,我们要如何去编辑处理?还是传统的定位到每一帧每一秒去剪辑?大语言模型在多模态在空间认知上取得了非常大的一个成果,已经可以基于语言模型抽象出每一个嘉宾的核心观点,还可以基于内容选择,所见、所选及所得,把劳动力从重复性的工作中解放出来,实现场景式理解视频内容。
Agent、RAG、GraphRAG,新大模型生态链技术层出不穷,在未来发展中,您看好哪些新的发展方向?它们会如何在资管领域取得应用?
针对这个问题,我想先谈一下大模型和数据的关系。因为我们天云数据本身就同时做数据供给侧的混合负载数据库和数据消费侧的机器学习平台。
那么,为什么我们要关注大模型和数据?
这个可以从存量和增量两个方向上去看:存量是这两年的主流,就是把已有的知识做知识封装和知识移动,一种端到端的训练方法;增量是用RAG、用向量数据库外挂在模型之上,将增量的信息全部训练进去,我们去年在ITL发布的证券法规助手就是这种方法。现在的企业数据,不仅仅只有文档、手册这些静态的科技文献内容,更多的是流动的、数据价值密度更高的信息,这些是存在数据库里的。
针对存量的一个核心关键词就是大模型to DB,也就是我们怎么对高价值密度的数据,在不用精密地组织语言的同时,还能作出准确数字类问题的回答,比如客服里的定价问题、价格交易等问题。
我们服务于券商的数字人,播报的内容是来自于实时交易系统的数据和研报文本内容的结合。针对这样的场景,就需要把大模型的模糊意图匹配和精确的SQL操作形成连接。这种连接不是一对一的,面涉及到非常复杂的工程技术。如何保证像ASR语音识别这些机器学习模型回答一个准确的答案?比如现在的销量是多少,是产品的销量还是区域的销量。像这样模糊的意图匹配,怎么和数据库里精确的字段完成匹配?在后台,需要准备大量的密集计算操作。传统的MPP数据库是没有并发能力的,可能只能支撑一句话十几个token的内容。但高并发任务,成百上千个宽表的OLAP执行对数据基础设施的要求非常高,只有HTAP数据库能胜任这种大模型的高并发AP类业务的底座。
存量突出解决的场景就是针对密集计算的跟数据相关的大语言模型的交互。
第二个方向就是增量,这里面一个核心关键词是合成数据。供给大模型的数据资源从哪里来?这里面涉及到非常多的场景,最早我们使用合同数据更多地是面向专业领域的大模型微调,需要有非常精准的且合适的数据才能提供准确的大模型服务。
Lora是一种常见的微调方法,它对输入给模型的数据的要求也非常高。
我们如何获取这种数据?比如做一个客服系统,每家企业都有各自的产品手册、规章制度,但是客户会提什么样的问题呢?传统的方法是用人工标注采集的方式去获取这些Q&A,现在我们可以针对产品手册的大模型来生成Q&A,这就是典型业务场景的合成数据。
那么lora的数据生成从哪里来?我们用不同版本的大模型去完成同样问题的回答,他们的差异性就是权重分布,可以用来做精确的模型训练数据生成。
合成数据已经开始从模型训练数据的生成到直接场景数据生成,大模型进入到了数据飞轮效应,就像Robot让我们看到的里程碑式技术是机器在供给自己,可以简单类比理解一下,就是供给给机器训练所需要的数据就像汽车要加的油一样,开始变成是自己生产出来的。
客观说针对驾驶而言,一些极端灾害、路况交通事故是不可能通过大规模的路面采集获取的。我们管它叫CoreData,CoreData是可以通过模型来生产的。现在我们在项目上就已经开始交付合成数据数据集。
总结一下大模型和数据之间的关系,一个是在存量上,一个是在增量上。关于存量,我们关注到的核心技术是大模型to DB,它来解决如何跟上万张表的、高价值密度的企业数据库里的数据发生关系的问题;第二个是增量,他来解决如何持续的供给大模型,大模型的真正的算力出口在哪里,是提供一个服务还是提供一种新兴的生产资料,供给我们更多的数据资源,也就是合成数据的概念。
近期非常引人注目的事件:OpenAI宣布终止对中国提供API服务。为了维护服务质量和安全性,将采取额外措施来限制来自当前不支持的国家和地区的API流量。
对国内基于OpenAI的大模型所构建的很多创业应用生态无疑是一个巨大的打击,两个世界正在逐步脱钩,越来越多的商业链条被切断。这不仅仅发生在物理世界,也发生在数字世界的线上连接。与此同时,市场上还存在另外一种声音,把这个信号看成一种巨大的机遇,刚好趁此机遇培养国内的搜索引擎。
从“深蓝”到AlphaGo,再到今天的ChatGPT,人工智能走过了符号主义的知识封装,连接主义的知识学习,和今天的生成式泛化表达能力开始参与到生产实践。OpenAI的PPT式大模型作为人工智能的明星项目,我们听到太多追捧的声音,过度的神秘化和与之伴随的自我矮化,加上7月9日关停面向大陆市场的API服务接口服务,再次加重自我矮化且,失败感扑面而来。
其实在北美市场,基础大模型的发展已经从单一模型训练Trainging发展为Serving多元化工业化基础设施化。中国人工智能的发展如何摆脱依赖、实现优势破局和定义自己的生态位?这需要找到我们技术的独特演进路径。
目前人工智能市场有两条核心路径,一种是无条件相信scalinglaw路径,相信只要把数据喂进去就会有涌现机制。用算力和数据堆积给已有的算法实践Transformer,这种路径就是在已知的知识结构里去寻找未知拼接的方法,能力是有限的,就像在陆地上看着教科书学游泳一样,一定会遇到模型基础理论的天花板。在已知中组合筛选(条件概率)获得的知识,只能是补齐现有的知识拼图,例如通过大量的实验发现新的元素,可以补全门捷列夫发现元素周期表,但是不能诞生量子力学对基本粒子的理论和元素生成公式,更不可能产生牛顿的“加速度”阿拉伯数字“零和无穷大”这样的观念革命的知识。从学外语到学母语到建立认知再到推理和逻辑的路径完全不同。
谷歌、微软、亚马逊、HuggingFace等云厂商开始不再依赖单一大模型,而是跟更多的系统架构配合,来组成一个务实的AGI的工程架构。谷歌上个月发布的大模型成熟度参考架构,定义了从L0到L6 的分级,调用GPT直接使用单一大模型的能力仅仅是L0水平。加入提示词工程,精调模型Lora的意图理解,向量数据库寻回私域数据的记忆,Agent规划拆解,plugin执行和反思等等,逐步完善大模型成熟度到更高等级。这是人工智能市场的第二条路径。
可以这样类比,大模型是西方发明的轮子,而今天中国已经进入了造车的时代。蒸汽机在英国诞生,但在北美被Nobody装到木船上造就了轮船业的辉煌。中国人工智能的发展如何从重新发明轮子到快速引领智能产业的“造车运动”,需要抓住基础ABC问题本质,才能实现实现优势破局和定义自己的生态位。
C算力——自力更生策略:硬件芯片是最早投入布局的,英伟达在生态的垄断和贸易禁运,给了国产芯片独立发展空间。
A算法——跟随融合的缠斗策略:人工智能最底层核心逻辑是以数学的形态在论文上得以表达,包括数据处理的方法和数据集。甚至实践代码都在以科学共享的形式争相发表,科学无国界。为了更多的索引,论文往往会以最快的速度在跨国别的形式传播。陆奇曾经讲过,我们从中关村到硅谷的距离是一个小时的时差。其实指的就是基础算法层级和开源技术框架。数据科学家们为了使自己的研究成果尽快地发表,甚至跳过了像IEEE、CVPR大型顶会论文的审核机制,直接在arXiv网站上注册发表,学术论文开始以天为单位在更新。打破中美科技壁垒的不是拿来主义的开源软件套壳封装,而是高索引引用的论文。论文不仅提供研究的方法路径,依赖的基础模型组件也提供了数据的流动,像指南一样。
B数据——优势破局策略:硬件芯片所遵循的摩尔定律还是一个线性增长逻辑,但生成式合成数据遵循的却是幂律指数型增长,只有抓住数据工程的幂律才能超越硬件的发展速度。
近日,前美军四星上将加入了openAI董事会。毫无疑问他的岗位职责肯定不是指导研发的,那必定是瞄向两年来OpenAI沉淀的提示数据。我们和大模型对话的内容蕴含大量的信息,据SBS等韩媒报道:三星刚引入ChatGPT还不到20 天,就发生了3起机密数据泄漏事件,其中涉及三星半导体设备测量资料、产品良率等信息。
问题往往会导向答案,获得信息的过程本身也是信息。无独有偶,近期,英伟达发布大模型一下子挤到第一阵营,为什么?英伟达没讲算力而是将重点放在了核心数据的介绍上,其模型训练使用了98%是合成数据,是机器生产模型生产的数据。
如何让国内AI领跑世界是一道综合考题,但归根结底必须从骨髓里就是硬核科技企业。在产品线上,不能拿来主义,不能被卡脖子,不能有明显的短板而且要有显著的长板,才有肯能在国际竞争中跑出来。此外,外部环境对于技术成长、人才培养、产业生态的形成也很关键,不单是一家企业的事,也需要政府、生态共同去匹配发展的进程。
人才破局:相关数据显示,2023年就业形势严峻,失业8700万,毕业1158万,是让普通人是无工作还是让这些人群进入新技能蓝海?政府应该提早布局AI版的“蓝翔技校”。AIGC内容生产,培养新技能蓝领改变算法生成的猜盲盒过程,打造人机交互的流水线。
产业链破局:AI Pin、 Vision Pro等可穿戴的个人智能代理Personal Agent的出现,Figure具身机器人的探索,这些EdgeAI的新兴都需要整合全新的智能硬件产业链。AI pin融合了电容触摸、HUD、手势识别、数模唤醒等成熟的硬件技术,大模型服务的载体,可以发挥中国全产业链精密制造的优势,快速跨界发明迭代一批GenAI的智能硬件。要想推动产业变革,实现产业组织的深刻调整,政府部门、教育机构、高校研究机构的角色和商业必须要发生一些变化。
就政府角色而言,充分发挥产业园区的优势,把企业、高校、科研院所等创新资源产业链上下游“整合”在一起,协同攻关科技难题。
]]>MaaS模型数据市场,是天云数据为了进一步推动AI技术普及和应用创新发展而构建的一个综合性平台,为用户提供了一个便捷的渠道,轻松地获取、购买和部署各种预训练的AI模型,同时也为模型开发者提供了一个展示和销售模型的平台。
MaaS模型数据市场上,涵盖了从图像识别、自然语言处理、语音识别到预测分析等多个领域,能够满足不同行业和场景的应用需求。首先,用户可以根据自己的需求,采购合适的模型;其次,省去模型用户从零开始训练时间和计算资源,直接将模型集成到自己的产品和服务中,加快模型创新的速度。
MaaS模型数据市场还为模型开发者提供了一个广阔的展示和销售空间,开发者将训练好的模型上架到市场,通过平台的流量和影响力让更多的潜在用户了解并实现知识的商业化。与此同时,模型市场还为开发者提供了工具和服务,帮助他们更好地管理和优化自己的模型,提高模型的性能和可靠性。
生态建设也是天云数据的MaaS模型数据市场的使命之一,鼓励开发者之间的合作和交流,减少重复劳动推动模型的共享和复用,提高行业的研发效率。
]]>