天云数据

让专业投资更简单金融领域探路AI大模型应用

2024-12-13T04:50:17Z

天云数据CEO雷涛表示，大模型运用到监管领域也是一个比较可行的方案。如利用人工智能技术识别场外配资等，同时用AI构建全市场资管信托债类产品风险关联图谱。

AIGC推动 “人工智能新闻时代”到来

2024-12-13T06:12:20Z

天云融创数据科技（北京）有限公司CEO雷涛从新闻生产速度、新闻语境共鸣、AI组织的思维链观点流等方面作了系统阐述，分享了AI自动“拍摄”的宏大场面，AI自动生成的多场景、剧情丰富的电影，AI创意巧克力广告片，短剧自动将中文翻译成英文、韩文，能实现数小时音/视频自动解析、多人对话自动区分发言人、精准定位关键内容和视频片段等功能的AI采访助手等实践产品。

解码“梦工厂”｜天云数据：夯实基础设施服务让AI为万物赋灵

2024-12-13T06:16:49Z

http://www.beagledata.com/wp-content/uploads/2024/12/12月13日__86pct_smaller.mp4

AIGC与“人工智能新闻时代”科学传播活动举办

2024-12-13T05:49:09Z

雷涛就“无真相，无共识”这个话题发表了自己的观点。此外，雷涛从新闻生产速度、新闻语境共鸣、AI组织的思维链观点流做了内容阐述，并分享了AI自动“拍摄”的宏大场面、AI自动生成多场景剧情丰富的电影剧情等实践效果，重点推出了面向媒体的产品——AI采访助手。

AIGC让“人工智能新闻时代”到来

2024-11-28T09:53:29Z

11月27日，由北京市科协主办，北京科技记协承办，天云融创数据科技（北京）有限公司协办的AIGC与“人工智能新闻时代”科学传播活动在京举办，活动由北京市科协宣传文化部二级调研员、北京科技记协副理事长兼秘书长李磊主持。

活动邀请CCDI广电云规划专家、宝联科技创始人 席利宝、天云融创数据科技（北京）有限公司CEO 雷涛、中国传媒大学人工智能系副教授 陶竹林、中国科学报社原副总编辑、《医学科学报》总编辑 张明伟分别作主题报告。

席利宝表示AI是新时代的新质生产力，AI高质量发展从能源+算力+算法+数据+网络+安全都需要协同；广电在AI时代应该紧握机会，塑造数字经济中的独特优势，CCDI项目将对中国广电发展起到样板和示范作用；未来已来，中国广电作为文化数字化国家队、主力军和排头兵，当仁不让为数字经济发展注入动能，为中国特色的新型算力事业贡献力量，为网络强国、数字中国建设提供强有力的支撑。

雷涛就“无真相，无共识”这个话题发表了自己的观点，他认为在这个碎片化信息时代，信息溯源和取证有待考证；此外，信息背景、知识背景、文化背景、逻辑判断都难以让人类达成共识。人工智能走到今天，争论与分歧始终如影随形，可以说AI的命运，正是在这些争议与分歧中找到了真正的边界与可能性，满足了不确定时代不确定人群确定性的需求。此外雷涛从新闻生产速度、新闻语境共鸣、AI组织的思维链观点流做了内容阐述，并分享了AI自动“拍摄”的宏大场面、AI自动生成多场景剧情丰富的电影剧情、AI森林巧克力广告片、短剧自动完成中文转英语韩语日语等实践效果。重点推出了面向媒体的产品——AI采访助手，该产品能实现数小时音/视频自动解析；多人对话自动区分发言人、汇总发言观点；此外可以通过“你问我答”的相识，精准定位关键内容和视频片段，无需反复观看视频便快速定位采访对象重点发言内容；最后，还可以多形态素材输出，轻松复制文字素材或下载新合成的视频素材。

陶竹林表示未来媒体即智能媒体，既要坚守内容的真实与价值，也要以创新引领时代变革。AI技术正在深刻重塑媒体生态，从精准内容生成到智能传播路径优化，为行业赋能无限可能。守正，是坚守媒体的社会责任与传播伦理；创新，是运用AI等新技术推动媒体形态的升级与进化。拥抱AI，就是拥抱媒体的未来，它不仅是工具，更是智能时代的必然选择。以技术为翼，守住初心，未来的智能媒体将更高效、更智慧、更有温度。

张明伟介绍了中国科学报社开发出的“小柯”论文新闻写作机器人的相关情况。他认为，将人工智能运用到科学新闻写作能够有效满足科研人员更好了解国际前沿科研进展的需求，也能为科学传播工作者提供初步选题线索。他建议媒体开发人工智能产品时要瞄准用户需求，善于借用外力，大胆拥抱新技术。

中央广播电视总台、光明网、工人日报、中国财经报、未来网、北京广播电视台、北京日报、北京科技报等新闻媒体，北京科普发展与研究中心、北京科技记协及科技企业、科研机构等部门40余人参加活动。

大变革已来，数据驱动，金融数据与模型深度融合

2024-12-13T05:30:57Z

天云数据CEO雷涛接受财联社采访时表示：关于大模型与数据之间的关系，核心在存量数据和增量数据。关于存量数据，核心需要关注的技术是大模型to DB，去解决如何跟上万张表且高价值密度的企业数据库的数据发生关系；关于增量数据，去解决如何持续的供给大模型以及大模型真正的算力出口在哪里，是提供服务还是提供新兴的生产资料。供给我们更多的数据资源，也就是合成数据的概念。

第五届1024资管科技开发者大会，天云数据CEO雷涛谈大模型和数据的连接

2024-10-23T02:19:27Z

2024年10月18日，作为“全球资产管理中心上海国际活动周2024”压台活动，“第五届1024资管科技开发者大会”在上海·临港中心圆满举行。在媒体采访环节中，天云数据CEO雷涛针对财联社、上海证券报、21世纪经济报道等媒体提问，核心谈了对大模型和数据的连接问题。

在过去一年您的机构的实践中，大语言模型在哪些场景上落地取得了成功？

您问题的核心在大语言模型，其实在基模（基础模型）上，市场已经在第二代视觉多模态大模型和第三代空间认知大模型上取得了非常大的成果和突破。

当然，大语言模型是知识的容器，在整个流水线中扮演非常关键的位置，可以有效地处理视觉和空间感知的多维信号扩展人类的融合认知。

咱们现场举例，就今天的采访视频，我们要如何去编辑处理？还是传统的定位到每一帧每一秒去剪辑？大语言模型在多模态在空间认知上取得了非常大的一个成果，已经可以基于语言模型抽象出每一个嘉宾的核心观点，还可以基于内容选择，所见、所选及所得，把劳动力从重复性的工作中解放出来，实现场景式理解视频内容。

Agent、RAG、GraphRAG，新大模型生态链技术层出不穷，在未来发展中，您看好哪些新的发展方向？它们会如何在资管领域取得应用？

针对这个问题，我想先谈一下大模型和数据的关系。因为我们天云数据本身就同时做数据供给侧的混合负载数据库和数据消费侧的机器学习平台。

那么，为什么我们要关注大模型和数据？

这个可以从存量和增量两个方向上去看：存量是这两年的主流，就是把已有的知识做知识封装和知识移动，一种端到端的训练方法；增量是用RAG、用向量数据库外挂在模型之上，将增量的信息全部训练进去，我们去年在ITL发布的证券法规助手就是这种方法。现在的企业数据，不仅仅只有文档、手册这些静态的科技文献内容，更多的是流动的、数据价值密度更高的信息，这些是存在数据库里的。

针对存量的一个核心关键词就是大模型to DB，也就是我们怎么对高价值密度的数据，在不用精密地组织语言的同时，还能作出准确数字类问题的回答，比如客服里的定价问题、价格交易等问题。

我们服务于券商的数字人，播报的内容是来自于实时交易系统的数据和研报文本内容的结合。针对这样的场景，就需要把大模型的模糊意图匹配和精确的SQL操作形成连接。这种连接不是一对一的，面涉及到非常复杂的工程技术。如何保证像ASR语音识别这些机器学习模型回答一个准确的答案？比如现在的销量是多少，是产品的销量还是区域的销量。像这样模糊的意图匹配，怎么和数据库里精确的字段完成匹配？在后台，需要准备大量的密集计算操作。传统的MPP数据库是没有并发能力的，可能只能支撑一句话十几个token的内容。但高并发任务，成百上千个宽表的OLAP执行对数据基础设施的要求非常高，只有HTAP数据库能胜任这种大模型的高并发AP类业务的底座。

存量突出解决的场景就是针对密集计算的跟数据相关的大语言模型的交互。

第二个方向就是增量，这里面一个核心关键词是合成数据。供给大模型的数据资源从哪里来？这里面涉及到非常多的场景，最早我们使用合同数据更多地是面向专业领域的大模型微调，需要有非常精准的且合适的数据才能提供准确的大模型服务。

Lora是一种常见的微调方法，它对输入给模型的数据的要求也非常高。

我们如何获取这种数据？比如做一个客服系统，每家企业都有各自的产品手册、规章制度，但是客户会提什么样的问题呢？传统的方法是用人工标注采集的方式去获取这些Q&A，现在我们可以针对产品手册的大模型来生成Q&A，这就是典型业务场景的合成数据。

那么lora的数据生成从哪里来？我们用不同版本的大模型去完成同样问题的回答，他们的差异性就是权重分布，可以用来做精确的模型训练数据生成。

合成数据已经开始从模型训练数据的生成到直接场景数据生成，大模型进入到了数据飞轮效应，就像Robot让我们看到的里程碑式技术是机器在供给自己，可以简单类比理解一下，就是供给给机器训练所需要的数据就像汽车要加的油一样，开始变成是自己生产出来的。

客观说针对驾驶而言，一些极端灾害、路况交通事故是不可能通过大规模的路面采集获取的。我们管它叫CoreData，CoreData是可以通过模型来生产的。现在我们在项目上就已经开始交付合成数据数据集。

总结一下大模型和数据之间的关系，一个是在存量上，一个是在增量上。关于存量，我们关注到的核心技术是大模型to DB，它来解决如何跟上万张表的、高价值密度的企业数据库里的数据发生关系的问题；第二个是增量，他来解决如何持续的供给大模型，大模型的真正的算力出口在哪里，是提供一个服务还是提供一种新兴的生产资料，供给我们更多的数据资源，也就是合成数据的概念。

天云数据CEO雷涛：关注大模型中的数据“飞轮效应”

2024-12-13T05:34:14Z

天云数据CEO雷涛在接受记者采访时表示：目前大模型已经从理论和测试阶段，逐步向现实业务中加速落地，值得关注的是，目前数据生成呈现出明显的“飞轮效应”。

北京科博会天云数据CEO雷涛谈人工智能技术服务数字资产建设

2024-08-26T05:16:37Z

7月13日，第二十六届中国北京国际科技产业博览会(简称北京科博会)在国家会议中心开幕。本届科博会年度主题为“实施创新驱动发展战略增强高质量发展动能”。会上，天云数据CEO雷涛发表《人工智能技术服务数字资产建设》主题演讲。

近期非常引人注目的事件：OpenAI宣布终止对中国提供API服务。为了维护服务质量和安全性，将采取额外措施来限制来自当前不支持的国家和地区的API流量。

对国内基于OpenAI的大模型所构建的很多创业应用生态无疑是一个巨大的打击，两个世界正在逐步脱钩，越来越多的商业链条被切断。这不仅仅发生在物理世界，也发生在数字世界的线上连接。与此同时，市场上还存在另外一种声音，把这个信号看成一种巨大的机遇，刚好趁此机遇培养国内的搜索引擎。

从“深蓝”到AlphaGo，再到今天的ChatGPT，人工智能走过了符号主义的知识封装，连接主义的知识学习，和今天的生成式泛化表达能力开始参与到生产实践。OpenAI的PPT式大模型作为人工智能的明星项目，我们听到太多追捧的声音，过度的神秘化和与之伴随的自我矮化，加上7月9日关停面向大陆市场的API服务接口服务，再次加重自我矮化且，失败感扑面而来。

其实在北美市场，基础大模型的发展已经从单一模型训练Trainging发展为Serving多元化工业化基础设施化。中国人工智能的发展如何摆脱依赖、实现优势破局和定义自己的生态位？这需要找到我们技术的独特演进路径。

目前人工智能市场有两条核心路径，一种是无条件相信scalinglaw路径，相信只要把数据喂进去就会有涌现机制。用算力和数据堆积给已有的算法实践Transformer，这种路径就是在已知的知识结构里去寻找未知拼接的方法，能力是有限的，就像在陆地上看着教科书学游泳一样，一定会遇到模型基础理论的天花板。在已知中组合筛选（条件概率）获得的知识，只能是补齐现有的知识拼图，例如通过大量的实验发现新的元素，可以补全门捷列夫发现元素周期表，但是不能诞生量子力学对基本粒子的理论和元素生成公式，更不可能产生牛顿的“加速度”阿拉伯数字“零和无穷大”这样的观念革命的知识。从学外语到学母语到建立认知再到推理和逻辑的路径完全不同。

谷歌、微软、亚马逊、HuggingFace等云厂商开始不再依赖单一大模型，而是跟更多的系统架构配合，来组成一个务实的AGI的工程架构。谷歌上个月发布的大模型成熟度参考架构，定义了从L0到L6 的分级，调用GPT直接使用单一大模型的能力仅仅是L0水平。加入提示词工程，精调模型Lora的意图理解，向量数据库寻回私域数据的记忆，Agent规划拆解，plugin执行和反思等等，逐步完善大模型成熟度到更高等级。这是人工智能市场的第二条路径。

可以这样类比，大模型是西方发明的轮子，而今天中国已经进入了造车的时代。蒸汽机在英国诞生，但在北美被Nobody装到木船上造就了轮船业的辉煌。中国人工智能的发展如何从重新发明轮子到快速引领智能产业的“造车运动”，需要抓住基础ABC问题本质，才能实现实现优势破局和定义自己的生态位。

C算力——自力更生策略：硬件芯片是最早投入布局的，英伟达在生态的垄断和贸易禁运，给了国产芯片独立发展空间。

A算法——跟随融合的缠斗策略：人工智能最底层核心逻辑是以数学的形态在论文上得以表达，包括数据处理的方法和数据集。甚至实践代码都在以科学共享的形式争相发表，科学无国界。为了更多的索引，论文往往会以最快的速度在跨国别的形式传播。陆奇曾经讲过，我们从中关村到硅谷的距离是一个小时的时差。其实指的就是基础算法层级和开源技术框架。数据科学家们为了使自己的研究成果尽快地发表，甚至跳过了像IEEE、CVPR大型顶会论文的审核机制，直接在arXiv网站上注册发表，学术论文开始以天为单位在更新。打破中美科技壁垒的不是拿来主义的开源软件套壳封装，而是高索引引用的论文。论文不仅提供研究的方法路径，依赖的基础模型组件也提供了数据的流动，像指南一样。

B数据——优势破局策略：硬件芯片所遵循的摩尔定律还是一个线性增长逻辑，但生成式合成数据遵循的却是幂律指数型增长，只有抓住数据工程的幂律才能超越硬件的发展速度。

近日，前美军四星上将加入了openAI董事会。毫无疑问他的岗位职责肯定不是指导研发的，那必定是瞄向两年来OpenAI沉淀的提示数据。我们和大模型对话的内容蕴含大量的信息，据SBS等韩媒报道：三星刚引入ChatGPT还不到20 天，就发生了3起机密数据泄漏事件，其中涉及三星半导体设备测量资料、产品良率等信息。

问题往往会导向答案，获得信息的过程本身也是信息。无独有偶，近期，英伟达发布大模型一下子挤到第一阵营，为什么？英伟达没讲算力而是将重点放在了核心数据的介绍上，其模型训练使用了98%是合成数据，是机器生产模型生产的数据。

如何让国内AI领跑世界是一道综合考题，但归根结底必须从骨髓里就是硬核科技企业。在产品线上，不能拿来主义，不能被卡脖子，不能有明显的短板而且要有显著的长板，才有肯能在国际竞争中跑出来。此外，外部环境对于技术成长、人才培养、产业生态的形成也很关键，不单是一家企业的事，也需要政府、生态共同去匹配发展的进程。

人才破局：相关数据显示，2023年就业形势严峻，失业8700万，毕业1158万，是让普通人是无工作还是让这些人群进入新技能蓝海？政府应该提早布局AI版的“蓝翔技校”。AIGC内容生产，培养新技能蓝领改变算法生成的猜盲盒过程，打造人机交互的流水线。

产业链破局：AI Pin、 Vision Pro等可穿戴的个人智能代理Personal Agent的出现，Figure具身机器人的探索，这些EdgeAI的新兴都需要整合全新的智能硬件产业链。AI pin融合了电容触摸、HUD、手势识别、数模唤醒等成熟的硬件技术，大模型服务的载体，可以发挥中国全产业链精密制造的优势，快速跨界发明迭代一批GenAI的智能硬件。要想推动产业变革，实现产业组织的深刻调整，政府部门、教育机构、高校研究机构的角色和商业必须要发生一些变化。

就政府角色而言，充分发挥产业园区的优势，把企业、高校、科研院所等创新资源产业链上下游“整合”在一起，协同攻关科技难题。

天云数据参编行业标准｜《Maas模型服务协议要求》标准正式发布

2024-07-26T07:55:10Z

随着各行业对大模型的应用需求日益增多，模型即服务（MaaS）发展迅速，MaaS将AI模型以服务的方式提供给用户，降低模型使用门槛。当前产业界已推出诸多MaaS产品，并集成和提供了大量模型服务，然而对于服务的可用性、稳定性、质量保障等方面仍然缺少统一、系统的规范要求，用户在使用服务时存在诸多不确定性。中国人工智能产业发展联盟MaaS工作组积极关注MaaS领域发展动态，联合业内30余家单位共同编制《Maas模型即服务技术与应用要求第1部分:模型服务协议要求》标准并正式发布，天云数据是参编单位之一。

MaaS模型数据市场，是天云数据为了进一步推动AI技术普及和应用创新发展而构建的一个综合性平台，为用户提供了一个便捷的渠道，轻松地获取、购买和部署各种预训练的AI模型，同时也为模型开发者提供了一个展示和销售模型的平台。

MaaS模型数据市场上，涵盖了从图像识别、自然语言处理、语音识别到预测分析等多个领域，能够满足不同行业和场景的应用需求。首先，用户可以根据自己的需求，采购合适的模型；其次，省去模型用户从零开始训练时间和计算资源，直接将模型集成到自己的产品和服务中，加快模型创新的速度。

MaaS模型数据市场还为模型开发者提供了一个广阔的展示和销售空间，开发者将训练好的模型上架到市场，通过平台的流量和影响力让更多的潜在用户了解并实现知识的商业化。与此同时，模型市场还为开发者提供了工具和服务，帮助他们更好地管理和优化自己的模型，提高模型的性能和可靠性。

生态建设也是天云数据的MaaS模型数据市场的使命之一，鼓励开发者之间的合作和交流，减少重复劳动推动模型的共享和复用，提高行业的研发效率。