阿里研究院

其他

治理之智 | 对“数据入表”的若干思考:重视数据意识能力,回归要素价值本源

导语:《企业数据资源相关会计处理暂行规定》试行发布一年来,企业的“数据入表”实践能够真实反映产业发展水平,并评估“数据资源化、资产化、资本化”的价值转化路径是否可行。在已有的实践基础上,我们如何正确看待“数据入表”的内在要求和制度定位,以真正发挥其促进数据流通复用和要素价值释放的目标价值,值得进一步深入思考和分析。根据产业实践和三方智库的分析报告,我们认为,在微观层面,“数据入表”在会计准则约束下,可帮助企业培养重视数据开发、合法使用数据的意识和能力;但在宏观层面,不宜将数据入表作为“第四种增长方式”,应回归本源重视企业数字化能力建设,发挥数据要素价值。《企业数据资源相关会计处理暂行规定》(下称“《规定》”)具有“宽进严出”和企业自决等特点。试行发布一年来,“数据入表”现状能够真实反映各类型企业对数据开发、利用和流通的实践与诉求。一方面,《规定》没有引入复杂的场景化评估方案,从积极推进数字化转型、以数据改善内部降本增效的企业,到征集三方数据、将数据作为交易对象的数商型企业,都能够广泛适用;另一方面,针对难度较大的数据估值问题,《规定》没有另起炉灶,而是采用现行会计准则标准,在“经济收益流入企业,成本可靠度量”的严格约束下,将数据资源按照“无形资产”或“存货”进行会计确认、计量、报告和披露。此种“宽进”引导了各类型企业更加关注数据的开发利用和尝试入表,而“严出”则约束了资产造假、守护了金融风险底线,并使得我国资产评估保留了与国际制度的对接。同时,《规定》允许企业自决,将满足《规定》的标准和要求的数据全部或部分入表,也支持企业考虑商业秘密保护、入表条件适配,沿用传统机制将数据采集和处理的相关成本以“咨询服务费”“信息服务费”“技术服务费”等费用化方式入账。使得这一年来的企业“数据入表”实践能够真实反映产业发展水平,可评估“数据资源化、资产化、资本化”的价值转化路径是否可行。根据产业实践和三方智库的分析报告,我们对企业“数据入表”有如下认识:在微观层面,“数据入表”在会计准则约束下,帮助企业培养重视数据开发、合法使用数据的意识和能力(一)数据入表辅助数据固权,有助于推动企业合法利用数据企业有效利用数据需要保障数据持有和使用的合法性,避免产生权属争议带来不确定性,同时也需要合理评估数据的价值,帮助各方形成稳定的价值预期,降低协商成本。例如,全国楼盘基础数据是房产销售和租赁行业的核心竞争力,贝壳找房整理“全国居住行业楼盘信息数据”,并在北京数据资产登记中心主动登记。虽然并未走完“入表”全程,但对于数据权属明晰、数据使用目的明确、数据价值预期较高的企业数据,通过资产登记方式进行处理,提高了企业对数据合法持有使用的确认度,在产生争议时降低诉讼难度,并为数据后续使用或入表、甚至跨主体流通提供了价值基准。(二)数据入表的会计准则约束,有助于企业促进数据复用和流通《规定》延续现行会计准则标准,即“经济收益流入企业,成本可靠度量”。合法性和利益可预期性的资产确认条件,配合入表后的披露规则,对企业数据资源管理提出了审慎注意义务,要求企业健全数据管理能力,有效管控数据的来源、利用和安全,促使企业合法获取和使用数据,并帮助企业优化内部运营,对资产成本摊销和利用率进行优化,打破内部的数据竖井,促进跨业务和跨部门的数据复用,并有意识对外开放数据产品和服务。例如中国移动已经将其内部梧桐大数据平台积累数据进行合规治理,对外将用户画像产品授权给金融机构提供征信查询支持,就突破了过去由于信息系统建设未进行有效成本计量的限制,同时加快了对外数据产品的开发并形成相关的服务收入。在宏观层面,不宜将数据入表作为“第四种增长方式”,应回归本源重视企业数字化能力建设,发挥数据要素价值(一)数据入表是手段不是目的,将入表作为“第四种增长方式”,会偏离制度初心地方遇到财政压力时,“数据入表”容易被视为一种创收手段,甚至部分省市、机构在政策传递表达中,采用了“数据入表是投资、消费和出口之外的第四种增长方式”这样的描述:假设将1.5亿企业的存量数据全部纳入数据资产评估计价与入表,确实我国在短时间内实现全球GDP首位,被外媒臧否的企业缩表问题也不复存在。根据《数据二十条》中提到的数据价值实现路径,数据要素的作用在于对其他要素边际生产力的提升,解决传统要素经过长期发展后边际收益递减、创新能力不足的难题,促进产业升级、提高生产效率、激发创新活力。《“数据要素×”三年行动计划》更提出了分行业分场景释放数据要素价值的重点方案,政策重心在于数据“复用”,在各类应用场景中对各产业“赋能”。数据利用的核心是将多种来源和格式的数据用于业务流程,提升决策成功度和运行效率。如果能作用于企业内部全流程,可以以数据驱动(Data
9月5日 下午 12:00
其他

具身智能系列 | 人形机器人会替代机械臂吗?- 人形机器人在制造业中的定位与价值分析

摘要大模型技术为人形机器人研发带来了创新浪潮,近期国内外多款人形机器人争相进入制造工厂“实习”。与此同时,以机械臂为代表的工业机器人的应用也在不断普及。“人形机器人是否会取代工业机器人成为新的生产制造主力”成为业界关注的话题。本文的研究分析显示,人形机器人在制造行业不会替代工业机器人,两者之间并非替代关系。我国工业机器人规模还有很大的提升空间,而人形机器人在制造业的潜在应用场景和规模则存在“天花板”。但制造业对人形机器人发展仍然极具重要性,是人形机器人积累数据、提升技能,迈向更广阔潜在市场的“必经之路”。人形机器人的核心控制系统通常被喻为
8月28日 上午 11:28
其他

“形”“型”合璧,恰逢其会-人形机器人是大模型技术的高级呈现形态

摘要人形机器人产业近两年爆发式突破,与大模型技术的突破和实际应用的时间高度重合,这绝不是偶然,背后是大模型技术在人形机器人本体、运动控制、物理空间的理解与操作、感知/理解/推理/决策这“一硬三软”四大关键领域的全面技术促进。同时,人形机器人不断收集和产生的数据以及对物理世界的交互以及动作执行,有望于让原本只存在于数字世界的“离身”大模型,进化为能够理解物理世界运行的具备“空间智能”的大模型。两者的相互促进融合,将真正打开人类通往AGI(通用人工智能)的技术之门。人类对类人形态机器人的畅想从未停止,从《列子·汤问》中记载3000多年前能唱歌跳舞的木甲艺伶,到1000年前阿拉伯发明家阿尔-加扎利设计的自动仆人,再到500年前达芬奇绘制的具有复杂机械结构的“骑士”,以及大量文学作品中描绘的人造生命形象,如手冢治虫笔下的阿童木和风靡全球的变形金刚,无不展现出人类对超越自然界限、创造智能生命的深切渴望与无尽想象。这些设想不仅仅是技术探索的体现,更是人类对于自身存在、伦理道德以及未来社会形态深刻思考的映射。直到大约50年前,随着计算机科学、人工智能、材料工程与传感器技术的迅猛发展,真正的高仿真度人形机器人开始步入公众视野。而近几年大模型技术的飞速发展,更使得人形机器人在认知能力、情感交互、运动控制乃至物理空间的理解与操作上取得了前所未有的突破,一个新的时代正在来临。本文的研究分析聚焦在人形机器人这一范畴,在展开分析之前,首先对若干近期被广泛使用的词汇进行范围阐释:具身机器人(Embodied
8月26日 下午 7:18
其他

产业之声 | 安筱鹏:智算集群的“三个不等式”

导语在人工智能技术飞速发展的今天,超大规模智算集群成为推动AI大模型进步的关键力量。然而,对于这一技术,产业界和市场存在不少误解,例如将智算集群的性能简单视作GPU芯片性能的累加,或是将技术自主性与技术封闭混为一谈。对此,我们需要厘清“假万卡集群”、“伪万卡集群”与“真万卡集群”区别,并探讨构建智算集群的核心要素。目前来看,全球只有微软、亚马逊、META、xAI、阿里云等少数公司具备建立超万卡智算集群的能力。本文通过“芯片性能不等于智算集群性能”、“自主可控不等于技术封闭”以及“技术可用不等于商业可行”等三个不等式来详细澄清对于智算集群的主要误解,并提出高效协同的软硬件计算系统是构建万卡智算集群的关键,开放繁荣的技术生态是AI发展的最优选择,以及商业可行的关键是实现集约化和高性价比的核心观点。为构建高质量的万卡级智算集群,我们需要坚持“技术先进、生态开放和商业可行”三大基本原则,并充分发挥公共云大规模、集约化、高性价比等优势,持续降低模型训练推理成本和创新应用门槛,以助力千行百业的智能化转型升级。【本文主要观点在2024年7月1日北京全球数字经济大会-人工智能专题论坛上,由安筱鹏博士进行了分享】超大规模智算集群是AI大模型发展的技术基础。当前,产业界和市场中充斥着一些似是而非的观点,有人认为智算集群性能等同于GPU芯片性能相加,有人认为芯片及智算集群的自主可控就是要技术封闭,也有人将智算集群的技术可用当作商业可行。从全球技术产业发展趋势看,软硬技术先进、生态开放和商业可行才是高质量万卡级智算集群的核心特征,才能为AI大模型发展提供坚实的物质支撑。全球智算集群迈向“超万卡时代”,万卡级智算集群是全球AI大模型竞争的“入场券”规模法则(Scaling-Law)是AI大模型的第一性原理,当前关于这个规则是否将会失效仍有不同观点,但可预期的未来2-3年,全球产业界的共识是规模法则(Scaling-Law)在未来几年内依旧有效,更大参数、更多数据的大模型仍然是全球AI竞争的制高点。要训练全球领先的大模型,万卡级智算集群是一个必备的基础设施。从全球看,全球最先进的智算集群正从千卡、万卡走向十万卡、超十万卡,今天万卡集群也只是大模型军备竞赛的起步价。GPT3训练需要千卡级别的智算集群,GPT4需要2.5万卡集群,GPU5估计超过5万卡集群。Meta公司训练Llama3大模型的集群由2.5万张H100
8月7日 上午 10:41
其他

治理之智 | 合成数据:模型能力跃迁的必经之路

Agent)的推广和应用,对模型规划、决策、操作能力需要更精准,有助于提升AI
7月24日 下午 2:04
其他

产业之声 | “软硬兼施,以软带硬” - 缓解“算力焦虑”的模型与芯片协同优化策略

本文作者阿里研究院:周搏、袁媛阿里巴巴集团公共事务部:星乔、刘明一“算力焦虑”下,GPU芯片研发与算力集群建设快速发展随着大模型技术的快速发展,我国在GPU芯片研发和算力集群建设领域持续加速推进。国内AI芯片企业在芯片性能和能效比上不断优化升级,同时,我国多地纷纷规划建设规模大小不一的GPU算力集群,旨在为大模型训练和千行百业的应用提供充足的算力支持。然而,当前我国也面临高端芯片获取受限的现实挑战。自主芯片在性能上仍然较国际主流水平有显著差距,且在产能上仍然存在较大的供给缺口。单靠硬件基础设施这“一条腿”单独走路,难以应对技术和产业应用的国际竞争。二“另一条腿”
7月18日 下午 6:11
其他

模型开源不是智商税 开闭源并非二选一

《国际论坛》贾开、俞晗之、薛澜:人工智能全球治理新阶段的特征、赤字与改革方向18、大模型时代:消失的飞轮19、如何应对“模型抄袭”?对“斯坦福抄袭中国大模型”事件的三重思考-
7月15日 下午 8:00
其他

产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

本文作者阿里研究院AI产业研究中心:杨军、周搏、袁媛阿里云采购部碳管理与能源采购团队:毛宏举、黄光舟阿里云基础设施事业部:王超、陆荣鑫随着AI大模型技术的飞速发展,模型的参数规模和多模态能力不断提升,带来了对计算需求的快速增长,推动了万卡以上GPU算力集群的建设浪潮。GPU集群正从万卡向十万卡、百万卡的规模迈进,同时伴随着对能源消耗的快速增长,带来了GPU集群算电协同和零碳发展的新挑战。我们在上篇探讨了GPU算力集群能源的全球挑战和中国可采取的应对方案(《智能背后的电能保障:GPU算力集群能源挑战的全球视角和中国应对》),本文将探讨如何借助AI大模型的发展契机,从优化模型训练和推理的计算效率、降低GPU集群核心软硬件的能耗、提升GPU集群的利用率、使用更多的可再生能源和算电双向优化调度等五个方面进行分析并提出建议,探讨迈向GPU集群的算电协同与零碳发展目标的可行路径。一AI大模型驱动算力集群规模不断增长
7月3日 下午 3:03
其他

产业之声 | 生成式AI驱动的数据要素价值创造新模式

编者按数据要素正在以投入替代、价值倍增和资源优化三种模式在千行百业创造价值发挥作用。回顾人工智能的发展历程,算法从统计、机器学习发展到深度学习,算力从单片机发展到GPU,都是人类经验逐步让渡于海量数据的过程,也是人类带着数据冲击机器智能新上限的经历。从人类既定经验为主到从数据中学习规律为主,从解决单一问题转为激发通用“智能”的新模式,将如何体现并发挥数字要素的上述三重价值,需要我们重新审视。在大模型发展的道路上,每一次通用大模型能力的跃迁,都会形成对散点应用和解决的碾压;大模型通用智能带来的价值成效,将超过若干个碎片化场景应用的总和。基于上述的发现与认识,再来重新审视数据要素议题的前提,即“数据要素如何创造价值”这一问题时,
6月27日 上午 8:58
其他

模型上云的数据安全保护——以Apple PCC为借鉴

Intelligence”,旨在为iPhone、iPad和Mac等设备提供生成式人工智能功能。该系统既有部署在端侧的本地模型,又有在公有云计算环境中部署的云侧模型,同时提出PCC(Private
6月15日 下午 7:11
其他

如何应对“模型抄袭”?对“斯坦福抄袭中国大模型”事件的三重思考

近期,“斯坦福抄袭中国大模型”事件引起业界广泛关注。我国模型“被抄袭”证明国产模型已经具有了全球竞争力和国际认可,而此事件对负责任的模型开源生态建设、传统文化的保护和利用提出了新的问题。从开源治理角度,对开源模型的“抄袭”可构成知识产权侵权行为,开源模型权利人可以依据开源许可协议保护自身权益;窃取模型参数、谎报模型来源等不负责任的使用行为,违背了诚信原则和开源精神,开源社区可采取措施予以处理和规范。而对于传统文化,大模型在输入端广泛学习传统文化知识,在输出端将传统知识和非物质文化遗产的保护框架和规则嵌入技术实现中,让模型对传统文化有深刻认知并存敬畏之心,承担起文化传承传播和来源尊重保护的双重责任。5月29日,斯坦福大学的某一研究团队发布了一个名为“Llama3V”的模型,但在发布几日后被质疑“套壳”面壁智能在5月中旬发布的8B多模态小模型
6月5日 下午 6:23
其他

价值之探 | 全球首位AI胰腺癌早筛技术的受益者

详解AI时代工作怎么变2、2023年度最受关注AI内容盘点3、刘擎对话叶军|当疑虑的人文学者向乐观的创业者发问:我们如何理解
6月2日 上午 12:00
其他

价值之探 | 达摩院大模型入选AI for Good创新案例集

Good全球峰会旨在推动AI围绕健康、气候、包容性繁荣、清洁能源等的应用和发展。除东南亚语言大模型外,达摩院也在峰会上展示了AI多癌早筛、绿色能源AI、视频AI等技术。
6月2日 上午 12:00
自由知乎 自由微博
其他

治理之智 | 《大模型训练数据白皮书》在第七届数字中国峰会发布:大模型是数据要素价值释放的最短路径

5月24日,由阿里研究院牵头,阿里巴巴集团、数字中国研究院(福建)、阿里云智能集团联合编写的《大模型训练数据白皮书》在第七届数字中国峰会期间发布。自《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布以来,我国数据要素建设不断深入,在国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》进一步明确“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展,可以有效解决我国人工智能,特别是大模型研发所面临的数据瓶颈,进一步发挥大模型对于世界知识数据的汇集和处理能力,创造更大的生产力,助力我国从数据经济走向智能经济新发展模式。大模型是数据要素价值释放的最短路径,通过理解其训练所使用的数据类型,可以更好理解大模型发挥价值的内在机制。而促进高质量训练数据的建设,需要综合利用政府、企业、社会等各方资源推动数据的开放共享和开发利用;需要构建共享、共创、共赢的合作生态和更开放的环境,不囿于版权等制度所存在的争议;需要给技术的发展预留空间,并相信随着技术的日益成熟,相应的商业模式和制度设计也都会逐步完善。作为支撑大模型发展的三大基石之一,我们希望中国的大模型发展,可以在数据方向上有所突破,助力我国在国际竞争中取得优势地位。本白皮书首先分析了大模型训练所需的数据类型,并从产业实践出发破解了对训练数据的常见迷思和误解。在上述基础上,本书进而对训练数据的质量和规模进行讨论,发现高质量数据应在实践中检验效果,而难以用前置的客观标准衡量。同时,本书探讨了合成数据作为解决高质量训练数据供给不足的新方案,及其在大模型训练中的潜力。在训练数据合规方面,针对模型训练的特点,本书提出顺应模型发展的数据治理思路。最后,本书论述构建政府和社会力量协同的数据生态对满足大模型训练数据需求的重要性,并以阿里巴巴的实践为案例做说明和阐述。以下为白皮书内容目录与精彩节选:01训练数据对大模型发展的重要性算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以GPT为例的生成式人工智能大模型成功的驱动力。02模型训练所需的数据类型数据作为大模型训练的基础,提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据,随着技术的演进,大模型所需的数据是对知识性内容有强需求,是一种新的类型。1、训练大语言模型的数据大语言模型所需要的数据内容与质量将根据训练的阶段有所不同,包括预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,三个阶段分别需要的语料特征可以概括为“广”、“齐”和“专”。2、训练多模态模型的数据多模态模型则模拟人类大脑处理信息的方式,把各种感知模态结合起来,以更全面、综合的方式理解和生成信息,其在训练阶段更多地需要大量图像-文本对、视频-文本对等有标注数据集。3、训练数据的常见疑问和误解本书认为,大模型训练数据主对语料库等知识性内容有强烈需求,大大模型训练并不依赖用户个人信息;中文语料短缺不是制约我国大模型发展的重要因素,但中式价值观类语料的短缺可能会成为制约我国大模型发展的短板。03科学理解高质量数据的含义与作用在生成式人工智能时代,模型训练的成功与否与所依赖的数据质量息息相关。模型的能力很大程度上可以反映出其训练数据的质量,这也无疑凸显了高质量数据在大模型训练和应用中不可替代的重要性。1、高质量数据的重要性高质量数据可以更好地模拟客观世界,将其作为训练数据可增强模型能力。从模型能力表现来看,一是高质量数据可以提升模型的准确性和稳定性,二是高质量数据具有多样性,可以降低模型对特定数据集的依赖,提升鲁棒性和泛化能力。2、高质量数据的标准高质量数据的类型具有三重不确定性,包括所需的语料种类的不确定性、语料形态演化的不确定性以及不同数据类型之间有效搭配的不确定性。而其评判具体标准需依据模型需求、训练阶段及目标任务多维度动态界定。04合成数据作为解决训练数据供给不足的新方案合成数据是通过算法和数学模型创建的,可用以补充或替代真实数据进行模型训练。合成数据作为应对训练数据短缺的新方案,将有利于平衡数据需求与合规要求,推动AI技术的可持续发展。1、训练数据供给不足带来的思考人们正在积极探索新数据源,以缓解训练语料可能面临不足的问题。而利用模型或算法批量生成新数据,比如合成数据,并作为训练数据供给不足的新方案,则获得大量讨论。2、合成数据的定义合成数据是通过算法和数学模型创建的。首先建模真实数据的分布,然后在该分布上进行采样,创建出新数据集,模拟真实数据中的统计模式和关系。3、合成数据的必要性需要合成数据的本质原因是真实世界中获取数据遇到困难,表现在真实世界中难以观测,数据获取的成本高,以及数据获取和处理涉及到真实世界中的个信等方面。4、合成数据的生成方法及分类根据是否基于实际数据集生成,合成数据生成方法主要分为基于真实数据集构建,和通过使用现有模型或者人类专业背景知识来创建等两类。根据用于训练的AI类型,可以将合成数据分为应用于生成式AI和判别式AI训练两类。5、合成数据在大模型训练中的作用合成数据作为真实数据的一种替代,未来发展潜力巨大,可作为一个“新物种”密切关注;此外,目前合成数据可被应用于提升对齐阶段的数据获取效率。6、解决训练数据供给不足的新方案合成数据为模型数据供给提供了新的技术方案,帮助解决高质量训练数据供给不足的问题,包括拓展训练数据的多样性、提高模型的安全性和可靠性、用户隐私保护和数据获取合规性等方面。7、在发展中治理的合成数据相比于对合成数据量的扩增,在应用中要更重视质的提升;合成数据本身具备良好的安全性,在后续使用中较为可靠;对合成数据仍需设置相应的安全管控策略,确保模型整体的安全性不会因为合成数据的使用而受到影响。05对大模型训练数据治理的思考对大模型训练数据的治理思考集中于如何科学构建高质量数据生态,以及确保数据的公平性、多样性和真实性。大模型训练数据的治理是一个动态平衡、多方协作过程,需在技术创新与制度建设间寻找最优解,以促进人工智能的健康发展。1、大模型对训练数据的使用特点大模型在使用训练数据时展现出以下特点:大模型训练数据在训练阶段并不依赖个人信息,而更侧重于全球知识与高质量语料;对于版权类数据主要采取了转换性使用,更偏向于合理使用或法定许可。2、大模型训练数据合规的治理之智基于大模型对训练数据的使用特点,应构建顺应模型发展的新时代的数据治理制度,包括重视数据的可及性,提升模型安全训练数据的供给,以及应用新技术以提升训练数据的合规性和安全性等方面。06政府与社会力量协同的训练数据生态通过中美对比,我们倡导政府与社会力量的协同,共同推动数据要素的有效流通与应用,为大模型的训练提供充足、高质量的数据支持,进而促进人工智能技术的健康发展与广泛应用。1、美国的现状美国在获取大模型数据方面的现状体现了政府与社会力量的紧密合作。美国联邦政府发挥了AI训练数据“汇聚融合”的角色,而美国社会力量则整合了政府数据与网络公开数据,并形成高质量训练语料。2、中国的现状我国尚未形成对大模型提供有效供给的数据资源生态。我国的公共数据覆盖范围比美国更广,但在开放共享和开发利用程度上仍有不足;我国的社会力量则主要是结合海外优质开源数据集及中文语料,产出训练数据集。07阿里巴巴集团在大模型训练与应用的案例阿里巴巴集团在大模型的训练与应用探索中,展现出多方位的创新实践:在探索不同数据类型之间的有效搭配时,阿里巴巴达摩院在语料学习顺序中进行了“数据课程”的设计;在处理个人信息方面,采取严格措施,减少个人信息收集;在合成数据的探索和应用方面,在电商场景尝试通过合成数据实现LLM与推荐系统结合,更好地推理用户真实需求。这些系列举措体现了阿里巴巴集团在大模型领域的深度布局与全面实践。08以更开放和务实的方式解决高质量训练数据供给解决高质量训练数据供给问题,需采取务实、多元、开放策略,理解模型数据需求,协调政府与社会资源,构建共赢生态。制度设计应为技术进步留空间,优先考虑数据可及性,适度放松输入端管控并以事后监管应对风险,鼓励合理使用版权数据与合成数据。实践中,政府应推动公共数据开放,企业则积极探索数据构建方法,借助市场机制评判数据价值。请后台回复“训练数据白皮书”即可获得白皮书全文电子版。
5月24日 下午 7:02
其他

治理之智 | 《国际论坛》贾开、俞晗之、薛澜:人工智能全球治理新阶段的特征、赤字与改革方向

(本文转载于清华大学CIDEG)文章摘要Abstract人工智能技术及应用超出预期的快速发展已经引起了国际社会的普遍关注,并推动人工智能全球治理进入新阶段。已有研究的单一、静态视角难以刻画人工智能全球治理的全貌,本文从主体、机制双重视角的实践梳理勾勒出其当前进展与特征。人工智能全球治理正在经历从多方主体主导向多边主体主导的演化进程,且形成了以原则理念、技术方案、工作项目、平台机构四项核心机制并行的主要特征,但仍然存在三方面治理赤字:由于治理过程开放性和责任性不足而导致的合理性赤字、由于治理成果的结构性失衡而导致的公正性赤字、由于治理效能难执行与错位问题导致的有效性赤字。面对新阶段的机遇与挑战,“竞争性合作”理念有助于打开新的改革空间,其要求将“零和博弈”转变为“变和博弈”,强调利益与目标不完全一致但又相互依赖的独立决策主体间的关系策略,能够兼具敏捷性与“硬约束”特征,而这三点有助于回应当前进程的治理赤字。未来,不仅要关注人工智能本身的动态演化及其引发的治理挑战,更应关注围绕技术演化而动态发展的国际关系,以推动人工智能全球治理的良性发展。精彩内容节选Highlights一、人工智能全球治理进入新阶段的机遇与挑战人工智能作为一般通用技术的强大变革潜力已经成为国际社会的普遍共识。如何推动技术创新并使创新价值广泛、公平扩及全球各国,同时在此过程中控制技术创新应用的治理风险,也成为了国际社会关注的全球治理议题。尤其自2022
5月22日 下午 5:32
其他

被“套壳”割韭菜,是谁在制造AI焦虑?

(本文转载于央视网)自2022年11月ChatGPT问世以来,国内厂商加快研发节奏,纷纷推出大模型产品,拉开“百模大战”的序幕。然而,随着AI大模型领域的迅速扩张,国内市场涌现出大量用套壳和拼装方式构建的模型。与此同时,新技术的兴起催生了培训课程的热潮,让很多人笼罩在一种技术焦虑中,想要成为能驾驭AI的人。那么,在这波AI大模型浪潮的背后,到底什么才是真相?记者试图揭开这轮AI热背后的隐秘角落。打开浏览器,搜索“套壳AI产品”,你会看到这样的内容:首先是GPT4.0、Midjourney中文版、AI
5月13日 下午 5:27
其他

观察|“兼济天下”与“产业繁荣”:从中法联合声明看中国的“AI力”

导语(本文首发于澎湃新闻)据新华社5月6日报道,国家主席习近平在对法国进行国事访问期间,中法发表《中华人民共和国和法兰西共和国关于人工智能和全球治理的联合声明》。根据声明内容,在2023年4月7日《中法联合声明》达成共识的基础上,两国元首尤其在人工智能方面达成十项共识。从这份声明中,我们可以看到中国在人工智能领域一以贯之的行动逻辑,而这背后,中国的人工智能的发展与治理又能为全球人工智能治理带来些什么?责任、团结、担当、多边:声明的四个亮点(一)始终如一,彰显人工智能治理负责任的大国态度早在2018年,习近平总书记即要求确保人工智能安全、可靠、可控,我国“人工智能倡议”亦提出
5月11日 下午 2:27
其他

“不用旧瓶装新酒”:模型开源生态的认知——基于美国NTIA公共咨询意见的分析

Foundation)则从透明度的角度,强调了开放且广泛可获取的AI模型及其部署所需的基础设施,可以成为一种均衡力量,帮助世界各地的司法管辖区减轻在获取、学习和使用模型相关知识方面的劣势。2.
5月7日 下午 5:09
其他

阿里发布职业趋势报告 详解AI时代工作怎么变

“五一”劳动节前夕,阿里巴巴发布《“AI+”职业趋势报告》,介绍我国各行各业正在如何用AI(人工智能)。《报告》指出,AI会编程、能设计、懂养猪,进入各行各业后,已经显示出巨大价值。“人人都有一个AI助理”的时代加速到来,AI能力成为职场关键竞争力,“人机协作”成为新的工作方式。No.1“人机协作”成为新工作方式
4月25日 下午 5:01
其他

斯坦福HAI发布AI指数报告:深度观察全球AI发展与治理

斯坦福大学以人为本人工智能(AI)研究院(HAI)李飞飞团队近日发布了《2024年人工智能指数报告》。这份报告长达502多页,是HAI发布的第7份AI指数报告,围绕包括全球AI行业的投融资活动、AI的培训成本和技术进步、公众对AI的看法等方面进行了数据跟踪与整理。今年还特别增加了有关负责任人工智能的扩展章节以及有关科学和医学领域人工智能的新章节。这份报告在全球范围内具有极高的影响力,被《纽约时报》、《彭博社》和《卫报》等多家重量级媒体广泛引用。同时,它也是美国、英国和欧盟等多国政策制定者的重要参考资料,是AI行业数据和见解最可信、最权威的来源之一。最新报告指出,2023年,全球AI投资总额降至1892亿美元,与2022年相比减少了20%。不过,生成式AI领域的投资激增,比2022年(约
4月19日 下午 4:30
其他

寻找高质量数据:对“确定性”的实践探寻和思考

#导语#在生成式人工智能时代,模型的能力很大程度上可以反映出其训练数据的质量,这也无疑凸显了高质量数据在大模型训练和应用中不可替代的重要性。然而面对“如何建设高质量数据”的问题,我们面临着两种不同的路径:一是由政府主导,“集中力量办大事”,制定高质量数据标准,统筹建设高质量语料库;二是基于政府和社会力量的市场化分工协同,尊重产业实践和技术判断,以训练语料实际对模型的贡献来验证数据的价值。本文将围绕高质量数据的形成过程、在大模型训练中的应用和对模型能力的提升等方面,尝试给出我们的建议与判断。一、高质量数据的重要性在生成式人工智能时代,模型训练的成功与否与所依赖的数据质量息息相关。由于高质量数据可以更好地模拟客观世界,用这些作为训练数据可以增强模型能力。从技术层面看,通常用损失函数来量化模型预测输出与实际目标标签之间的不匹配程度。能更好模拟客观世界的数据,能使模型预测的概率分布尽可能逼近实际数据的真实分布,通过梯度下降等优化算法调整模型参数,让模型在训练集上的损失函数最小。从模型能力表现看,一是高质量数据可以提升模型的准确性和稳定性。首先,这些数据通常包含更准确和丰富的信息,有助于模型更好地理解数据的内在结构,掌握世界规律,提升产出的精准性。其次,数据清洗是提高数据质量的重要环节,包括去重、删除个信隐私内容、纠正错误、填补缺失值等,经过清洗的数据可以提升训练阶段的稳定性。二是高质量数据具有多样性,可以降低模型对特定数据集的依赖,减少过拟合风险,提升鲁棒性和泛化能力。一方面高质量数据通过对现有不同来源的数据加以混合,调试配比,提升模型执行下游任务的泛化能力。另一方面如《合成数据》系列文章所述,可以利用数据增强等手段有效提升多样性,即通过对现有数据进行变换或扩充,如旋转、缩放、亮度调整等,生成更多的训练样本,增加训练数据代表性和多样性。相反,如果在训练中使用了较多错误、有毒、重复的低质量数据,还会对模型能力产生破坏性影响,也就是人们常说的“Garbage
4月16日 下午 6:06
其他

安筱鹏:中国没有“百模大战”,也没有“十模大战”

编者按:以大模型为代表的人工智能引发的新一轮科技革命和产业变革正向纵深发展,千行百业将面临巨大的机遇和颠覆性的挑战。在工业领域,人工智能是推进新型工业化的关键变量,工业大模型的落地生根将为制造企业探索新型工业化提供全新路径。中国电子报开设“人工智能赋能新型工业化”专栏,走进一线、走进工厂、走进企业,全方位报道以大模型为代表的人工智能技术在工业领域的生动实践。中国信息化百人会执委安筱鹏近日,中国信息化百人会执委安筱鹏接受了《中国电子报》记者的独家专访。他指出,中国大模型市场存在“加拉帕戈斯隐忧”,应明确区分基础模型与垂直模型,构建统一的大市场,优化资源匹配,加速产业生态培育。“通用”是AI大模型的本质特征“当前社会上对于AI大模型仍存在很多认知误区。AI大模型与之前的传统AI应用是两个不同的物种。”安筱鹏表示。7年前,安筱鹏曾拜访全球最大的农业机械制造商、世界五百强企业——约翰迪尔,该公司把AI应用到了农业工程机械中。他们有一款喷洒除草机设备,哪些是草,哪些是庄稼,通过当年的AI技术就能精准识别。“在美国,这种AI应用早已非常成熟,技术水平也是遥遥领先。但这种技术是弱人工智能(Artificial
3月29日 下午 5:01
其他

薛澜:人工智能面临治理挑战

薛澜:人工智能面临治理挑战中国发展高层论坛2024年年会于3月24日在京召开。在人工智能发展与治理专题研讨会上,清华大学文科资深教授、苏世民书院院长、CIDEG学术委员会联席主席薛澜表示,人工智能的发展面临一系列风险需要防范。从人工智能治理的角度来看,有以下五个挑战。第一个挑战是步调不一致的问题。人工智能的技术发展非常快,但是治理体系的构建相对慢一些。第二个挑战是信息不对称的问题。多次调研发现,政府和企业双方都有很多盲区。首先,企业不知道政府规制最关心的问题在哪儿;其次,对技术发展可能会带来什么风险,政府不清楚,很多企业也不清楚。第三个挑战是从规制的角度来讲,在风险规制的过程中成本是不对称的。比如,人工智能如果被滥用或者误用的技术成本是相当低的,但是要去防范这种风险其实是非常困难的。防范风险的成本要远远高于它有可能造成危害的成本,所以风险治理的成本较高。第四个挑战是在全球治理方面。做全球治理的人往往会提到机智复合体的问题,可能针对某一个问题,企业、组织、政府都很关心,都想采取一些措施去解决。专业组织、国际组织、基金会、企业等都对某个问题有一定的治理兴趣,甚至他们也有这方面的能力和条件。但是,所有这些组织之间没有从属关系,而是互相之间有重叠甚至有矛盾的机构,都对某个问题有相关的利益,希望来参与治理,使得全球治理体系的形成有很大的困难。第五个挑战是在人工智能领域治理,一定要有美国和中国的合作,但是目前这种地缘政治也会带来相应的一些问题。怎么去解决上述这些问题?薛澜提出以下五方面建议。第一,要加强安全和技术。目前,在安全领域的研发是不够的,今后需要加强研究,尤其是需要加强国际合作。第二,通过敏捷治理的方式解决治理方面的问题。第三,鼓励企业的自我规制。外界的规制总是很难解决信息不对称的问题,应该提倡建立企业内部自我规制的一些机制。第四,加强国际治理。在全球治理方面,联合国刚刚通过了一个协议,并召开了高级别专家的讨论。第五,解决地缘政治的问题。在人工智能领域,中美双方一定要加强合作,这样才能真正解决人类面临的各种问题。来源:《中国经济时报》
3月25日 下午 6:37
其他

合成数据:治理之智

在上一期《合成数据:大模型训练和应用的新方案》中,我们讨论了合成数据在大模型预训练和对齐阶段的作用,合成数据对大模型数据可用性的拓展,以及合成数据在推荐系统中的应用。本篇作为本系列的收官之作,我们从价值和风险视角,基于对合成数据技术特征和应用的理解,探讨合成数据可及性和安全性问题,以期为合成数据治理的政策提供有益的建议。#
3月21日 下午 5:44
其他

达摩院AI助力农业育种,遗传学分析加速1000倍

“万里挑一”的田间育种,正在被AI加速。过去,育种家是“看见什么就选择什么”。育种家需要手捧田间育种本,“一支笔、一把尺、一杆秤、用牙咬、用眼瞪”,观察农作物状况,完成表型采集,再录入电脑。通过漫长的时间,海量的数据对比,育种家才能在田间千万个植株中,选择各自最需要的那一株。如今,在大数据与人工智能的加持下,育种家可以‘先预测再验证’,这将大大扩大育种规模,并提升品种选育的精准度和效率。近日,全球植物科学顶尖期刊《分子植物》(Molecular
3月21日 下午 5:44
其他

Claude 3拒答率优化:大模型从拒答到负责任回答的演进之路

3的实践案例,对于大模型拒答问题,可以尝试构建一套“从拒答到负责任地回答”的新型解决方案。其一,合理预设用户对大模型的使用意图,在确保安全基础上强调引导性,储备相应的安全能力体系。借鉴Claude
3月20日 下午 5:02
其他

【“人工智能+”深度案例】从智能工厂到ChatBI,雅戈尔的“智能+”实践

BI自从我国实施数字战略以来,BI(Business
3月19日 下午 5:03
其他

安全治理与能力发展兼顾并重,Claude 3对中国大模型发展有哪些启示

3更多体现的是生成式大语言模型在原有路径上进一步的能力攀升:不仅是长上下文处理和多模态处理的能力提升,更值得关注的是推理和泛化能力突破,可能有效改善模型的专业度和可靠性,并加快在领域应用的拓展。2.
3月19日 下午 5:03
其他

合成数据:大模型训练和应用的新方案

导语在上篇中,我们阐述了合成数据的基本认知与思考,本篇将集中探讨合成数据在大模型训练与应用中的作用。合成数据大模型训练中的作用基础大模型训练所需的数据类型包含两大类,一是用于预训练(Pre-training)的世界知识,二是用于对齐(Alignment)的数据。合成数据作为真实数据的一种替代,现阶段虽然在预训练占比不高,但未来发展潜力巨大,可作为一个“新物种”密切关注;目前合成数据多应用于提升对齐阶段的数据获取效率,增强模型安全和可靠性。(1)合成数据是预训练语料的新物种上期提到,模型预训练阶段是通过大量无监督学习构建基础能力。语言大模型需要各类世界知识,包括网页、书籍、新闻、代码等;而多模态又需要视频、图片、音频等语料。那么合成数据作为新物种,能对模型的训练语料起到哪些补充作用呢?首先,合成数据可应用于多模态数据的生成。最近火爆的Sora文生视频大模型,里面用到了大量由游戏引擎合成的视频数据作为训练集,以提高生成质量。此外,利用模拟器生成的多模态场景数据还广泛应用于具身智能机器人、自动驾驶、AI
3月15日 下午 5:32
其他

“全球AIGC版权侵权首判”留下的三个问题

生成式人工智能长期以来面临版权争议,一方面,此类人工智能的训练数据为文字、图片、视频等在传统上受版权保护的作品内容;另一方面,AIGC的文学艺术表现力愈发接近人类创作的水准。人工智能大模型的出现加剧了此类争议:在预训练阶段,大模型以无监督的方式广泛获取各类型的版权内容,高质量的内容还能在监督微调阶段激发模型能力,更强大的模型则能够在简单的指令下生成更为“逼真”的内容。不论是文本、图像甚至视频,大模型生成内容的能力都发展到了惊艳甚至让人惊讶的程度,也让历经技术变革的版权制度再次面临诸多挑战。作为回应,北京互联网法院在2023年11月率先做出裁判,认定用户使用提示词通过扩散模型生成的图片受版权保护,也是我国首例由司法判定人工智能“文生图”受版权保护的案例。而在2024年2月8日,广州互联网法院率先回应AIGC版权侵权问题,实现了“全球首判”。近期大洋彼岸纽约时报版权人等也以侵犯版权为由起诉OpenAI和微软,繁杂的证据、多样的诉求、巨额的赔偿要求引发了全球热议。相比之下,广互案案情比较简单。此案原告为奥特曼系列作品的版权独占授权人(版权人为日本圆谷制作株式会社),被告通过API接口调用大模型服务,用户通过输入提示词“生成奥特曼”即显示和奥特曼形象一致的图片,也可生成包含奥特曼局部特征或具有特殊风格(如插画风)的图片。法院认定被告侵权,AIGC生成和奥特曼类似的图片构成违法“复制”,基于奥特曼元素的AIGC再创作构成违法“改编”。被告被判令要求停止生成侵权图片,即用户正常使用与奥特曼相关的提示词,不能生成与案涉奥特曼作品实质性相似的图片。因被告未实际进行模型训练,法院没有支持删除训练数据的诉求。在计算损害赔偿方面,判决认定被告存在过错,原因是被告未按照《生成式人工智能服务管理办法》要求建立投诉举报机制,未对潜在风险进行提示,缺乏对生成内容的显著标识,判令被告赔偿原告损失合计10000元。判决虽然认定调用API接口生成实质性相似的图片侵犯了原作品版权人的复制权和改编权,但受限于被告并非模型训练者,而仅仅提供图片生成服务这一事实,判决留下了三个未解决的问题。一、能否从合理使用角度回应AIGC技术带来的版权侵权挑战法院从最终生成图片的结果“近似”推导出AIGC对原作品进行了“复制”,但扩散模型对原始图像的“还原”或“再现”与版权法长期以来禁止的直接“拷贝”式的复制差异明显。此外“改编”在传统版权法含义里指的是利用原作品进行的“再创作”,有先后的顺序之分,但在AIGC技术中并没有此类差别。对此法院并未回应AIGC技术带来的核心差异,以及此类技术是否构成合理使用(包括转换性使用)。目前大模型生成能力愈发强大,一方面在各类场景中用户期待模型能够生成更为逼真的图片,而另一方面AIGC侵犯版权的风险依然普遍存在,对于各方期待的通过合理使用制度进行平衡,本案并没讨论。二、在生成内容侵犯版权的情况下是否应当删除训练数据判决不支持删除训练数据的原因是被告为AIGC服务提供者而不是大模型开发者,不涉及模型训练。但是判决并没有直接否定删除训练数据的可能性,在判决中也强调提示词阻断不能完全消除侵权图片的生成。值得指出的是,采用此前数字内容平台版权保护常用的“侵权通知-删除”规则并不适用与大模型输出内容的管理。大模型训练数据规模庞大、来源多样,判断所有数据的版权合规性难度很大,而且大模型版本往往经过多次迭代,模型的使用基本脱离了原始训练数据,删除原始数据的手段并不能解决输出端的版权侵权问题。三、AIGC服务提供者的版权注意义务为什么和人工智能合规责任相关判决认定被告的“过错”时,援引的并非版权法的规定,而是认定被告没有按照《生成式人工智能服务管理暂行办法》建立投诉举报机制,未对潜在风险进行提示,缺乏对生成内容的显著标识,从而构成版权法意义上的“过错”。然而《暂行办法》核心在于要求提供者承担内容管理责任,保护用户的合法权益,其出发点并不是把提供者作为“平台”,要求其按照避风港规则处理版权人的保护请求。而从《深度合成服务管理规定》开始建立的人工智能生成内容水印和标识制度,也并未在本意上用于识别、追踪和保护版权作品。判决将版权注意义务和人工智能合规责任混同,其内在原因和适用边界还待进一步探讨。总体来看,大模型研发投入大、迭代快、竞争强,在多模态发展的关键阶段亟需稳定、可预期的制度环境,扩大模型数据供给,降低模型数据合规压力。本判例适用范围有限,也未能解决各方关注的大模型版权侵权中的核心问题。如何平衡用户对AIGC更准更真的实际需求和版权保护的要求,应当采取哪些更为合理的手段控制侵权内容生成,以及怎么界分AIGC服务提供者版权责任和其他合规义务,还期待进一步的探讨和澄清。责编:崇修(转载及媒体合作请评论区或邮箱留言)
2月27日 下午 9:11
其他

2024年中国数据治理前瞻:再平衡与新常态

图源Pixabay2024年如何迈向数据治理的“新常态”当钟摆开始摆动,再平衡的进程就不会戛然而止。而在这一时代甬道中,究竟什么是中国数据治理的方向?答案或许是:新常态。回顾历史,“新常态”(new
2月21日 下午 5:31
其他

段伟文|如何应对前沿科技的核心伦理风险?

《人民论坛·学术前沿》2024年1月上
2月2日 下午 5:32
其他

静水流深:美国人工智能治理的特征、趋势与启示

2020),要求扩大人工智能的研发,协调国防/情报界与民用联邦机构之间的人工智能研发活动,实际是对行政令的确认性回应。再如,2022年10月国会通过的《人工智能培训法案》(AI
1月25日 下午 5:03
其他

江小涓:从互联网+到数据要素×,发挥数字经济倍增效应

编者按2024年1月10日,江小涓教授在《光明日报》发表文章。江小涓教授强调,当着力解决数据供给质量不高、流通机制不畅、应用潜力释放不够等问题,发挥好数据要素乘数效应,更好赋能我国经济社会发展。我们特将相关文章分享如下,以飨读者。本文转自清华服务经济与数字治理研究院推动数据要素高水平应用发挥数字经济倍增效应近日,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》(以下简称“行动计划”),以推动数据要素高水平应用为主线,以推进数据要素协同优化、复用增效、融合创新作用发挥为重点,强化场景需求牵引,带动数据要素高质量供给、合规高效流通,培育新产业、新模式、新动能。发挥数据要素乘数效应,将为推动高质量发展、推动中国式现代化提供有力支撑。数字时代,现实世界很多层面都可以用数据形态来表达,生产过程具有了传统形态和数据形态双重产出。数据要素最突出的特点是可低成本多场景复用,即数据要素使用具有非排他性。一组数据可以被不同主体以不同方式重复利用,并且能够通过解构重组、汇聚融合等方式被多层次多元化挖掘出更多价值,实现知识扩散、业务拉通、市场拓展和价值倍增,提升全要素生产率。因此说,推动数据要素高水平应用,能带来产出和效益倍增效应。中国作为互联网应用大国,每日都在产生各类海量数据。建设数据要素市场、发挥数据要素乘数效应具有显著优势。从消费类数据看,中国移动互联网月活跃用户数接近12亿人,人均上网时长达6.9小时,每天消费者在线总时长达80亿小时,源源不断产生与个人行为相关的海量数据。从生产类数据看,中国制造业增加值占全球比重在2021年已接近30%,企业内部数字化转型和产业互联网连接水平居全球中上水平,持续生成与生产行为相关的海量数据。此外,中国智慧城市建设如火如荼,中国5G基站数量位居全球第一,算力总规模居全球前列,数据收集汇聚传输便利高效。当前,我国数字经济快速发展、数字基础设施规模和能级不断跃升,为更好发挥数据要素作用奠定了坚实基础。数据要素市场是一种新类型的要素市场,需要在实践中推动创新,不断建立健全相关市场制度。行动计划聚焦工业制造、现代农业、商贸流通、交通运输、金融服务、科技创新、文化旅游、医疗健康、应急管理、气象服务、城市治理、绿色低碳等12个行业和领域,并明确多个典型应用场景,均表现为数据资源丰富且结构性较好、应用需求广泛、交互链条多层次,具有较好的应用基础和广阔的发展空间。聚焦这些重点行业和领域,努力探索打通全域全链全生态的数据交易和交互,丰富数据要素价值释放路径,创新要素配置方式,提高全要素生产率,将带来经济量的扩张和质的提升。提升数据供给是发挥数据要素乘数效应的重要保障,其中公共数据有效释放价值是重要源泉。公共数据量大且质量好,其开放对数据要素市场发展意义重大。行动计划重点强调了科技数据、医疗健康数据、应急管理数据、气象数据、城市运行数据等领域公共数据的开放。具体来说,各类科学技术数据互联互通能够激活更多数据驱动型的科创活动;健康医疗数据能在精准医疗、新药开放、公共卫生事件预警和管理等方面发挥重要作用;应急管理数据汇聚使用将有效提升安全生产监管能力、自然灾害智能监测能力和救援处置协同联动效率;气象数据的有效利用也将助力降低极端天气事件影响,在服务金融行业以及与气候气象关联度高的产业发展方面也有不小的空间;城市运行数据则在提升城市管理水平等方面具有不容低估的价值。实现公共数据的有效应用,开放共享和开发利用相结合是可取方式。此外,行动计划还提到,促进数据有序跨境流动,对标高标准经贸规则,持续优化数据跨境流动监管措施,支持自由贸易试验区开展探索。从现实角度看,数字时代全球业务运行必然要求数据实时跨境流动,数字经济也是我国要着力打造的竞争新优势。因此,让数据要素“乘”出新动能,需坚持开放融合、安全有序的原则,推动数据经济领域高水平对外开放,加强国际交流互鉴,促进数据有序跨境流动,同时严守数据安全底线,将安全贯穿数据要素价值创造和实现全过程。行动计划明确提出,“到2026年底,数据要素应用广度和深度大幅拓展,在经济发展领域数据要素乘数效应得到显现,打造300个以上示范性强、显示度高、带动性广的典型应用场景”“数据产业年均增速超过20%”。眼下,“时间表”和“路线图”已明晰,当着力解决数据供给质量不高、流通机制不畅、应用潜力释放不够等问题,发挥好数据要素乘数效应,更好赋能我国经济社会发展。责编|崇修(转载及媒体合作请评论区或邮箱留言)
1月11日 下午 5:32
其他

2023年度最受关注AI内容盘点

“未来已来,将至已至”。回顾过往,2023年注定是一个不平凡的一年,AI与人类社会从未如此亲密。2023年,被业界称为“AIGC(生成式人工智能)的元年”,我们见证了AI技术的突破发展和广泛应用。从消费互联网领域的电商、内容推荐等,再到产业互联网领域的医疗、制造、办公等,AI作为新一轮科技革命的“主力军”,已深刻融入到全球经济社会的方方面面;同时,就像人类社会经历的新技术变革一样,AI因其具有复杂性、颠覆性等特征,不可避免地引发了一系列法律、伦理和社会问题,追求“负责任的AI”成为全球主旋律。百年变局之下,科技创新是“关键变量”,AI要为中国高质量发展注入新动能,成为“新增量”。在世界互联网大会乌镇峰会上,阿里巴巴集团明确表示,AI时代下,要成为一家服务全社会AI创新的、开放的科技平台企业,在此之前,阿里巴巴已推出“通义”大模型及其系列产品。阿里研究院积极拥抱AI,将以全新姿态探索AIGC发展最前沿。在辞旧迎新之际,我们选取了十大AI热点文章,依次呈现大模型创新的国际格局、大模型发展的要素特征、大模型的产业应用、大模型的组织效能、大模型的社会福祉、大模型的治理理念,与读者们一道迎接这个充满无限可能与挑战的新时代到来!从ChatGPT到AGI:大国博弈的入场劵
2023年12月29日
其他

大模型数据之二|中美大模型的竞争之路:从训练数据讲起

阿里研究院12/282023本期导语近年来,美国陆续出台芯片法案、人工智能倡议法案等规则,中美科技战越演愈烈。这是一场交织着技术、产业、经济、政治和全球博弈等多重复杂和综合因素的地缘政治冲突,是中美高科技领域近几十年来竞合和博弈的必然结果。在这一轮AI大模型竞争中,美国作为AI的重要发源地,拥有众多技术巨头和顶尖研究机构,一直处于领先地位,美国科技公司2023年先后推出高性能的大模型及其升级版,如OpenAI的GPT-4、Google的Gemini模型等;中国则通过前期AI应用的技术积累和科技企业的大量投入,推出阿里巴巴的“通义千问”、百度的“文心一言”等大模型,成为和美国竞争的重要力量。从训练数据角度来看,中美的数据来源有何差异?公共数据的开放和运营能否成为中文语料的竞争优势?建设中国版大模型数据我们该怎么做?带着这些问题,承接上一期内容,本期专题和大家聊一聊中美大模型训练数据来源,谈一谈如何让大模型底层更为坚实,希望引发一些政策和制度设计层面的思考与共鸣。一训练数据从何而来?中美做法迥异分析大模型的数据来源可以从政府和社会力量两方面入手。从政府视角看,哪些公共数据可以支持大模型训练?我们梳理了以下几种:一是,经过权威认证或凝聚共识的知识,如专利文档、上市公司财报、法院判例/裁判文书、医疗诊断记录、政策文本等,除了可用于预训练语料,还可应用于行业大模型监督微调(SFT)或外挂语料库建设。二是,提供公共管理和服务的counting属性数据,如公共交通、供水、供电、供气等,可用于提升模型多线程处理,调度优化能力。三是,具有科研属性的数据,主要特征有长周期、大规模、多模态、来源清晰、描述详细、可使用,如天气、医疗、地球科学、基础科学领域等,用于AI
2023年12月28日
其他

夸克:大模型时代,创造革新性搜索产品的探索之路

导语阿里巴巴集团自CEO吴泳铭上任以来,大刀阔斧地进行改革,并在多个重要场合明确表示,阿里巴巴将保持创业心态,重点强调“用户为先、AI驱动”的战略重心,抓住AI科技变革带来的全新机会,创造更多客户价值。基于新阶段的战略方向,公布了第一批战略级创新业务——1688、闲鱼、钉钉、夸克。作为之前在阿里巴巴版图里不被人所熟知的产品,夸克略显神秘。在这个AI时代,夸克究竟因何魔力,成为深受年轻一代喜爱的搜索和知识产品?本期AI实践观察,走进夸克,看一看夸克如何用AI技术革新搜索,俘获更多年轻用户。夸克是阿里巴巴智能信息事业群旗下一个单独的APP,从智能搜索发展而来,目前涵盖了搜索、网盘、扫描、学习、文档、健康、小说等业务。11月,全栈自研、千亿级参数的夸克大模型正式发布。近日,夸克发布了大模型应用的最新进展,全面升级健康搜索,推出健康大模型应用“夸克健康助手”,在部分搜索结果和功能板块中上线全新的内容交互方式。信息服务“创新者”
2023年12月27日
其他

数字技术助力国产猕猴桃产业破解“即食”难题

我国是猕猴桃的原产地,拥有全球最大的猕猴桃种植面积和产量。我国猕猴桃产量占全球一半以上的市场份额,远超过排名第二的新西兰。尽管我国在产量上占绝对优势,但在我国市场上卖得最好的猕猴桃却来自新西兰。一个关键的问题是国产猕猴桃无法做到规模化的“采后即食”。新西兰等国家通过培育品牌、推动猕猴桃产业国际认证等方式,成功将猕猴桃打造成高品质、即食的水果品牌,吸引了众多消费者。而国产猕猴桃采后需要等待一段时间才能食用,影响了消费者的购买欲望。发展即食猕猴桃成为解决国外食品行业对我国“卡脖子”难题的重要举措。一、我国发展猕猴桃产业面临的难题在猕猴桃产业中,“采后即食”是提升产品附加值、拓展市场份额的关键。为做到猕猴桃“即食”,需要涉及生产、催熟、分拣、运输储存等供应链环节。第一,猕猴桃种植管理落后。我国猕猴桃种植多是小农户,生产规模相对较小。一方面,部分农民缺乏科学的栽培技术和管理经验,没有专业的技术指导和管理支持,导致猕猴桃生长不良、病虫害防治不当等问题。另一方面,部分农民缺乏科学的施肥和农药使用知识,容易造成过量使用或错误使用,导致猕猴桃产品质量下降,对消费者健康构成潜在威胁。第二,猕猴桃传统采销链条长。传统猕猴桃生产者通过多个中间环节将产品销售到最终消费者手中,导致猕猴桃流通成本高、流通时间长、流通风险大。猕猴桃生产季节有限且集中在特定时间。传统猕猴桃生产者往往无法提前确定订单数量和销售渠道,容易导致供需失衡和库存积压的问题。第三,猕猴桃物流体系不完善。一是物流运输网络建设不平衡。猕猴桃主要产区分布广泛。一些产区物流条件相对较差,难以实现快速、高效运输。二是全链路冷链物流水平有待提高。冷链物流环节过多,冷链设备维护不到位,温度监控不精准、温度波动较大、冷链中断等现象时有发生,影响猕猴桃保鲜效果。第四,猕猴桃品牌化程度低。我国大部分猕猴桃产品仍处于原料加工的阶段,缺乏明确的品牌定位和推广,大部分猕猴桃产品没有形成具有影响力的品牌形象,消费者对猕猴桃品牌缺乏认知,影响了产品的市场竞争力。大部分猕猴桃产品同质化严重,缺乏品牌差异化竞争,在产品外观、口感、包装等方面缺乏创新。二、淘天集团破解猕猴桃“即食”难题的主要做法2021年以来,淘天集团数字农业团队、芭芭农场联合技术专家基于大数据、国内外市场分析,以高品质即食猕猴桃为切入口,以数字化打通种、产、供、销全链路,在陕西、四川等地挑选优质果园,通过制定严格的原料采收标准、研发数字化的催熟技术、先进的仓储保鲜技术以及完善的供应链体系,大大提升了猕猴桃的即食性,在给消费者带来美味消费体验、促农增收的同时,给国产水果品牌发展带来积极示范效应,促进了国产猕猴桃产业高质量高标准发展。第一,在种植环节,输出标准化种植技术方案,提高果品一致性。猕猴桃的糖度、硬度、干物质含量,是决定猕猴桃风味口感的重要因素。好的品质需要合适的温湿度和土壤有机质。在生产端,淘天集团通过选定优质果园、统一种植方案、全程监控等方式,提升果品品质,实现果品一致性,这是实现规模化催熟的前提和基础。在种植改良方面,核心是抓好关键物候期管理,通过投入品进行调控。在果园监测环节,投用了国产猕猴桃无损监测设备,猕猴桃无需下树即可获得糖度、干物质等样本数据,减少损耗并提高水果品质检测的准确度。第二,在储藏和保鲜环节,共建数字化产地仓,研发气调保鲜技术促进规模化催熟。2021年以来,淘天集团与技术专家开展数字创新应用,攻克后熟技术“卡脖子”难题,打破海外技术的长期垄断,联合技术伙伴自研了我国先进的猕猴桃催熟和压差预冷一体化设备,完成移动式催熟柜催熟设备数字化升级,可以远程实时监控催熟进程及催熟工艺,成功将猕猴桃储藏期延长到来年的4-5月份,比常规市面上多了三个月。在陕西武功、四川邛崃建成两个大型的数字化产地仓,猕猴桃进入产地仓后,经过质检、分选、催熟、预冷、自动化包装等一系列工业流水线般的操作,变成具有更高价值的即食猕猴桃,极大提升了即食猕猴桃的采购价格。第三,在分选和销售环节,搭建直采直销网络,促进全链路降本增效。在陕西武功产地仓,引进现代化数字果品分选线,一台设备1小时能分拣8万颗猕猴桃,每颗果子经过的时候拍40张照片,大小、糖度和外观同时可以测,只有合格的果子才会留在生产线里,并按果子大小进行分选,实现了高效精准的果品分选。在销售端,充分发挥淘天集团供应链优势,基于确定性的物流时效,以及分布在全国的18个加工中心以及销地仓,促进猕猴桃流通到盒马、大润发、淘宝买菜、天猫超市等线上线下渠道。根据渠道特性来确定不同的出库标准,确保猕猴桃到消费者手里时刚好可食用,彻底告别购买猕猴桃“开盲盒”时代,打出国货的影响力。淘天集团建立了全国西北最大的即食猕猴桃规模化催熟中心,历经三年的沉淀和发展,从种植、仓储、保鲜、流通,到消费者可以即食的状态,形成了一套组合拳,带动了整条产业链生产能力的提升,对于产区合作商家原料采收标准、贮藏保鲜技术、催熟能力、品控验收方法与标准等都有显著的引导与提升作用,有助于引领整个产业的发展,促进中国猕猴桃作出品牌,逐步实现即食猕猴桃的进口替代。三、发展即食猕猴桃产业的价值和意义发展即食猕猴桃产业在促进农民增收、满足消费升级需求、稳定和促进就业等方面发挥了积极作用。第一,满足消费升级需求。随着我国消费者收入水平的提高,人们对生活品质的要求也越来越高。即食猕猴桃以其方便、健康、美味的特点,成为人们日常生活中的一种时尚健康食品。在消费者重视健康养生时代,即食猕猴桃作为一种绿色、有机、营养丰富的水果,不仅满足了人们对食品品质的要求,还为人们提供了更加便捷的生活方式。第二,稳定和促进就业。即食猕猴桃种植、采摘、包装、销售等环节都需要人力资源,在农村地区创造了大量就业机会。农业产业链的延伸使得农村居民有更多的机会参与农业现代化的建设。即食猕猴桃的加工和销售催生了果蔬加工、物流运输等相关产业,进一步稳定了城乡就业。第三,促进农民增收。即食猕猴桃是一种高附加值的水果,即食猕猴桃的种植和销售不仅为农民提供了新的经济来源,也带动了农村经济的发展。2022年陕西武功与淘天集团合作生产了400万斤即食猕猴桃,为当地600余家农户平均每户创收2.5万元左右。农民通过参与猕猴桃产业链,增强了其对农业产业的参与感和发展信心。四、对策建议第一,推动标准化种植管理。一是引入传感器、监测设备和物联网等智能农业技术,用于实时监测土壤湿度、温度、光照等环境因素,以确保猕猴桃植株处于最适宜的生长环境中。二是利用大数据分析工具,收集和分析农田的各种数据,包括种植时间、施肥方案、病虫害防控等方面的数据,为农民提供科学的决策支持,以提高产量和质量。三是通过远程监控系统,农民可以实时监测田间状况,及时发现问题并采取相应措施,有助于减少资源浪费,提高管理效率。四是引入电子农业台账,记录播种时间、施肥用药情况、生长发育阶段等猕猴桃种植全过程。五是运用物联网技术,将农田内的设备连接起来,实现自动化操作。自动灌溉、施肥、病虫害监测等设备的应用,能够提高生产效率,减轻农民的劳动负担。第二,加强知识产权保护。一是推动新品种培育保护。实施猕猴桃品种的知识产权保护,包括申请植物新品种权。通过品种保护,可以确保培育者的利益,鼓励投入更多资源进行新品种的培育研发,推动猕猴桃产业的技术创新。二是合理利用猕猴桃专利保护。针对猕猴桃的生产、加工和营销环节,鼓励相关企业和机构申请专利。这些专利可以涵盖从种植技术到加工工艺等多个方面,为创新者提供专属权益,确保其在市场上的竞争地位。三是提高猕猴桃知识产权执法力度。建立专门的执法团队,加大对违法行为的打击和制裁力度。通过有效执法,降低知识产权侵权行为的发生频率,维护整个产业的创新积极性。四是打造猕猴桃品牌。注重猕猴桃产品的包装设计,创造出具有辨识度和吸引力的包装。通过独特的外观设计和包装形式,提升产品在超市货架上的辨识度,吸引消费者的眼球。第三,完善即食猕猴桃标准。一是设立更加严格和全面的即食猕猴桃质量标准,确保产品符合食品安全和卫生标准。这包括营养成分、农药残留、重金属含量等方面的检测要求,以保障消费者的健康。二是制定规范的即食猕猴桃包装标准,确保产品的卫生安全和包装完整性。注重包装设计,提高产品的市场竞争力。三是加强产业链各环节的协作,从种植到销售全程进行监管。建立健全的产业标准,确保从源头到消费端的每个环节都符合相应的质量和安全要求。四是对接国际食品标准,使即食猕猴桃标准与国际接轨,有利于产品的国际贸易和出口,提高国际市场竞争力。总体而言,通过数字技术的助力,我国猕猴桃产业成功破解了“卡脖子”难题。未来,国产猕猴桃产业有望实现从数量优势到质量优势的转变,在国内外市场上赢得更多消费者信赖。作者:洪勇,商务部研究院副研究员左臣明,淘天集团乡村振兴研究中心主任责编|崇修(转载及媒体合作请评论区或邮箱留言)
2023年12月22日
其他

刘擎对话叶军|当疑虑的人文学者向乐观的创业者发问:我们如何理解 AI 时代?

用得好的,都不是老板,反而是一线的员工,包括大家不熟悉的一些生产制造业的前线,他们都想改变。谁最有欲望改变,谁就会带来最大的创新,所以那些地方我们看到了很大的机会,他们反而成了最直接地感受到
2023年12月21日
其他

《自然·医学》刊登中国科学家关键突破:癌症筛查的黄金时代准备就绪

人工智能技术迭代发展,为医学检测提供了一个新的手段和路径。阿里巴巴达摩院医疗AI实验室深耕多年,坚持探索,联合全球10多家医院,寻找到了一条胰腺癌早筛的方法,有望突破困扰业内多年的难题。这是“AI
2023年12月15日
其他

安筱鹏:制造业是AI大模型应用的主战场

如何认识这一轮AI技术发展影响的深度和广度?如何判断这一轮AI技术变革的性质?AI大模型是通用人工智能发展的重要里程碑。4月28日、5月5日中央会议关于人工智能发展提出三个第一次:第一次提出“通用人工智能”,第一次提出“产业智能化”,第一次提出“把握人工智能等新科技革命浪潮”。这一轮AI所体现“革命性”特征,不是AI可以生成文字、可以生成图片,而是AI可以生成代码,构建人机交互新模式,与产品研发、工艺设计、生产作业、产品运营等制造环节、场景相结合,提升生产效率,形成新生产力,并引发产业竞争格局重构。AI大模型事关人类生产工具的变革,事关一个国家制造业核心竞争力重塑,事关经济的长期繁荣和走向。数实融合是全球制造业竞争格局重构的核心变量数字化是巨变时代的分水岭,已成为企业、城市、国家之间竞争急剧分化的催化剂。制造业是数实融合最主要的产业部门,其融合的方式、广度和深度,能够直接影响甚至决定制造业的先进水平和全球竞争格局。1.
2023年11月29日
其他

AI引领组织革命:清华李宁教授分享人机互动如何影响知识性员工?《追AI的人》第31期直播回放

直播回顾《追AI的人》系列直播第31期邀请了清华大学经济管理学院领导力与组织管理系主任李宁教授分享《人机协同、效率与创新:AI时代的组织模式探索》以下为直播的文字回放,共计12099字。📺《追AI的人》往期直播视频回放观看👉B站关注:AAIG课代表直播简介回顾:在阿里上清华经管课!探索AI时代人机协同的创新组织模式!《追AI的人》第31期来咯!李
2023年11月13日
其他

数据要素流通是促进业务高质量发展,提升企业市场竞争力的必要之路

产品升级|Dataphin(DataTrust)隐私计算全新升级提升大数据场景能力·
2023年9月27日
其他

【观点】阿里妈妈万相实验室首发上线 电商进入AI上新新时代

开店刚满一年的淘宝星生代服饰商家VERMO,正在经历自己的第一次AI上新:不用担心找不到气质独特的真人模特,也不用再为场景、搭配、演绎、修图等花费很多时间、预算,而是应用阿里妈妈万相实验室,直接0成本适配模特、0成本创造场景、30秒批量创造高规格商品图,快速缩短上新链路、降低成本。VERMO所用到的技术,正是AI在商家端经营场景的一种落地模式。阿里妈妈万相实验室的推出,预示着由AI所支持的产业正在开启加速度,尤其已在电商端将激发灵感、降本增效的工具植入商业土壤。可以说,万相实验室的上线,电商正在进入AI上新的新时代。AI制造风口为电商场景而生的AI技术AI制造风口正在敞开。
2023年7月20日
其他

数字时代组织管理工具“钉钉HCM”重磅发布

产品在实际推行过程中有一个普遍的痛点,即在企业日常管理中很难真正「用起来」。为此,钉钉内来自阿里巴巴集团原厂的专业咨询团队,将深入企业客户的业务一线,通过培训、工作坊等形式,陪伴企业理解
2023年7月13日
其他

【观点】安筱鹏|ChatGPT:美国数字创新森林中的两片叶子

本文根据5月30号安筱鹏博士在北京AI论坛上的发言整理。ChatGPT是通用人工智能(AGI)发展的重要里程碑。通用人工智能(AGI)将引发新一轮数字技术竞争格局重构,也是大国产业竞争的制高点,必将对未来5-10年全球技术创新、企业竞争和国家博弈产生深远影响。从IT时代、互联网+时代迈向智能时代ChatGPT两个月内用户超过1亿,四个月用户超过10亿,成为历史上增长最快的互联网应用产品。GPT-4的功能在GPT-3.5的基础上进一步迭代,实现了4个跨越:从“文本理解”到“图像理解”,从“普通生”到“尖子生”,从“文科生”到“理科生”,从“对话理解”到“全文理解”,从“意图理解”到“创意实现”。ChatGPT开启了一个新时代:从IOE主导的IT时代,到计算机及智能移动终端普及驱动人类迈向互联网+时代,到今天万物互联、万物智能及AI大模型开创的智能时代。智能算力的扩张是开启智能时代的风向标。5月25日英伟达市值暴涨2000亿美元,涨出一个AMD、两个英特尔。10年前英伟达市值相当于英特尔的1/6,今天相当于英特尔8倍,10年收益率超过100倍。5月30日英伟达市值超过1万亿美元。新一轮AI技术所产生的革命性影响是有目共睹的,正如5月3日AI教父级人物杰弗里·辛顿(Geoffrey
2023年7月3日
其他

安筱鹏:数字时代,什么是传统企业?

2023年3月4日,“CCF中国数字经济50人论坛高端峰会”在杭州举行。受邀出席峰会的阿里研究院副院长,50人论坛委员安筱鹏发表了题为“全球视野中数实融合的风向标”的主题报告。以下为主题报告全文。数字化:巨变时代的分水岭数字技术与实体经济融合的风向标在哪里?美国、德国还是日本?斯图加特、慕尼黑、底特律、硅谷、丰田,还是上海、深圳、杭州?当谈论制造业的时候,人们会给美国贴上许多标签:发达的虚拟经济、频发的金融危机、贸易赤子大国、制造业比重低(11%)等,美国政客也在“唱衰”制造业,奥巴马政府提出“制造业回归”,特朗普说“美国不再制造东西了,必须将苹果及其海外公司带回美国”,美国议员说“21世纪前十年是美国制造业毁灭的十年”。当谈论制造业的时候,人们会给德国、日本贴上许多标签:盛产“隐形冠军”、百年老店、工匠精神、工业4.0,在发达国家中制造业比重最高,占GDP20-25%,是全球制造业大国,是汽车大国、机床大国、自动化大国。在过去10年,无数中国企业家、专家去德国参访学习了解工业4.0,许多人潜意识理非常认同数字时代德国制造业发展道路和模式。然而事实是,在过去的十年,德国、日本的GDP规模与美国的差距在拉大:从2011到2021年,美国GDP从相当于德国的2.6倍扩大到了4.5倍,相当于日本的4.6倍扩大到了5.4倍;更值的关注的是,就制造业而言,德国、日本的制造业规模与美国的差距仍在拉大:2011到2021年,美国制造业规模相当于德国的1.5倍扩大到2.4倍,相当于日本的2.5倍扩大到3.1倍。制造业领域美国正在涌现出一批具有全球竞争力的数字原生企业,美国制造业仍然以比日本和德国更快的速度发展。数字化是巨变时代的分水岭,已成为企业、城市、国家之间竞争分急剧分化的催化剂。今天,新实体经济的风向标可能不在底特律,也不在丰田,而是在深圳或硅谷,硅谷不仅有半导体,还是苹果、特斯拉和诺斯罗普格鲁曼。过去10年,美国制造业领先地位的巩固和确立,是新实体经济经济的胜利,是数字技术深度、全面融入一、二、三产业的结果,是向新型数字基础之上迁徙的结果。工业4.0:十年回顾与反思2011年德国提出“工业4.0”,10年后到了评估与反思的时候。德国专家亨宁·卡格曼和沃尔夫冈·沃尔斯特2011写了《工业4.0:依靠物联网走向第四次工业革命》,2013成为德国国家战略。2021年两位当年提出工业4.0的专家对德国工业数字化进行回顾与评估,发表了《十年工业4.0》,结论是虽然很难用非常成功或失败这种0和1的概念表述,但可以确认的是,与十年前所预期的目标相差较远。2022年德国咨询机构“工业4.0晴雨表”发表报告认为,中国和美国公司在工业
2023年4月20日
其他

钉钉总裁叶军:用大模型重做一遍钉钉的决心,非常大

作者|玄宁邮箱|wangzhaoyang@pingwest.com一款以功能丰富著称,但一定程度也为此所困的产品,突然可以清新到让人耳目一新。这样的机会在互联网产品的历史上可能都没有几次。而现在有了。在阿里云的语言大模型通义千问上线邀测后10天,4月18日,钉钉总裁叶军在钉钉峰会上现场展示了大模型加持后钉钉的样貌。一切由一个斜杠“/”激发:在线会议里,用“/”可以生成智能会议纪要,并提炼摘要、待办;海量群聊消息时,用“/”可以整理群聊关键信息、形成摘要;用“/”还可以自然语言或拍照生成应用,并直接发送到群聊内使用。这些功能过去需要用户从不同的稍显复杂的入口进入,有的则需要特定的开发技能。但今天它们都归于一个斜杠之后。而且,这些演示并非概念demo,它们全部是钉钉真实研发环境里的功能的实时演示。叶军将它形容为智能化魔法世界里的魔棒。盯着看久了,你可能真的会忘了这还是那个复杂的钉钉,它多样的功能供给被收集到了简洁操作背后。自从ChatGPT的横空出世,基于自然的人机对话的形态来完成高复杂度的推理、生成、协同等工作,真正有了实现的可能。阿里云推出的大模型通义千问,同样展示出强大的生成创作、摘要提取甚至应用开发的能力,这些技术进步,真正让一款服务复杂客户的产品有了“少就是多”的可能。而从当天叶军的分享中也能感受到,钉钉并没有只把它当作改变产品样貌的工具。大模型带来的是人类生产力提升的巨大机会,而钉钉作为一个智能化的平台,一直在做的也是解放生产力的工作。“用大模型重做一遍钉钉,我们的决心是非常大的。”在峰会前的一次对话中,叶军对我说。“钉钉今天展示的只是第一步。万事具备的钉钉,迎来了大模型如此快速拥抱一个席卷一切的新技术(至少在如此广泛的应用普及速度上,它依然是新的),有时也让人心生疑虑:它会不会反而变成那个打乱既有战略的不安定因素,从而触动此前来之不易的积累的根基。“总体来说,我觉得战略的节奏倒没有被太多的打断。”叶军对我说。而且,他的核心团队达成共识的速度也很快,从战略到落地,再到原本就整体规划中的节奏,“本质上没有太大变化”。“我们原来叫协同办公平台,应用开发平台,现在我们前面加了个定语——智能。做智能的协同办公平台和智能的应用开发平台。”钉钉此次展示的功能也都是从这样的定位中延伸出来。而这些功能快速进入真实环境的背后,是多部门的合作研发和产品能力的快速迭代。“我们一开始就是要选择最高频的场景。而这其实也很难。”叶军对我说。“你看ChatGPT的核心场景就是Chat,而我们肯定区别于它,因为我们不是只是聊天,我们是工作。所以我们和达摩院的同学基本上每周都会开会一起聊这个可能的场景在哪里,痛点在哪里。”多团队密集沟通,快速的脑暴,迅速做出demo,但效果一开始并没有让叶军感到满意。“我们比较担心它有没有这个能力,所以过程中就是不停的碰,我们说这样行不行,那样行不行。”不过,随着模型的不停迭代,他发现,这些功能前两天还不行,过两天马上升级上去了。“几次碰撞下来就发现,只要我们的场景找得准,后面给它点时间,结果会越来越好。”他说。“这个过程非常快,基本上一两天我们就能把一个想法摸一遍。”这是一个基于大模型调优小模型的过程,钉钉需要把这个产品本身积累的各种业务场景、人事、财务、报销、行政、生产制造等这些模板都交给大模型去学习。其中最惊艳的拍图生成应用功能,钉钉给模型学习了此前积累的低代码能力,让它有了更智能的功能。“我们想生成一个用餐的统计。除了能将手绘的图片直接变成统计表单以外,大模型还会推荐几个新的字段。这跟微软的CoPilot很不一样,技术上的这个难度也比较大,需要一个多轮学习的过程,光这一个场景前后就用了两个多月。”这些技术攻坚,并非只是从钉钉自己的产品角度做出的决定。对于钉钉建立起来的国内最大的协同生态来说,叶军认为,这些新技术的使用,也是在既定路线上加速。对于生态来说,这是给他们提供一个新的强大的武器。“原来的生态我们只是给他通用的API,通用的基础组件权限,账号这个连接器,现在又给了他个AI的能力,所以生态是很开心的。”他对我说。而客户方面,则表现的更加兴奋。“有各种各样的客户每天都在问我,他们对新技术的应用表现出前所未有的积极性。”他说。以往钉钉的新功能需要主动找客户试用,而这一次,客户纷纷要求自己“必须第一个试用”。在阿里云的峰会上,对大模型带来的改变,阿里巴巴再次强调了MaaS(模型即服务)的概念和模式。叶军认为,钉钉一直强调的PaaS
2023年4月19日
其他

安筱鹏|从ChatGPT到AGI:大国博弈的入场券、主场战和主力军

前言近期,信息化百人会在京举办“从ChatGPT看中国AI产业发展之路”研讨论,安筱鹏博士就“ChatGPT之大国博弈”进行发言。以下是内容要点。重要观点来自阿里张影强、罗治兵、郭敏、史大治、张天劼、李树翀、陈鲁川等多位专家支持。2022年11月30日,美国OpenAI公司发布人工智能聊天机器人程序ChatGPT,引起全球广泛关注。ChatGPT是AI大模型创新从量变到质变长期积累的必然结果,是通用人工智能(AGI,Artificial
2023年4月12日