吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界

简介: 过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。


刚刚,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在2024云栖大会上发表主题演讲——



过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。

image.png


以下为演讲全文:


欢迎来到2024云栖大会。在刚刚过去的夏天,阿里云全面支撑巴黎奥运会实现了历史性突破,云计算首次超越卫星,成为奥运主要转播方式。AI也首次广泛应用于奥运会。今天,云栖大会的焦点也是AI。我主要分享三点内容:


第一,过去22个月,AI发展的速度超过任何历史时期,但我们现在依然还处于AGI变革的早期阶段。


大模型技术快速迭代,技术可用性大幅提升。大模型已经具备了文本、语音、视觉的多模态能力,能够开始完成复杂指令。去年,大模型还只能帮助程序员写简单的代码,今天已经能直接理解需求,完成复杂的编程任务。去年,大模型的数学能力还只有中学生水平,今天已达到国际奥赛金牌水平,并在物理、化学、生物等多方面学科接近博士水平。


同时,模型推理成本指数级下降,已经远远超过摩尔定律。一年来,通义千问API在阿里云百炼上的调用价格下降了97%,百万Tokens调用花费最低已经降到了5毛钱。推理成本是应用爆发的关键问题,阿里云会努力把成本继续降下去。


开源生态蓬勃发展。今年6月,通义千问开源Qwen2,迅速登顶Huggingface的全球开源模型排行榜。在Huggingface上,Qwen的原生和衍生模型接近5万个,排名全球第二。阿里云魔搭社区上有超过1万个模型、服务了超过690万开发者。


这一切才刚刚开始,要实现真正的AGI,下一代模型需要具备更大规模、更通用、更泛化的知识体系,同时也将具备更复杂更多层次的逻辑推理能力。全世界先进模型竞争的投入门槛,将达到数十亿、数百亿美金的级别。AI具备创造能力、帮助人类解决复杂问题的路径清晰可见,也打开了AI在各行业场景中广泛应用的可能性。


第二,AI最大的想象力不在手机屏幕,而是接管数字世界,改变物理世界。


今天很多行业内人士一直在想AI最大的应用是什么,可能一直在想手机上有什么AI时代创新的超级APP。但我们认为AI最大的想象力绝对不是在手机屏幕上,AI最大的想象力是在通过渗透数字世界、接管数字世界,并改变物理世界,这才是AI最大的想象力。


我们不能只停在移动互联网的视角看未来。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。


过去三十年,互联网浪潮的本质是连接,互联网连接了人、信息、商业和工厂,通过连接提高了世界的协作效率,创造了巨大的价值,改变了人们的生活方式。但生成式AI是通过生产力的供给创造了新的价值,从而为世界创造了更大的内在价值,也就是总体提高了整个世界的生产力水平。这种价值创造,可能是移动互联网连接价值的十倍、几十倍。


我们认为生成式AI将逐渐渗透数字世界,并接管数字世界,物理世界的大部分事物都会具备AI能力,形成下一代的具备AI能力的全新产品,并与云端AI驱动的数字世界连接产生协同效应。


很长一段时间,AI的焦点主要集中在模拟人类的感知能力,比如自然语言理解、语音识别、视觉识别。但是生成式AI的崛起,带来了质的飞跃,AI不再仅仅局限于感知,而是首次展现了思考推理和创造的力量。


生成式AI让世界有了一个统一的语言——Token。它可以是任何文字、代码、图像、视频、声音,或者是人类千百年来的思考。AI模型可以通过对物理世界数据的Token化,理解真实世界的方方面面,比如人类行走、奔跑、驾驶车辆、使用工具,绘画、作曲、写作、表达、教学、编程的技巧,甚至是开公司创业。理解之后,AI就可以模仿人类去执行物理世界的任务。这将带来新的产业革命。


我们看到,汽车行业正在发生这样的变革。之前的自动驾驶技术,是靠人来写算法规则,几十万行代码,仍然无法穷尽所有的驾驶场景。采用“端到端”的大模型技术训练后,AI模型直接学习海量人类驾驶视觉数据,让汽车具备了超越大部分司机的驾驶能力。


机器人将是下一个迎来巨变的行业。未来,所有能移动的物体都会变成智能机器人。它可以是工厂里的机械臂、工地里的起重机、仓库里的搬运工、救火现场的消防员、包括家庭里的宠物狗、保姆、助理。


未来,工厂里会有很多机器人,在AI大模型的指挥下,生产机器人。现在每个城市家庭里有一辆或者两辆车,未来每个家庭可能会有两三个机器人,帮助人们提升生活当中的效率。


可以想见,AI驱动的数字世界连接着具备AI能力的物理世界,将会大幅提升整个世界的生产力,对物理世界的运行效率产生革命性的影响。


第三,AI计算正在加速演进,成为计算体系的主导。


无论是我们看到端侧的计算,还是云端的世界,这都是一个非常明显的趋势。生成式AI对数字世界和物理世界的重构,将带来计算架构的根本性变化。过去几十年,CPU主导的计算体系,正在加速向GPU主导的AI计算体系转移。未来几乎所有的软硬件都会具备推理能力,它们的计算内核将变成GPU AI算力为主、CPU传统计算为辅的计算模式。


我们看到,在新增算力市场上,超过50%的新需求由AI驱动产生,AI算力需求已经占据主流地位。这一趋势还会持续扩大。过去一年,阿里云投资新建了大量的AI算力,但还是远远不能满足客户的旺盛需求。


今天我们接触到的所有客户、所有开发者、所有CTO,几乎都在用AI重构自己的产品。大量新增需求正在由GPU算力驱动,大量存量应用也在用GPU重新改写。在汽车、生物医药、工业仿真、气象预测、教育、企业软件、移动APP、游戏等行业,AI计算正在加速渗透。在各行各业,看不见的新产业革命正在悄然演进。


所有行业,都需要性能更强、规模更大、更适应AI需求的基础设施。


阿里云正在以前所未有的强度投入AI技术研发和基础设施建设。我们的单网络集群已拓展至十万卡级别,正在从芯片、服务器、网络、存储到散热、供电、数据中心等方方面面,重新打造面向未来的AI先进基础设施。


从历史经验来看,人们对新技术革命,往往对短期高估,又对长期低估。因为在新技术应用早期,渗透率还比较低,人们经验没有发生过此类事件,大部分人的本能会产生怀疑,这很正常。但新技术革命会在人们的怀疑中成长,让很多人在迟疑中错过。


站在AI时代浪潮的开端,我感到无比兴奋。今天,我们请到大模型、自动驾驶和机器人三个领域的企业家和科学家。他们正在飞奔着用AI重构我们的世界,期待他们的精彩分享。


谢谢大家。希望大家度过一个充实、愉快的云栖。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 测试技术
让AI学会"看屏幕操作"!豆包1.5·UI-TARS:字节跳动推出 GUI Agent 黑科技,办公效率暴增300%
字节跳动推出的豆包1.5·UI-TARS是首个整合视觉理解、逻辑推理与界面操作的GUI Agent模型,无需预定义规则即可完成复杂图形界面交互任务,已在火山方舟平台提供服务。
344 2
让AI学会"看屏幕操作"!豆包1.5·UI-TARS:字节跳动推出 GUI Agent 黑科技,办公效率暴增300%
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Cosmos-Reason1:物理常识觉醒!NVIDIA 56B模型让AI懂重力+时空法则
Cosmos-Reason1是NVIDIA推出的多模态大语言模型系列,具备物理常识理解和具身推理能力,支持视频输入和长链思考,可应用于机器人、自动驾驶等场景。
132 8
Cosmos-Reason1:物理常识觉醒!NVIDIA 56B模型让AI懂重力+时空法则
|
5月前
|
人工智能 算法 前端开发
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架,支持多设备连接、高效模型集成,助力开发者快速构建复杂的多模态代理应用。
493 72
OmAgent:轻松构建在终端设备上运行的 AI 应用,赋能手机、穿戴设备、摄像头等多种设备
|
3月前
|
传感器 人工智能 算法
AI战略丨AI 改变物理世界,绘制智实融合产业发展图谱
通过打破传统界限,实现虚拟与现实之间的无缝对接,我们正步入一个前所未有的智能新时代。
|
4月前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
3139 21
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
2月前
|
传感器 人工智能 自然语言处理
跨越机器物理世界和AI虚拟世界之间的鸿沟,是软硬件一体化创新关键 法思诺创新 法思诺创新​
法思诺创新专注于跨越机器物理世界与AI虚拟世界的鸿沟,推动软硬件一体化创新。在物理世界中,机器人虽有强壮躯体却缺乏灵活大脑;而在虚拟世界里,AI虽智慧无穷却无实体行动力。两者融合是未来智能化发展的关键。通过AI赋能,智能机器人已在智能制造、智慧物流、智慧服务及特种作业等领域大显身手。例如,AI工业机器人提升生产精度与效率,仓储机器人优化物流调度,服务机器人提供人性化交互,特种机器人执行危险任务。软硬件一体化创新实现了机器人感知、决策、运动和人机交互的全面智能化,是智能化时代的大势所趋。正如威廉·吉布森所言:“未来已来,只是尚未均匀分布。”率先拥抱软硬件一体化创新者,将赢得未来。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接
Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。
271 2
|
5月前
|
人工智能 API 开发者
阿里CEO吴泳铭-2024互联网大会发言:AI的最大价值是推动生产力变革
11月21日,2024年世界互联网大会“互联网企业家论坛”在乌镇召开。阿里巴巴CEO吴泳铭表示,AI的最大价值在于推动各行各业的生产力变革,而非仅限于开发超级APP。他强调,发展AI需建设繁荣的技术、产品和市场生态。目前,30多万家企业已接入阿里“通义”大模型,应用于代码开发、药物研发等场景。阿里巴巴坚持开源路线,全球开发者基于“通义千问”开发的衍生模型已突破7.8万个。吴泳铭认为,AI的发展需要行业共同努力,建设繁荣生态以实现高质量持续发展。
|
6月前
|
人工智能 自然语言处理 文字识别
让AI像人类一样操作手机,华为也做出来了
华为诺亚方舟实验室研发的LiMAC系统,通过轻量级Transformer网络和微调的视觉-语言模型,实现了高效、准确的Android应用交互与控制。该系统在多个公开数据集上展现出卓越性能,提升了任务执行速度与准确性,同时具备良好的灵活性,但需大量训练数据支持。
364 8
|
8月前
|
人工智能 自然语言处理 机器人
“今日热点:AI像人类一样使用手机和电脑”,魔搭社区的开源项目已先行一步
今天,Claude发布了Computer Use的新功能,可以让AI像人一样使用电脑!

热门文章

最新文章