这一夜,人工智能(AI)又双叒叕发生了很多大事。

3月14日,恰逢GPT-4发布一周年的时刻,美国通用人形机器人公司Figure宣布,旗下人形机器人Figure 01内置ChatGPT技术,如今终于能够与人一起实时对话功能。

其次,OpenAI同时宣布与 Le Monde 和 Prisa Media 合作,将法语和西班牙语新闻内容引入ChatGPT并帮助训练OpenAI模型。

再次,OpenAI竞争对手谷歌再扔下“震撼弹”,宣布推出首个通过训练学习游戏技能的AI Agent游戏应用SIMA,10秒完成任务,可实现600个基本技能;另一竞品Anthropic发布Claude 3 Haiku中杯模型,官方声称这是同类产品中“最快、最实惠的模型”。

最后,AI 芯片领域也是动作不断,全球最大的生成式 AI 芯片来了!

3月13日晚,美国 AI 芯片领域明星公司Cerebras 宣布推出5nm制程的WSE-3芯片,尺寸几乎与 12 英寸晶圆相当,拥有4T(400万亿)晶体管,高于WSE-2的 2.6T,用于训练 AI 模型。

以下是钛媒体App梳理了昨夜今晨 AI 领域发生的10个重要消息:

1、GPT-5 Turbo来了?

备受关注的GPT-5系列模型被曝光。

3月14日消息,在微软 Copilot Pro的付费介绍中,出现了GPT-5的字眼,显示开通可以优先访问美国OpenAI公司研发的GPT-5 Turbo大模型。

据悉,2022年11月30日,AI聊天机器人ChatGPT正式发布,引发关注。

去年3月14日,OpenAI发布新一代多模态大模型GPT-4,支持图像和文本输入以及正确的文本输出,拥有强大的识图能力,文字输入限制提升至2.5万字,支持多个语言,回答准确性显著提高,让新的ChatGPT更聪明。

2023年11月,OpenAI公布GPT-4 Turbo模型,支持长文本,性能更强,API价格最低仅需0.03美元/1000个token;同时还推出快速创建定制版本ChatGPT的GPTs、GPT Store应用商店,以及具备智能体的Assistants API。

今年2月,OpenAI突然发布 AI 视频生成模型Sora,引发关注。这是继Runway、Pika、谷歌和 Meta 之后,OpenAI 正式加入到这场 AI 视频生成领域“战争”当中,同时也是GPT、DALL·E之后,2024年 OpenAI 发布的旗下最新、最重要的 AI 产品系列。

OpenAI强调,“Sora是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。”

此前,OpenAI CEO奥尔特曼(Sam Altman)曾透露,2024年将会发布GPT-5,但整个进展受到董事会罢免、马斯克起诉等因素影响。

今年初,有用户发现,Bing和DuckDuck Go等搜索引擎在GPT-4.5 Turbo正式发布之前就已经对GPT-4.5 Turbo的产品页面建立了索引。当点击进入GPT-4.5 Turbo 的索引链接会进入到 404 页面,但页面上可以看到一些预告文字,称GPT-4.5 Turbo是OpenAI迄今为止最快、最准确、最具可扩展性的模型。

网友们猜测GPT-4.5 Turbo正式发布的日期可能是当地时间3月14日——GPT-4 发布周年纪念日。奥尔特曼3月9日在推文中暗示,等待是值得的。

如今来看,OpenAI即将在这几天内发布GPT-5系列模型。

2、只用 13 天,OpenAI 做出能听、能说、能自主决策的机器人大模型

钛媒体App获悉,北京时间3月14日凌晨,美国通用人形机器人公司Figure发布一则最新视频,展示该公司与OpenAI的首个合作成果,即让旗下人形机器人Figure 01完成实时对话功能。

Figure创始人、CEO布雷特·阿德考克(Brett Adcock)透露,Figure 01的集成摄像头将数据发送到由OpenAI训练的大型视觉语言模型,而Figure自己的神经网络也通过机器人上的摄像头以10 Hz频率拍摄图像。另外,OpenAI 还负责理解口语单词的能力,

他强调,所有这些涌入的信息都被Figure 01的神经网络转化为快速、灵巧的机器人动作。

据悉,Brett Adcock去年成立了Figure。在此之前,他是一位连续创业者,此前创立的 AI 招聘软件 Vettery 以 1 亿美元被全球最大的招聘公司 Deco Group 收购,而后创立的低空飞机公司Archer也成功实现IPO。

此次成立Figure,他个人投入至少 1 亿美元。公司目标是“创造了世界上第一个商业上可行的通用人形机器人”。即价格实惠且实用的人形机器人,让它们可以轻松融入制造、零售和仓库等商业领域。

有报道称,Figure的开发团队堪称豪华,研究人员来自波士顿动力公司、特斯拉、谷歌DeepMind 和Archer Aviation等一批关键人物。

到了2023年10月,Figure 01已经能够独立运行并执行基本的自主任务。到年底,这款机器人已具备观看和学习的能力。

2024年1月中旬,Figure宣布01人形机器人进入宝马的员工队伍当中。

今年2月,Figure宣布成功完成B轮约6.75亿美元融资,投资方包括OpenAI、微软、英伟达、英特尔等机构,投前估值约为 20 亿美元。同时,Figure还与OpenAI达成合作协议,宣称将为人形机器人开发下一代 AI 模型。

如今,仅仅过去13天,这一合作已经取得了显著进展。

此次,利用ChatGPT-4技术,结合Figure先进的神经网络,使机器人能够执行类似人类的快速、灵巧动作。同时,新的Figure 01机器人可实现描述周围环境、决策常识推理、将模糊请求(如“我饿了”)转化为某些上下文、执行适当的行为、用简单的英语描述执行特定动作的原因等主要功能。

另外,从技术角度看,新的Figure 01人形机器人,可以通过正常速度运行,实现实时反馈。并且通过从机器人的摄像头获取的图像和通过机器上的麦克风捕获的转录文本,输入到一个OpenAI 训练的大型多模态模型中,完全反馈和理解图像和文本。

硬件层面,Figure 01机器人使用搭载摄像头和OpenAI训练的大型视觉语言模型(VLM),实现200Hz的24自由度动作。而且,Figure在工程方面进行了垂直整合,包括电机、固件、热管理、电子设备等。

整体来看,新的Figure 01人形机器人成果,展示了如何通过综合应用多模态理解能力和机器学习,实现与机器人的自然交互和智能行为规划。

3、全球首部全面监管 AI 法规获批

据欧洲议会官网消息,当地时间3月13日,欧洲议会以523票赞成、46票反对、49票弃权通过了具有里程碑意义的《人工智能法案》(EU AI Act),使其成为全球首部全面监管AI的法规。

欧洲议会表示,该法案旨在保护基本权利、民主、法治和环境可持续性免受高风险人工智能的影响,同时促进创新,以将欧洲“打造成为该领域的领导者”。该法案将禁止某些“威胁公民权利”的人工智能应用,包括基于敏感特征的生物识别分类系统,以及从互联网或闭路电视录像中无目标地抓取面部图像以创建面部识别数据库。操纵人类行为或利用人类弱点的 AI 也将被禁止。

虽然该法律在官方公报上发布20天后正式生效(可能是今年5月),但一些规则(例如影响聊天机器人等通用 AI 系统的规则)将在12个月后生效,以便让更多 AI 公司遵守。

事实上,从提出建议到正式达成,欧盟《人工智能法案》走了漫长的一段路。

该法案最早基于欧盟委员会在2021年提出的一项建议,指出未来的 AI 系统应该有一定的限制和风险规则,即AI应用的潜在风险越高,对它的要求就会越高,欧盟期望这些规则能够在全世界范围内得到认可和应用。

2023年5月11日,欧盟议会内部市场委员会和公民自由委员会投票通过了《人工智能法案》的谈判授权草案;6月,欧洲议会层面就谈判授权草案进行投票表决。最后结果显示,法案有望在2023年底正式通过并成为全球首部综合性 AI 监管法律。

2023年12月,经过马拉松式的谈判后,欧盟终于敲定了 AI 监管协议。这是全球首个广泛覆盖包括生成式 AI 在内的监管法案,而且也是目前全球对AI监管最为严格的法案。

2024年2月2日,欧盟27国代表在《人工智能法案》文本上达成临时政治共识,标志着欧盟在立法监管人工智能领域迈出了坚实的一步。

直至今日的议会会议,欧洲议会终于以压倒性的523票赞成的结果,正式通过了该法案。

在新的《人工智能法案》中,立法者同意严格禁止使用敏感特征(例如政治、宗教、哲学信仰、性取向、种族)的生物识别分类系统,而且禁止从互联网或闭路电视录像中无目的地抓取面部图像以创建面部识别数据库,禁止工作场所和教育机构中的情绪识别,禁止基于社会行为或个人特征的社会评分,AI 利用人们曾经的弱点(由于年龄、残疾、社会或经济状况)等。同时,该法律禁止利用 AI 进行“社会评分”以及“操纵人类行为”的 AI 系统。新规还禁止利用人工智能剥削那些因年龄、残疾或经济状况而处于弱势的人。

欧盟内部市场专员蒂埃里·布雷东(Thierry Breton)表示:“欧洲现在成为了 AI 领域的全球标准制定者。”

此次立法的成功堪称AI商业领域上的里程碑事件。因为单从商业视角来看,这一法案的通过率先为欧盟内部的人工智能创新提供了明确的法律框架,有了这一法案做背书,企业不仅能够准确地评估其AI项目,更会在法律的保障下变得更大胆,投入更多的资源进行创新。

4、谷歌DeepMind推出首个AI Agent游戏应用SIMA

钛媒体App获悉,北京时间3月13日,谷歌DeepMind宣布,其推出首个通过训练学习游戏技能的AI Agent游戏应用SIMA。

具体来说,SIMA不需要自定义 API 来玩游戏或访问源代码,拥有在未经过特定环境训练的情况下(零样本学习)执行基本任务的能力,支持可扩展、可指导、多世界代理,约10秒内完成简单的游戏任务,可实现600个基本技能,涵盖了在超过10个模拟环境中的具身交互。因此,SIMA更像人类,而不是一个只做自己事情的强大 AI。

同时,谷歌还宣布与Hello Games、Embracer、Tuxedo Labs、Coffee Stain 等八家游戏开发商合作,在九种不同视频游戏上训练和测试 SIMA。目前,SIMA仅处于研究阶段。

谷歌 DeepMind 研究员兼 SIMA 联合负责人 Tim Harley表示,“SIMA 并不是为了赢得比赛而训练的,而是为了赢得比赛而训练的。它经过训练可以运行它并执行它所指示的操作。”

据悉,所谓Agent,就是在大语言模型(LLM)技术下,Agent成为某种能自主理解、规划决策、执行复杂任务的智能体。用感知(Perception)、规划(Planning)和行动(Action)实现人的智能交互。

OpenAI联合创始人Andrej Karpathy曾表示,“AI Agent代表着一个疯狂的未来。”

截至目前,国内外包括谷歌、OpenAI、字节挑战、面壁智能、智谱 AI 等企业都在布局AI Agent技术产品。

在此之前,谷歌已推出Gemini、Gemma等多个系列大模型。其中,最新的Gemini Ultra已经成为全球第一个超越人类专家水平的 AI 模型。

谷歌DeepMind推出的SIMA,全名为Scalable, Instructable, Multiworld Agent(可扩展、可指导的多世界代理),旨在开发能够在多个模拟的3D环境中遵循任意语言指令的智能代理。

相比其他Agent代理应用,SIMA项目拥有多环境适应性、语言理解、实时交互、大规模数据驱动学习、零样本学习能力以及负责任的AI开发等方面的优势,其在创建通用 AI 和推动未来技术发展方面具有巨大潜力。

根据谷歌官方最新的31页SIMA技术论文,新技术主要有以下九个核心信息点:

  • 项目目标:创建一个能够在任何虚拟3D环境中执行人类所能执行的任何任务的智能代理。这包括使用自然语言指令来控制代理在多样化的虚拟环境中的行为。
  • 关键挑战:将语言与感知和具身行为相结合,以便完成复杂任务。这需要代理能够理解语言并在3D环境中执行相应的动作。
  • 方法论:SIMA项目通过在多种虚拟3D环境中训练代理来实现这一目标,这些环境包括研究环境和商业视频游戏。代理通过图像观察和语言指令与环境交互,并使用键盘和鼠标动作作为输出。
  • 代理设计:SIMA代理使用了一个通用的、类人界面与环境交互。输入是图像观察和语言指令,输出是键盘和鼠标动作。这种方法允许代理在视觉上复杂和语义上丰富的环境中理解语言,并能够在新环境中轻松运行。
  • 数据和训练:项目收集了大量来自研究环境和商业视频游戏的游戏数据,用于训练代理。这些数据包括视频、语言指令、对话和记录的动作等。
  • 评估方法:由于商业视频游戏不设计用于报告任意语言任务的完成情况,研究者开发了多种评估方法,包括使用光学字符识别(OCR)检测屏幕上描述任务完成的文本,以及使用人类评估代理行为的录制视频。
  • 初步结果:论文描述了SIMA代理在多个研究环境和商业视频游戏中的初步进展和有希望的初步结果。
  • 未来工作:研究者计划扩展SIMA项目,包括增加更多环境和数据集、提高代理的鲁棒性和可控性、利用更高质量的预训练模型,并开发更全面和受控的评估方法。
  • 责任和伦理:论文还讨论了负责任的模型开发方法,以识别、衡量和管理可预见的伦理和安全挑战。SIMA项目遵循谷歌的AI原则,并确保其社会利益大于风险。

当前,SIMA通过 600 项基本技能进行评估,涵盖导航(例如“左转”)、对象交互(“爬梯子”)和菜单使用(“打开地图”)。DeepMind表示,其已经训练并执行SIMA项目,最终可在约10秒内完成的简单任务。此外,谷歌还评估了SIMA完成近 1500 个独特游戏内任务的能力,最终发现可与人类能力相当。

Harley坦言,在游戏选择上,团队选择了更注重开放式游戏而非叙事的游戏,以帮助SIMA学习一般游戏技能。但他非常希望未来SIMA能学习自发性游戏能力。

The Verge表示,SIMA 并不会像英伟达和 Convai 一样成为一个由 AI 驱动的 NPC,而是游戏中影响结果的另一个玩家。SIMA 项目联合负责人 Frederic Besse 表示,现在判断像这样的AI Agent能为研究领域之外的游戏带来哪些用途还为时过早。

DeepMind方面强调,就像 AI NPC 一样,SIMA 最终可能会学会说话,以及可能会完成更复杂的任务,成为完美的 AI 游戏玩家,带领你走向胜利。

5、Anthropic发布Claude 3 Haiku中杯模型

当地时间3月13日,总部位于旧金山的初创公司Anthropic发布Claude 3 Haiku,这是其 Claude 3 AI 模型系列的最新产品。

Haiku 是同类智能产品中最快、最实惠的型号,称之为“中杯”,提供先进的视觉功能和行业基准的强大性能,但极具性价比。早前,Anthropic推出Claude 3 模型系列,其中包括Claude 3 Opus和Claude 3 Sonnet,从而为企业客户提供了一系列选项,以根据其特定用例平衡智能、速度和成本。

Haiku 的主要优势之一是速度,每秒能够处理 21,000 个Token(大约 30 页),提示的数量低于 32,000 个token。这种快速的处理能力使企业能够分析大量文档,例如季度备案、合同或法律案件,而所需时间只是其性能层中其他模型的一小部分。

Claude 3 Haiku 现已通过 Anthropic 的 API 提供给 claude.ai 上的 Claude Pro 订阅者。该模型还将很快登陆 Amazon Bedrock 和 Google Cloud Vertex AI,进一步扩大其对全球企业的访问范围。

Anthropic联合创始人兼首席执行官 Dario Amodei表示,Haiku 有两类客户:“对延迟敏感和对成本敏感。延迟敏感通常是面向用户的,例如,当您只想要一个良好的 UI 时。公司知道,如果[某些任务]需要三秒而不是一秒来响应,他们就会失去一小部分客户以及他们正在执行的任何工作流程。”

6、OpenAI将推出法语、西班牙语ChatGPT版本

3月14日,OpenAI宣布,已与两家主要欧洲出版商、法国报纸 Le Monde 和西班牙媒体集团 Promotora de Informaciones SA 或 Prisa 签署了许可协议,将把法语和西班牙语新闻内容引入 ChatGPT 并帮助训练OpenAI模型。

OpenAI 首席运营官 Brad Lightcap 表示:“我们致力于通过应用新的人工智能技术并增加内容创作者的机会来支持新闻业。” 他还表示,此次合作的目的是“让世界各地的 ChatGPT 用户能够以互动且富有洞察力的新方式与新闻联系。”

据该公司博客文章称,未来几个月,ChatGPT 用户将在 ChatGPT 的精选回复中看到 Le Monde 和 Prisa 的新闻内容摘要。ChatGPT 的响应还将提供原始文章的归属和“增强链接”,使用户能够从其新闻网站访问其他信息或相关文章。

并非每个渠道都与 OpenAI 合作。去年 12 月,《纽约时报》(NYTimes)起诉这家初创公司,指控其未经许可使用其受版权保护的文章来构建其技术。OpenAI 对这些说法提出异议,称《纽约时报》没有“讲述完整的故事”。

尽管 OpenAI 与NYTimes存在分歧,但它已经在该行业取得了重大进展。据彭博社此前报道,该初创公司去年 12 月与 Axel Springer 达成了一项价值数千万欧元的多年内容许可协议。据彭博社一月份报道,该公司一直在与 CNN、福克斯公司和《时代》杂志等出版商就新闻内容授权事宜进行谈判。

7、全球最大的生成式 AI 芯片来了

3月13日晚,Nvidia 最大竞争对手之一 Cerebras Systems 推出了“Wafer Scale Engine 3”(WSE-3),这是其第三代 AI 芯片和世界上最大的半导体产品。

Cerebras 联合创始人兼首席执行官安德鲁·费尔德曼 (Andrew Feldman) 在一份声明中表示:“性能是两倍,功耗相同,价格相同,因此这将是真正的‘摩尔定律’步骤,我们行业已经很长时间没有看到这种情况了。我们认为,我们现在已经在计算和内存之间取得了适当的平衡。”

具体来说,全新WSE-3采用台积电5nm技术,晶体管数量从 2.6 万亿个晶体管增加到了2到4万亿,尺寸几乎相当于整个 12 英寸晶圆,并且将指令执行速度提高了一倍,从 62.5 petaFLOPs 增加到 125 petaFLOPs。(1 petaFLOP 是指每秒 执行1 万亿次浮点运算)

另外,在WSE-3上,Cerebras 保持了逻辑晶体管与存储电路的相同比例,仅将片上 SRAM 的存储容量从 40GB 略微增加到 44GB,并将计算核心的数量从 850,000 个略微增加到 900,000 个。

据悉,Cerebras成立于2016年,2021 年 4 月发布了 WSE-2——全球最大的拥有神经网络技术的 AI 训练芯片。2021年11月,公司完成2.5亿美金的F轮融资,估值高达40亿美金,是全球 AI 芯片领域独角兽企业。

8、英伟达支持的Together AI再获融资,投后估值为12.5亿美元

当地时间3月13日,英伟达支持的人工智能公司Together AI宣布完成新一轮融资,总额达1.06亿美元,投后估值为12.5亿美元,本轮融资由Salesforce Ventures领投,Coatue Management 、 Lux Capital 和 Emergence Capital 等跟投。

自去年人工智能赛道火热,投资者纷纷押注人工智能初创企业,Together AI的公司估值也翻了一番。

Together AI的首席执行官Vipul Ved Prakash表示,本轮融资将用于租赁更多计算能力,并聘请研究人员来构建新的模型架构。目前公司已拥有来自 AI 初创公司和跨国企业的4.5万名注册用户。

据悉,Together AI成立于2022年6月,因其可以提供对英伟达广受欢迎的图形处理单元(GPU)的访问而深受市场欢迎。目前,Together AI正试图扩展到一个平台,帮助开发者构建或定制他们的开源 AI 模型。

融资方面,2023年5月,Together AI获得2000万美元种子轮融资,2023年11月再度获得由凯鹏华盈 (Kleiner Perkins) 领投,英伟达、Emergence Capital等机构跟投的1.025亿美元(约7.3亿元)A轮融资。

据悉,Together AI开发的主要产品包括:类ChatGPT开源模型RedPajama-INCITE,开源30万亿训练数据集RedPajama-Data-v2以及开源大语言模型训练、推理加速器FlashAttention v2。

此外,Together AI还与英伟达、 Crusoe Cloud、Vultr等伙伴进行合作,在欧美地区运营了一个云计算中心,为生成式AI初创企业提供推理、训练等服务。

9、微软4月1日上线新型网络安全软件,每小时4美元

3月14日,微软公司宣布,将于4月1日推出由Open AI驱动的新型网络安全软件Security Copilot。该软件将作为微软现有安全产品(例如防病毒软件Defender和登录软件Entra ID)的附加组件出售。

据悉,Security Copilot提供了一个AI聊天机器人,安全专业人员可以使用它自动总结从安全软件收集的数据,辨别某些代码是否是恶意的。此外,Security Copilot还能提供有关微软正在跟踪的黑客组织的信息。

微软公司安全业务副总裁Vasu Jakkal表示,Security Copilot基于OpenAI的GPT-4模型,并且还接受了微软内部安全数据的培训,能够更有效地准确回答安全问题。据Vasu Jakkal介绍,该软件将根据用户使用时长进行计费,每小时约4美元(约合人民币28.75元)。

10、OpenAI将于年内对公众开放Sora,新增音频及视频编辑功能

3月14日消息,OpenAI 首席技术官 Mira Murati表示,OpenAI将于2024年正式上线文生视频大模型Sora,可能仅需几个月时间。

早在今年2月16日,OpenAI发布了多个由Sora生成的演示视频,其逼真度和连贯性令人惊艳。不过OpenAI只向视觉艺术家、设计师和电影制作人开放了Sora的使用。

Mira Murati表示,今年OpenAI 不仅会向公众开放使用Sora,还计划将音频功能整合进去,这可能会使生成视频中的场景更加真实。此外,由于AI工具并不总是能创作准确的图像,OpenAI 还在研发允许用户自行编辑Sora生成的视频内容的技术。

声明:任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。