亿洋云财经网为您提供最快最全最准的资讯

英伟达斥资7亿美元收购GPU集群优化初创公司Run:ai_ Training _ Software _ Work。

财经新闻 2024-04-25 浏览(112) 评论(0)
- N +

英伟达今天透露,它已经收购了Run:ai,这是一家开发软件以优化显卡集群性能的初创公司。

收购条款没有披露。TechCrunch援引两名知情人士的话说,这笔交易对Run:ai的估值为7亿美元,几乎是这家总部位于特拉维夫的初创公司在收购前融资额的六倍。

Run:ai的正式名称为Runai Labs Ltd,提供的软件主要用于加速配备GPU的服务器集群。据该公司称,其技术支持的GPU环境可以运行比其他方法多10倍的人工智能工作负载,并且它通过修复经常影响GPU驱动的服务器的几种常见处理效率低下问题来提高人工智能性能。

run:AI解决的第一个问题源于AI模型通常使用多个显卡进行训练。为了在GPU集群上分布神经网络,开发人员将把它分成多个软件段,并在不同的芯片上训练每个段。这些AI片段在训练期间必须定期相互交换数据,这可能会导致性能问题。

如果AI段必须与当前未运行的神经网络的不同部分交换数据,则必须暂停处理,直到后一个模块上线,由此产生的延迟将减慢AI训练的工作流程。Run:ai可以确保促进数据交换所需的所有ai片段同时在线,从而消除不必要的处理延迟。

Run:ai软件还可以避免所谓的内存冲突。在这种情况下,两个AI工作负载将尝试同时使用GPU内存的同一部分。GPU会自动解决此类错误,但故障排除过程需要时间。在AI训练过程中,修复内存冲突所花费的时间将显著增加并减慢处理速度。

在同一个GPU集群上运行多个AI工作负载也可能导致其他类型的瓶颈。如果一个工作负载需要比预期更多的硬件,它可能会使用分配给其他应用程序的基础架构资源并降低它们的速度。run:AI提供的功能可以确保每个AI模型获得足够的硬件资源来完成分配的任务,并且没有延迟。

Nvidia副总裁兼DGX云部门总经理Alexis Bjorlin在一篇博客文章中详细介绍了这一点。他说:“公司在Kubernetes上构建了一个开放平台,该平台是现代人工智能和云基础设施的编排层,支持所有主流的Kubernetes变体,并与第三方人工智能工具和框架集成。”

润:ai主要销售优化核心基础设施的平台和另外两个软件工具。第一个是Run:ai Scheduler,它为开发团队和ai项目提供了分配硬件资源的接口,第二个是Run:ai Dev,它可以帮助工程师更快地设置用于训练神经网络的编码工具。

英伟达在其许多产品中都附带了Run:ai软件,包括英伟达企业版和DGX系列人工智能优化设备。英伟达企业版是英伟达为其数据中心GPU提供的一套开发工具。Run:ai也可以在DGX云上使用,通过该产品,企业可以在主流公共云中访问Nvidia AI设备。

Bjorlin表示,“在可预见的未来”,Nvidia将继续在当前的定价模式下提供Run:ai工具,同时,Nvidia将发布该软件的增强功能,重点关注有助于优化DGX云环境的功能。

Bjorlin详细介绍道:“客户可以期望他们将受益于更好的GPU利用率、改进的GPU基础设施管理以及开放架构带来的更高灵活性。”

标签: