欢迎您来到金斧子,投资有风险,选择需谨慎!
当前位置: 首页 > 私募社区 > “多云“和”私有化“,企业级刚需推动DataBricks和MosaicML
“多云“和”私有化“,企业级刚需推动 DataBricks 和 MosaicML
2023-06-30
541
0

Databricks已同意以13亿美元收购生成式AI创企MoaicML 。此前MoaicML融资6400万美元,拥有62名员工,在上一轮的融资中,公司估值为2.2亿美元,而本次收购中MosaicML的估值直接提高近6倍。

MosaicML在生成AI软件基础架构、模型训练和模型部署方面拥有专业知识,加上Databricks的客户覆盖范围和工程能力,以及对于打破大模型垄断的价值观,和研究者出身的创业家团队,成为13亿 交易的基础。

生成AI正处于一个关键时期。未来主要依靠少数人拥有的大型通用模型,还是见证由世界各地的开发人员和公司构建自定义的模型?这是 DataBricks 对 MosaicML 收购之外的未解答案。

在安全环境中,在任何云上能够构建AI模型,这也是这笔交易成立的关键。MosaicML 平台的架构能够让企业级客户在任何云提供商上训练大规模的AI模型,同时数据仍然安全地存储在企业自己的私有网络中。

初创企业和大型企业都可以在训练模型和工作负载时保持最大的自主性。

对于担心数据隐私和安全的组织来说,将企业的数据发送到不一定可靠的第三方API,尽管大型语言模型(LLMs)和其他先进的AI可以带来丰厚的商业机会,一些企业级客户仍然会有所踟蹰。

MosaicML 使企业及厂商能够使用自定义数据进行预训练、微调和部署模型,全部在企业的内部完成。

在完全拥有模型所有权和数据隐私的情况下,金融服务和医疗保健等受监管的行业可以利用自定义大型语言模型(LLMs)的全部能力来处理业务用例,而不会依赖不可靠的第三方API。

MosaicML平台是现代ML研究不可或缺的工具,它在规模基础设施的复杂性方面进行了抽象,这使得企业能够开发针对性属于自己的AI应用之路,在加速模型研发和节省成本的情况下大步开拓。

1、和Databricks的共同审美:研究员转型为企业家,打破AI通用模型的垄断

美国时间6月26日,MosaicML宣布加入Databricks,以进一步实现让任何组织能够自定义AI模型开发的目标。

主创团队表达,创建MosaicML是为了普惠每一个工程师能够享受大规模神经网络训练和推断技术。随着生成AI浪潮,这一使命更加确定,而且绝不是把这种能力集中在少数通用模型厂商手中中。

Ali、Patrick和其他Databricks联合创始人接触到 MosaicML 寻求合作时,MosaicML 立即认识到他们是志同道合的人:研究员转型为企业家,共享相似的使命。他们强大的公司文化和工程重点反映了我们认为成熟的 MosaicML 将是什么样子。

这笔交易将受到某些惯例的关闭条件和监管审批的限制,直到这些审查完成,公司将保持独立,MosaicML 主创团队表达对与 Databricks 一起所能做的事情感到兴奋。

MosaicML 旗舰产品将继续销售。对于当前的客户和那些在等待列表上的客户:这种合作会更快地为客户提供服务。MosaicML的训练、推断和MPT家族基础模型,已经为全球企业和开发人员提供生成AI支持。

对于Databricks而言, MosaicML在生成AI软件基础架构、模型训练和模型部署方面的专业知识,加上Databricks的客户覆盖范围和工程能力,将使双方平衡彼此的优势。

MosaicML 的董事会成员Matt Ocko在DCVC,Shahin Farshchi在Lux Capital,Peter Barrett在Playground Global,等投资者支持了这笔交易。

2、MPT-30B:提高开源基础模型的标准

MPT-30B,这是MosaicML 开源模型Foundations Series中更为强大的新成员,使用H100s上的8k上下文长度进行训练。

今年5月推出MPT-7B以来,ML社区热切地拥抱了开源的MosaicML Foundation Series模型。MPT-7B基础版,-Instruct,-Chat和-StoryWriter模型一共被下载了超过300万次。

以下是其中的几个:LLaVA-MPT为MPT添加了视觉理解,GGML在Apple Silicon和CPU上优化了MPT,而GPT4All则使用MPT作为后端模型,在笔记本电脑上运行类似于GPT4的聊天机器人。

MosaicML Foundation Series的MPT-30B,这是一个新的、授权商用的开源模型,比MPT-7B更强大,并且胜过了原始的GPT-3。

此外,MosaicML 还发布了两个经过微调的变体,MPT-30B-Instruct和MPT-30B-Chat,它们是基于MPT-30B构建的,分别擅长单轮指令跟随和多轮对话。

所有MPT-30B模型都具有特殊功能,使它们与其他LLM不同,包括训练时的8k令牌上下文窗口,通过ALiBi支持更长的上下文,以及通过FlashAttention实现高效的推理和训练性能。

MPT-30B家族还具有强大的编码能力。该模型在NVIDIA H100s上扩展到了8k上下文窗口,这使它成为(据目前所知)第一个在H100s上训练的LLM。

有几种方法可以使用MosaicML平台进行自定义和部署。

*MosaicML训练通过微调、领域特定的预训练或从头开始训练,使用私有数据自定义MPT-30B。企业始终拥有最终的模型权重,并且数据永远不会存储在 MosaicML 的平台上。按每GPU分钟计费。

*MosaicML推理:入门版。使用Python API,通过标准定价每1K个令牌,与托管的MPT-30B-Instruct(和MPT-7B-Instruct)端点交流。

*MosaicML推理:企业版。使用优化推理堆栈,在MosaicML计算或您自己的私有VPC上部署自定义MPT-30B模型。按每GPU分钟计费,支付使用的计算费用即可。

本文来自微信公众号“B Impact”(ID:tobjizhi),作者:宇婷


尚未登录,请 后再评论
发表
  • 当前帖子暂无评论
持牌机构 / 强大股东