什么是大模型？超大模型和 Foundation Model 呢？-科压科技

一、什么是大模型？超大模型和 Foundation Model 呢？

01—深度学习2.0 范式革命我更倾向于认为过去10年的人工智能产品的成功，都归功于以为深度卷积、训练神经网络等为核心算法+NVIDIA显卡驱动算力+规模化监督标注下的深度学习1.0范式。也就是深度学习1.0对于AI产业是基础性的生产力变革，而在这个基础上应用这些技术构建的产品和服务，那都是在这个生产力框架下的上层应用。这是过往看到的技术推动生产力革命，带动产品服务产业化的路径。最近几年，深度学习2.0范式正在进行，也就是以transformer结构为基础构建的大模型+自监督学习的方式构建超大规模数据集+知识+新的算力和算法框架。这又是一次技术涌现带来的生产力革命，可能带来新的产品化和商业机会。深度学习2.0的核心技术，我们就称之为【大模型】，或者叫【基础模型】、【基模型】。那【大模型/基础模型/基模型】是什么？斯坦福大学，还专门成立了基础模型研究中心（Center of Research of Foundation Model，CRFM），2021年8月，李飞飞、Percy Liang等百来位学者联名发布了文章：基础模型的机遇和挑战，On the Opportunities and Risks of Foundation Models. 论文地址：https://arxiv.org/pdf/2108.07258.pdf

范式转变开始于BERT、DALL-E、GPT-3 等大规模预训练模型的出现，从计算机视觉到自然语言处理，从机器人学到推理、搜索，这些大模型已经无处不在，而且还在继续【野蛮生长】。野蛮生长是一种涌现，是大模型的有效性的一种证明。在2018年BERT出现之前，语言模型的自监督学习本质上只是NLP的一个子领域，与其他NLP子领域并行发展。直到BERT横扫11项NLP任务后，这种格局被打破了。2019年之后，使用自监督学习构造语言模型俨然已经成为一种基础操作，因为使用BERT已经成为一种惯例。这标志着大模型时代的开始。同质化是这个阶段重要标志。如今，NLP领域几乎所有的SOTA模型都是少数几个基于Transformer的大模型进化而来。而且，这种同质化已经蔓延到了图像、语音、跨模态、蛋白质序列预测、强化学习等多个领域，Transformer技术、大模型、自监督方法似乎统一了2020年前后5年的AI技术社区。02—什么是大模型？大模型这么好？那【大模型/基础模型/基模型】是什么？那就要从模型参数、模型结构、数据、算力、知识五个维度来解释大模型。1.模型参数（大）模型参数是什么？aX1+bX2=Y，X1和X2是变量，Y是计算结果，a和b是参数，同理，一个神经网络模型，无论规模多大，它都是一个函数，只不过这个函数极其复杂，维度极其多，但依然是由参数、变量来组成，我们通过数据来训练模型，数据就是变量，而参数，就是通过变量的变换，学到的最终的常量。（1）关于语言大模型：模型参数规模的增长，经历了数次10倍级的跨越。从18年BERT的3.3亿参数，到19 年T5的110亿，20年GPT-3的1750亿，21年Gopher2800亿，模型参数量飞速增长。这只是在 Dense 类型的模型中进行对比，通过使用稀疏计算 MoE 模块，可以获得超大的模型，21年的Switch Transformer 就能达到1.6万亿的参数量，GLaM 也有 1.2万亿的参数量，清华智源的BAGUALU更达到了174万亿。5年内，模型参数数量从亿级别发展到100万亿级，增长100万倍。

A Roadmap for Big Model（2）关于图像大模型：我们通常关注语言模型参数规模的增长，这些数字更加有冲击感，显然图像模型的参数规模，就没那么震撼，但是对比图像模型的过往，依然发生了巨大的跃迁。比如resnet101模型参数量在千万级别，而借助MoE的视觉模型V-MoE可达到150亿参数，也有千倍增长（3）跨模态大模型：得益于AIGC的发展，跨模态大模型在22年下半年是大放异彩，阿里 21 年发布的多模态模型M6，模型参数达到10万亿。

A Roadmap for Big Model总结来说，我们这个年代（2022年12月）的【大模型】，语言模型的参数规模亿级～万亿级（BERT作为baseline），图像大模型参数规模在亿级～百亿级范围，我们都认为是大模型。2.模型结构（1）基础结构——Transformer

而Transformer内部是编码器encoder和解码器decoder的结构编码器是self-attention+前馈的基础结构

解码器是self-attention、encoder-decoder attention+前馈

堆叠和扩展，构建更大规模的模型

如果单从大的角度来说，transformer结构大概是从可扩展的角度做贡献，而至于以后有没有更好的可扩展表征能力更好的颠覆结构，让大模型再上一个台阶，那么我们所说的【大模型】只能说模型结构的选择性更多了，而非现在的单一化的基础结构。（2）稠密大模型的结构迭代也有1.0和2.0，这里的1.0就是早期的稠密（Dense）网络，比如OpenAI GPT-3，华为盘古/鹏程盘古α等，模型规模的扩展是全结构的扩容，稠密结构的transformer参数量在千亿级已经非常大了，但是稀疏结构的大模型则可以做到万亿级别。稠密结构，在计算上，可以理解为要加载整个网络，需要激活整个神经网络才能完成即使是最简单的任务，无论是在内存还是在计算上，都是庞大的开销。而区别于稠密网络的是另外一种，稀疏和动态的结构。（3）稀疏和动态谷歌是稀疏动态结构的先行者，他们于2017年首次提出了MoE（Sparsely-Gated Mixture-of-Experts Layer，稀疏门控的专家混合层），2021年推出的1.6万亿参数大模型Switch Transformers就融合了MoE风格的架构，训练效率与之前的稠密模型T5-Base Transformer相比提升了7倍。而今年的PaLM所基于的Pathways统一架构，更是稀疏动态结构的典范：模型能够动态地学习网络中的特定部分擅长何种任务，我们根据需要调用经过网络的小路径即可，而无需激活整个神经网络才能完成一项任务。这在多任务领域。在稀疏动态的支撑下，大模型计算代价不会那么大，甚至应该说，稀疏动态结构或许会为大模型往十万亿、百万亿参数发展铺平道路，稀疏动态结构或许是解决大模型尺寸与算力代价之间矛盾的最佳途径。3.数据模型参数的大幅增长，必然需要更大的数据来训练，否则，模型强大的表征能力就会轻易地过拟合。因此在数据维度，训练大模型，需要的是更大规模的数据，比深度学习1.0还要大。更大的数据如果使用传统有监督的方式，就会面临巨大的不现实，标注成本和周期的不现实。因此无法全部都使用标注好的监督数据，而是利用自监督的方法，挖掘数据中的信息。在语言模型中，互联网有大量的语料是包含监督信息的，这是丰富的燃料。训练的数据量也是实现了快速增长。从18年BERT的33亿词符，到19年XLNet的330亿词符，20年GPT-3的6800亿词符，数据量以十倍速度增长，但英文数据集大小也差不多止于此。22年PaLM 使用了7800亿词符训练。

不同大模型预训练数据集规模（大小：GB）的增长对比4.算力尽管深度学习1.0阶段对算力的要求，就一直持续增长，但那个阶段可以说用1张GPU卡可以解决，也算不上太夸张，很多个体，小企业也都可以玩，但是到了超大规模预训练模型阶段，超大的参数、数据带来对算力的要求，是普通玩家难以企及的。就算你构建了网络结构，获取到了数据，但是算力不行，训练不起来。从算力需求的角度看，从GPT的18k petaFLOPs，到 GPT-3的310M petaFLOPs，以及PaLM的2.5B petaFLOPs。

从更直观的角度，使用单块英伟达V100GPU训练的理论时间来感受大模型对算力的需求，典型的大模型例如GPT BERT GPT-2等的训练时间如下。

从成本的角度，感受大模型训练对算力成本的吞噬。例如，GPT-3的训练使用了上万块英伟达v100 GPU，总成本高达2760万美元，个人如果要训练出一个PaLM也要花费900至1700万美元。虽然训练会使用更大规模的算力消耗，推理会少非常多，比如清华大学与智谱AI联合开源的双语大模型GLM-130B，通过快速推理方法，已经将模型压缩到可以在一台A100（40G*8）或V100（32G*8）服务器上进行单机推理。但是一台A100的8卡机也是要大几十万（A100 40G单卡7w左右，8张卡则56w，那么整机也需要60w左右了），这个成本，对很多AI应用来说，还是很高。好消息则是算力在迭代，算力成本也在下降，NVIDIA的H系列显卡，比如H100，单从算力（fp32）相比以往T4（深度学习1.0时代主流显卡），达到7倍++，坏消息则是H100这样的强大算力显卡被限制出口国内。在大模型时代，针对Transformer结构优化的加速卡、工具链也在被不断推出，算力厂商在抢占大模型计算高地的同时，提高算力和降低成本，让大模型落地通路可行。5.训练算法对比深度学习1.0的模型，使用传统的方法已经无法训练超大模型，要么是训练成本巨大，要么是训练时间超长，要么是训练效果很差。算力上尽管通过提升单卡计算力，可以很大程度地解决需要超大集群超长时间才能训练大模型的问题，也可以让推理落地可行性大增。但是除了等待摩尔定律带来的晶体管缩小，算力提升等，在软件、算法结构、训练方法等依然有很多优化提升的方法，算法结构在上面提到了如稀疏动态的方式，但是在训练方法上，解决问题的思路是，并行，更好的框架，更好的并行，更高效利用显存。在这方面，针对大模型，深度学习2.0的落地先锋是一些新的框架、平台，比如colossal-AI，还有比如在深度学习1.0时代不断迭代的框架pytorch 2.0等。以colossal-AI为例，这是一个新的针对大模型的训练优化框架，这个框架通过并行、内存管理等技术，更好实现大模型的训练。按照colossal-AI的说法，Stability AI每年光计算就需要花费约2000万美元，想把大模型部署到生产线上，如果一个企业或者单位从零开始自己做，需要的人力为70人左右，而在欧美地区光是养活70个人，成本就需要2000万美金。这就是当下训练一个大模型的成本。（1）并行大模型的训练基本需要超大集群做并行计算，训练大模型大概有3种并行方式：数据并行、张量并行以及流水线并行。数据并行是指，比如有1万个数据表把它分到10台机器上，每台机器获得1000个数据。张量并行，是在层内划分数据。流水线并行，是在层与层之间去划分数据。colossal-AI号称利用LAMB方法，帮助谷歌把BERT训练时间从3天缩短到76分钟，帮助腾讯、索尼、谷歌等公司把模型训练时间从1小时缩短到1分钟。（2）内存管理由于模型参数量巨大，训练的时候加载到显存，显然对显存的要求极高，而通过利用CPU内存甚至NVMe硬盘，就可以扩展单张卡的能力，比如说用PyTorch baseline训练GPT-3，至少需要几百个GPU才能完成，但是做了优化，就可以大大减少GPU数量，成本也就下来了。比如说在6G内存的情况下，用PyTorch只能训练1亿参数，但是用Colossal-AI可以训练15亿参数，扩大了15倍。相同硬件下，在GPT-2上的效果也更好，使用PyTorch本来只能训练1亿参数，通过Colossal-AI可以扩大到120亿。像Stable Diffusion这样的新模型上，Colossal-AI也能取得6.5倍加速，并可以把成本降到原本的1/7。6.知识内嵌知识的大模型，在对话模型中会比较多，嵌入知识图谱、嵌入对话策略知识等。知识是有监督的数据，而训练大模型时用的大量无监督的数据，如何实现有监督、无监督的数据，实现兼顾模型学习知识和经验，也是一个研究领域。总结整体来说，大模型是什么？大模型是参数巨大的模型这个很通俗，但是要训练和推理一个效果好的参数大的模型，却包含其模型结构、更大规模算力支撑、更大规模数据的无监督，自监督，半监督算法，还有更快的并行、内存管理等的训练技术。是一个系统化、超高成本的大工程/大产业。03—为什么一定要用大模型？说了这么多大模型是什么，是什么个原理，那我们为什么一定要用大模型？可以解决什么样的问题？1.为什么一定要用大模型？小样本！高精度！泛化强！深度学习1.0的落地，最难的还是有监督学习的范式下，我们需要大量的标注数据来驱动一个单任务的模型，但是在很多腰部和尾部场景，数据量本身少，可以驱动模型有效学习的有效数据更少，从而带来了周期长、成本高、落地难的问题。如果模型可以用更少的样本，获得更高的精度，而且泛化能力强很通用，那就完美了。大模型要做的，就是朝着这个目标前进。这里可能有人会疑问，大模型不是会需要更大的数据，精度可能高了，但是成本不能降低吗？实际上大模型也叫基模型，我们用大量数据训练了一个基模型，不是让基模型直接就上任务，而是还要经过下游任务小样本的微调。大模型是底座，有了大模型，下游的各种任务可以共用一个大模型用小量样本快速迁移，并且精度更高，对比以往每一个任务都需要重新训练一个模型的方式，还是有长进的。那大模型的能力怎么样？一般来说，模型参数可能要达到十亿级别才会显示出明显不同于小模型的zero-shot和few-shot的能力。近年来已有多个千亿和万亿级别参数的模型，在一系列的任务上都取得了SOTA的表现。在一些任务中，模型的性能随着规模的增加而可靠地提高，而在另一些任务中，模型在某个规模上表现出性能的突然提升。可以用两个指标去对不同的任务进行分类（1）Linearity: 旨在衡量模型随着规模的增加在任务上的表现在多大程度上得到可靠的提高。（2）Breakthroughness: 旨在衡量当模型规模超过临界值时可以在多大程度上学习任务。这两个指标是模型规模和模型性能的函数，具体计算细节可以参考 [3]。下图展示了一些高Linearity和高Breakthroughness的任务的例子。

横轴是模型参数规模，（a）的纵轴是归一化之后的得分，可以看出，模型参数数量的提升，得分也是稳定提升的，有很好的线性关系。（b）的纵轴是归一化之后的得分，可以看出当模型规模达到一定量级之后，一些无法学好的任务产生了显著提升。当然，并不是所有任务都是模型越大，能力越强，还是会有些任务会随着模型规模增大但是效果更差。

但是，在许多任务中，不仅仅是在精度指标上展现了大模型的能力，更是真真实实从定性角度，感受到了效果的巨大进步。例如我们看到chatGPT的对话效果时，我们会惊叹它的效果，而背后正是大模型技术。2.困难问题和AI能力边界大模型应该说是最直接有效的一种提升AI能力的方式，简称【大力出奇迹】，尽管仍有许多新的zero-shot，few-shot小样本、还有小模型的方法在被不断研究，这些对解决一些相对简单问题、经济的问题（比如边缘计算），还是很适合、很经济的，但是针对一些更加抽象的任务，更加困难的任务，大模型在目前看来还是最有效的路径。这里有2个支撑，第一依然是算力，第二是智能的边界。算力方面，在硬件上有摩尔定律，晶体管依然在不断变小，而且依然有新方法，芯片制造工艺从28纳米，到14，到7，到3纳米的过程中，一直有摩尔定律到头的声音，但是依然没有真实打破，在软件上，新的结构和新的训练方法也在不断优化，尽管模型规模很大，但是有类似稀疏和动态的方法，有类似并行的计算和内存优化方法，许多大厂团队还在不断把一个大模型做到单机训练，甚至以后的单卡训练，这样的话，这个年头的大模型，在未来，成本不夸张的，也都只是小模型。智能的边界方面，当我们用一种有用的方法解决了小范围的问题，我们肯定会复制和扩大，如果屡试不爽，那我们一定会用到极致，直到它失效，因为现实世界的问题是层出不穷的，而且有非常多高维的问题：数学难题、蛋白质结构、宇宙探索、智能产生意识、自动驾驶等等，这些大把没有攻克但是长期有巨大意义和价值的问题，人类总会去极致利用现有可行方法尝试，那么只要大模型这条路随着更强算力硬件的支撑出现，必然还会继续推高它的规模，直至它失效。总的来说，我们为什么要用大模型？一个是现实问题，解决当前AI落地和商业化的困局提出的一种方案，一个是未来问题，帮助人类探索边界，看起来它都是一个当下的好方案，那为什么不用呢？04—大模型落地的问题是什么？大模型这么好，用不就好了？还有什么问题呢？1.成本问题上面章节讲到大模型参数规模、对数据、对算力的要求高，这带来的都是巨大的成本，如果是几年前，从0自己搭建、训练和部署大模型，成本那至少都得千万级别，大型的服务器、大量的人才团队。这显然不是普通企业团队可以承受的，更何况没有多少人认为这么高成本的算法，可以带来稳定的经济效益。这么高的投入，当前也都是大厂、大型科研机构在角逐。无论是国外的google、openAI、meta、microsoft，还是国内的百度、阿里、华为、智源、鹏城实验室等等，在自身业务驱动下投入，或者在政府推动下进行。这就好比修路，当下依然是AI的大基建时代，深度学习1.0基建结束，在应用上发挥余温，深度学习2.0接力基建，为未来应用提供生产力解决方案。2.落地价值问题成本高，显然落地都是投资，回报在哪里，还是个问题，尽管大模型已经展现了其能力，像AIGC、chatGPT，打开了很多人的想象空间。但是不可否认，当前，还是在持续无底洞投资的阶段，我们看到更多是demo，我们很难看到商业化成品，经过了产品和商业化验证，得到了好的回报。（1）我们从G端需求角度来考虑落地难题基础性的问题，有一些很难用商业化的思路来考虑。2022年，国内的数字化政策、国产化政策、东数西算等大政策大工程在不断推动，这些政策和投资的效益在哪里？这恐怕很难回答，但是在基建时代，我们修路、修桥，带来了5年后10年后的交通便利和经济活跃，相信在早期，难以完全精准计算。

有一些投资可能是为了宏观经济上的刺激和发力，扶持新产业，比如投资大的产业可能带来产业下游的企业业务繁荣，就业率提升，类似以往的房地产投资带来的产业链上上下下的就业和消费，然而带来的问题是房屋空置，泡沫化。
有一些投资可能是为了科研，为了技术的领先，为了教育、为了研究性的投入，比如许多高校和研究机构参与的大模型研究、参与的算力基建。科研经费投入到新领域，为科研提供解决方案，也是一种落地。
为了城市治理，昂贵的基建产品特别适合在规模化、困难的场景中使用，城市治理的数字化，比如政务的数字化，带来海量线上数据，一座大城市拥有千万级别的人口，人口的数字化数据，在全市范围内的统计、治理、分析、决策中，比如在交通全局调度上，信控上，怎么样更有效利用，不仅要大算力，还要大算法。

总结来说：G端的落地，是上游，是投资，是基建，而经济效益和投资回报，是一个难以清晰的问题，也就是大模型在这个领域落地，可以讲清楚建设逻辑，但是行不行，好不好用，能不能真正带来价值，是一个巨大的问号。（2）我们从B端需求角度来考虑落地难题模式是什么？场景在哪里？用户是谁？这恐怕是B端使用大模型的三大问题。在B端，现在比较漂亮的模式应该是模型即服务，对比在很多领域，由于安全、数据等等的问题，很多客户喜欢购买私有化部署的解决方案，显然这种方案如果是大模型私有化落地的话，当前是不大现实的。所以模型即服务的方式，通过公有云的方式，在成本上更容易被接受。但是场景在哪里？需求在哪里呢？大模型可以解决搜索蛋白质结构、for science，但是在商业侧，如何落地呢？客户和用户在乎的是解决问题，并不关心使用的技术。那么最后发现依然是搜广推天然适合，数据量多了，需求多样化了，以往的搜广推方式不行了，有谁不吐槽百度的搜索全是广告呢？淘宝的推荐对我来说，真的没有作用。那我这样的用户，要更好留存，更好促交易，是不是要更懂我呢？用传统的方法，用一些低级的规则很难更加懂我，那就要上更精准的搜广推算法了。因此我们看到，民企中，努力投入大模型的，依然还是做搜索的百度，阿里电商的推荐，还有快手的短视频、广告推荐。这才是实实在在对他们业务形成一定价值的。3.可解释当我们在说深度学习1.0一堆参数，是黑盒，无法解释的时候，会发现，深度学习2.0，大模型的强大能力来自巨大的参数空间的结合，这更导致它们的可解释性非常差，其能力和缺陷都存在不确定性。在这种情况下，盲目将整个研究范式向大模型转变真的可取吗？05—大模型的产品化和商业化路径？进程？

当前全球大模型产业落地仍处于早期探索阶段。一方面，研发机构在大模型方面的技术研发已较为成熟，如算法架构、预训练和微调策略、计算并行加速等，但对落地场景不够熟悉，没有形成完善的商业化模式，需要与下游场景企业合作建立大模型商业模式；另一方面，绝大多数下游场景的企业对大模型没有形成基本的概念和认知，同时也没有能够支撑模型微调的算力，以及定制、二次开发模型的人力资源和技术实力。大模型的落地，应该解决的是，让企业和用户更少了解原理，更简单直接使用成果，让用户回归价值和自身业务问题解决。总的来说，会有几种比较适合大模型的落地模式：1.模型即服务模型即服务的模式指的是由大模型的研发主体（如科研机构、云厂商）对大模型封装，在各类任务上的推理能力封装成统一的应用程序接口，对外提供服务的模式，虽然提供的是api，但是本质上调用的是模型。下游企业可以获得这些接口，并按照自身的业务需求，调用服务嵌入已有的应用和服务中，让大模型的API为整个程序进行赋能。这样企业不需要过多了解模型的技术细节，而是像调用云能力一样，直接调用服务。模型即服务也存在许多问题：第一是如果模型效果不好，API就无法满足用户的常规推理需求，依然需要根据场景情况进行额外的微调。第二是大模型运行慢，当推理请求的次数和请求数据量过大时，API的响应时间和返回数据质量将难以保证，例如chatGPT、DALLE2等AIGC应用，实际的反应时间都非常长，短时间内要获得大规模的应用和及时响应体验是困难的。第三是如果企业对数据安全、场景等等的限制，无法使用云端API，也就不适合用这种模式。目前大模型领域商业落地较为成功的案例是OpenAI的模型。OpenAI在图像模型、语言模型等都采用了模型即服务的API调用方式，语言模型使用GPT-3，在OpenAI在公开GPT-3论文后，也同时开放了模型的API申请通道，鼓励研究者、开发者、企业从业者研究“好玩”的GPT-3应用，以此促动大模型的产业场景发展。推出了Ada（最快的版本）、Babbage、Curie、Davinci版本（效果最好），分别价格如下表（每1k相当于750个词）。

GPT-3的API定价如果觉得模型不满意，还可以finetune模型，OpenAI也提供了finetune的价格。

在图像生成模型方面，可以直接通过调用DALLE的接口生成模型，生成一张1024*1024的图像需要0.02美金，大约是0.15人民币。

据OpenAI公开的博客文章表示，截至2021年3月，已有300 多个APP采用了GPT-3技术。全球使用GPT-3的开发者数量上万。GPT-3模型每天产生45亿个词汇，且数量还在不断增长。为了推广大模型的应用发展，OpenAI也支持围绕GPT-3举办算法大赛，并提供API支持。2.开源模式“开源”指的是将计算机程序、软件的源代码等内容公开，并根据开源协议进行分发的方式。开源是目前计算机领域一种普遍的软件开发模式，大量开发者在协议许可的情况下对开源代码进行修改，并集成到已有的系统中，为软件和系统增加新功能和特性。开源的好处是，可以快速共享好成果，让好的成果快速培养社区，下游用户利用开源成果，可以快速搭建自己的应用系统。但开源带来的问题是下游用户需要有比较高的开发能力，可以理解开源代码模型的原理并使用，对人才有较高的要求，比如以往的深度学习框架开源，比如pytorch，很多企业基于开源的框架搭建自己的低代码训练系统，如果是企业完全自己撸一套pytorch并且达到相当的效果，显然难度非常大。在AI开源领域有个笑话：OpenAI不Open，也就是我们以为OpenAI是开源的，但是实际上人家是闭源，付费的。在大模型领域谈到开源模式，就不得不提Hugging Face。Hugging Face是一个AI/ML社区和平台，早期靠Transformers模型库和高质量社区受到关注。用户可以在Hugging Face 上托管和共享ML模型和数据集，也可以构建、训练和部署模型。2022 年 5 月，Hugging Face 完成1亿美元的C轮融资，估值达到 20亿美元，C 轮由Lux Capital领投，其他投资方包括Sequoia US、Coatue 等。Hugging Face目前拥有1000多名客户，包括英特尔、高通、辉瑞和彭博社等。Hugging Face联合创始人兼CEO Clément认为：“机器学习未来会成为技术开发的默认方式，而Hugging Face会成为机器学习的头号玩家。”Lux Capital合伙人Brandon Reeves也表示：“如果这一愿景得以实现，结果可能是公司上市后获得500亿、甚至1000亿美元的市值。”但是开源社区是产品的形态和落地的模式，并非商业化模式，尽管完成了高估值，开源本身并不能带来收入，Hugging Face的收入模式依然是提供自动化训练平台、提供推理api、私有化服务、提供模型托管。

自动化训练平台AutoTrain，根据时间和计算资源计费，采用 pay-as-you-go 的收费模式
推理api主要面向SMB，托管了推理，提供api调用，按照调用收费
Hugging Face的Infinity产品，允许客户将数据和模型部署在自己的 on-prem 服务器上，对于一些大型金融、能源等企业，由于数据安全等问题，更愿意私有化，因此私有化的产品服务，也是HF的一种商业模式。
托管服务Private Hub，通过替用户托管模型、数据集、Pipeline 收取一定的费用。

Hugging Face2021年收入约1000万美元，并在2022年中接近盈亏平衡。可见开源模式是早期获客，之后在旧的商业模式下，迅速完成商业闭环。3.平台即服务PAAS平台即服务，不再提供单一的模型api，而是将大模型当作平台服务中的一种技术，集成到AI平台上，通过统一的平台对外提供服务。这种模式中，企业构建包含开发工具、AI服务、流程化的平台，而大模型只是平台中的一个组成部分。用户购买或使用平台的过程中，可以利用平台提供的工具，对大模型进行开发和应用，集成于自有的体系中，用户不能单独获得模型的能力。用户通过使用平台和工具，获得利用大模型开发的能力，也因此付费。例如，2020年7月，百度发布了NLP开发与服务平台文心，其依托ERNIE预训练技术，为开发者提供NLP定制与应用能力。文心平台可通过公有云（如EasyDL-NLP、BML等）和私有化两种方式为产业提供服务。用户不需要关注计算开发环境的搭建和算法实现的底层实现细节。经过2年多发展，文心大模型已经发展出了NLP/CV/跨模态/生物计算大模型，并且在此基础上，推出了众多行业大模型、大模型套件。向上又有Easy-DL、BML大模型、大模型API、文心一格（AIGC）等。百度基于大模型底座，打造的平台服务，属于大模型在国内落地较前沿的榜样。

4.软件即服务SAAS大厂、头部政企和科研机构，提供强大的新基建，中小厂商可以基于这些基建，开发自己的saas服务，并提供给企业、个人。自OpenAI公开了 GPT-3的API后，已经在开源社区和AI创业者中引起反响，许多开发者和创业者调用API，赋能原来的业务，或者开辟新的业务，这些业务包括内容创意生成、语言风格互换、对话、搜索等等。得益于DALLE、chatGPT等技术卓越的效果出现，在2022年，基于大模型AIGC的SAAS服务处于爆发的元年。

1. 图像内容创意生成：在DALLE、IMAGEN、Stable Diffusion等出来之后，图像生成把大模型AIGC浪潮推向高潮，像国内的百度文心一格、做设计的Nolibox等，都是把AIGC做成demo和产品的案例。图像领域的创意生成，有不少还在demo阶段，但实际上，在插画、logo设计、衣服设计、互联网内容插画、电商配图等等非常多的场景中，有很多专精特新的机会。对于AIGC的saas，最后落地的关键是要把客户最后一公里需求补齐。2.文本内容创意生成：基于大模型的专业软件和服务速度极快，如博客文章撰写、新闻快讯撰写、百科撰写、小说补写、课程题目编写等，形成自动化的内容生产体系。在数字化内容爆炸的今天，创作者的内容会很快淹没在互联网中，创作者在期望利用强大的工具提升创作效率和质量，chatGPT的出现，让很多创作者看到了AI的水平可能已经超越了很大一部分创作者群体，随之而来的，这会帮助内容创作者提升创作效率和质量，但同时会导致互联网大量充斥着AI生成的无意义内容。3. 对话和搜索：大模型将成为专业场景和日常场景对话机器人背后的底层技术，通过预训练技术支持模型产生流畅、符合上下文语境、具有一定常识的聊天内容，支持娱乐形象或虚拟陪伴机器人。但同时模型也能够通过微调等方式，学习专业领域知识，在特定专业领域提供支持和服务，成为智能客服。此外，chatGPT更让谷歌感到搜索业务的威胁，一个更懂得用户需求的客服，很有可能就是一个强大的搜索引擎，给你搜索网络中，你最想知道的信息。4.数字人：数字人是一个大赛道，在火热的三维空间元宇宙赛道，数字人是每个人的数字化替身，在短视频、直播等二维空间娱乐赛道，数字人也是数字化的替身，而拥有智能的数字人，则更需要包含文本语义内容的生成，还要动作、表情、形象等等的生成，每个环节，都需要AIGC，而想要得到足够好的效果，或者足够全能、逼真和智能的效果，应用大模型必不可少。5. 代码生成：Copliot让程序员看到了AI代替来的如此之快，chatGPT更是可以将口语化的对话转化成代码，尽管要让AI真正写符合我们需求的代码还很远，但是AI生成代码，依然可以协作程序员更高效完成编程。在这些场景应用中，无一不是利用大模型技术，带来的惊艳效果，而这样的技术，可以通过和场景化结合，成为一项项触手可及的小工具，接地气的AI，反而是在最不接地气，最高成本的大模型范式下，发生了。

最近半年，笔者发现了一个有趣的现象，第一波通过大模型赚钱的，可能真的不是OpenAI，而是抖音上的AI绘画创作者，他们通过发布AI生成图像的作品，可以作为头像、壁纸、插画，而通过一些看广告免费下载图片的工具，这批AI绘画创作者，利用免费的大模型，短短数月，实现了数十万的收入。当我们还在质疑大模型无法落地的时候，实际上，已经有很多人，很多接地气的人，利用它，赚到了第一桶金，这难道不是落地吗？我觉得是。

[1]On the Opportunities and Risks of Foundation Models.[2]A Roadmap for Big Model. https://arxiv.org/pdf/2203.14101v3.pdf [3] Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models.[4]超大规模智能模型产业发展报告.智源[5]https://openai.com/api/pricing/[6]谷歌、斯坦福联合发文：我们为什么一定要用大模型？harris

二、foundation的搭配？

1/foundation释义：

n. 基础；地基；基金会；根据；创立

2/例句：

The organization attracts the attention of the public since its foundation.

该组织自成立以来就引起了公众的关注。

3/foundation的搭配有：

on the foundation[英国英语]领取基金会提供奖学金(或津贴)的；属于由基金维持的机构的

theoretical foundation理论基础

solid foundation基础雄厚；实体基础

foundation pit基坑

pile foundation打桩基础

三、foundation怎么记？

1/foundation释义：

n. 基础；地基；基金会；根据；创立

例句：

The organization attracts the attention of the public since its foundation.

该组织自成立以来就引起了公众的关注。

词组：

on the foundation[英国英语]领取基金会提供奖学金(或津贴)的；属于由基金维持的机构的

theoretical foundation理论基础

solid foundation基础雄厚；实体基础

foundation pit基坑

pile foundation打桩基础

2/foundation可以是这样记:

词根助记

解析

found 底部 + ion 构成名词 -> 底部的东西 -> foundation 基础

联想

cohesion n. 凝聚力

collection n. 收藏品；募集的钱；一堆；收取

collision n. 碰撞；冲突

found v. 创建；为...打地基；把...基于

founder n. 创始人；建立者；翻沙工 v. 破坏；使摔倒；垮掉

founding adj. 创办的，发起的

四、foundation固定搭配？

1/foundation释义：

n. 基础；地基；基金会；根据；创立

2/例句：

The organization attracts the attention of the public since its foundation.

该组织自成立以来就引起了公众的关注。

3/foundation固定搭配有：

on the foundation[英国英语]领取基金会提供奖学金(或津贴)的；属于由基金维持的机构的

theoretical foundation理论基础

solid foundation基础雄厚；实体基础

foundation pit基坑

pile foundation打桩基础

五、foundation游戏怎么玩？

关于这个问题，Foundation是一款模拟城市建设游戏，游戏中玩家扮演城市的建设者，需要建造房屋、道路、农田、市政设施、商业建筑等，以发展城市并满足居民的需求。以下是游戏的基本玩法：

1. 建造房屋和道路：在游戏中，玩家需要建造住宅区、商业区和工业区，以及连接它们的道路和桥梁。建筑物可以在城市规划模式下放置，而道路可以通过拖动鼠标来建造。

2. 管理资源：城市需要各种资源来运转，包括食物、水、木材、石材等。玩家需要建造农田、矿山和伐木场等来采集这些资源，并确保居民有足够的供应。

3. 满足居民需求：城市中的居民有各种需求，包括住房、就业、娱乐、文化等。玩家需要提供足够的就业机会、公园和文化设施等来满足居民的需求。

4. 建造市政设施：城市还需要建造一些市政设施，如供水系统、污水处理厂、消防站等，以确保城市的正常运转。

5. 处理事件：游戏中会出现各种事件，如火灾、水灾、暴动等，玩家需要及时处理这些事件，以保证城市的安全和稳定。

6. 发展城市：随着城市的发展，玩家需要不断地升级建筑物和设施，以提高城市的效率和吸引更多的居民。

以上是Foundation游戏的基本玩法，玩家可以根据自己的喜好和策略来开展游戏。

六、foundation是什么牌子？

foundation是户外运动牌子

Tod Swank于1989年在美国加州创建的滑板品牌。Foundation隶属于Foundation Super Co.，品牌拥有非常清晰的风格，致力于打造创意、耐用的滑板用品。

创始人托德·斯旺克

创立时间 1989年

所属公司 Foundation Super Co.

总部地点美国加利福尼亚州圣地亚哥牛顿大街2096号

经营范围运动户外，服饰鞋包，日用百货，办公设备

七、aqua foundation啥牌子？

aqua foundation是日本kanebo旗下的一个品牌，属于时尚流行品牌。

Aqua（雅呵雅）优化润肤系列是独特的针对“早期抗衰老”的产品，倡导防患于未然，而非弥补式的抗衰老护理，即女性应该从第一道幼纹出现前，就开始预防衰老的护理，该系列通过对细胞的三种激活功效和对皮肤组织的双重保养功能，来强化肌肤抵抗力，塑造活力如初、光柔丰满的寸寸美肌。

八、foundation蜂蜜怎么用？

Foundation蜂蜜是一种高品质的蜂蜜，可以用于多种用途。以下是一些使用Foundation蜂蜜的方法：直接食用：Foundation蜂蜜可以直接食用，每天空腹服用一小勺即可。制作蜂蜜水：将一勺蜂蜜加入温水中，搅拌均匀后即可饮用。烘焙：Foundation蜂蜜可以作为烘焙的原料，能够增加甜味和口感。制作蜂蜜柚子茶：将柚子皮和蜂蜜一起煮沸，然后加入适量的柠檬汁和姜汁，搅拌均匀后即可饮用。涂抹在面包上：将一些蜂蜜涂抹在面包上，可以增加口感和营养价值。需要注意的是，如果对花粉过敏，应该避免使用含有花粉的蜂蜜。此外，蜂蜜应该存放在阴凉、干燥、通风的地方，避免阳光直射和高温。

九、foundation同根词？

foundation的同根词：

founder

美 /ˈfaʊndər/

英 /ˈfaʊndər/

创立者，创办者，创建者；（动物）新群体建立者；铸造厂业主（或厂长）；浇铸工，制造金属铸件的人；（马等）蹄叶炎，马疲病

失败，破产；（船）沉没；（马，骑手）蹒跚，绊倒；（尤指马等）患蹄叶炎

过去式 foundered

过去分词 foundered

现在分词 foundering

第三人称单数 founders

复数 founders

双语例句：

Lucy is the founder of the organization.

露西是该组织的创办者。

十、foundation与foundament的区别？

差别可就大了foundation名词1.建立，创办2.（复数）地基，地脚；（机器的）底座3.基础，基本原理，根据4.基金，基金会。

fund名词1.基金，专款，资金2.（复数）银行存款3.（常做复数）现款及物动词为、、、提供资金，资助

一、什么是大模型？超大模型和 Foundation Model 呢？

二、foundation的搭配？

三、foundation怎么记？

四、foundation固定搭配？

五、foundation游戏怎么玩？

六、foundation是什么牌子？

七、aqua foundation啥牌子？

八、foundation蜂蜜怎么用？

九、foundation同根词？

十、foundation与foundament的区别？

相关文章

大数据 量化交易

大数据使用的语言

相关推荐

1隐藏数据怎么操作？

2什么是大模型？超大模型和 Foundation Model 呢？

3odi材料？

4全国各省三大产业数据

5冥王神话战斗力数据？

大数据量化交易