主页 > 人工智能 > science论文怎么写?

science论文怎么写?

一、science论文怎么写?

写一篇科学论文需要以下步骤:确定研究问题、进行文献综述、确定研究方法、收集和分析数据、解释结果和撰写结论,最后进行编辑和排版。论文应遵循科学研究规范、明确的结构和清晰的表达,同时要经过同行评审才能得到认可并被发表。

二、science封面论文什么水平?

Science封面论文绝对是世界最高水平的学术论文。该期刊作为世界顶级学术期刊,能在上面发表一篇文章是大多数科研工作者的梦想,但是只有少数幸运儿才能有机会在上面发表一篇自己的署名文章。能发这种文章的人可以说是我国学术界的大牛了。

三、Web Of Science怎么下载论文?

web of science 上有查看原文权限的会议论文可跳转至相应链接直接下载。若无查看原文权限,可尝试至IEEE、Springer等平台寻找相关文献。另NSTL数据库可提供国际会议论文,原文传递即可获取。愿有所帮助,祝好。

四、Science是期刊论文还是学位论文?

science是期刊论文。

具体来说,science是科学界顶级期刊之一,与其差不多的还有nature,cell等,对于学位论文的具体要求不同,例如本科的学位论文就不要求在很厉害的期刊上发表,但是对于博士的学位来说,在顶级期刊发表论文还是很有用的,或者说是很必须的。

五、web of science有学位论文吗?

wos中只包括英文学术期刊论文或者会议论文。

六、在science上发表论文是什么水平?

应该是代表着世界最高水平的。

在科学杂志上能发表论文,是非常不容易的,很多专家都希望自己的成果能发表在世界顶级刊物上

七、advanced science论文影响因子16什么水平?

非常高的水平。

目前主流杂志主要有sci收录和ei收录两大类型。sci强调的是基础性,ei的工程属性更强。题目中提到的影响因子体现的是论文引用次数与文章篇数的关系。一般而言,影响因子越高,文章的参考价值越高,档次越高。

在我们课题组,3以下是一个档次,3-5是一个档次,题目中的16是超高档次了。已经是顶级期刊。

八、web of science找到的论文都能下载吗?

在web of science上找到的论文并不是都可以直接进行下载的。众所周知,web of science只是一个专业英文数据库,它只能提供检索结果,并不提供下载的服务。因此,想要直接下载论文全文的话,应当购买该期刊的数据库,这样才能实现自由下载。

九、web of science里怎么还有会议论文?

必须在web of science的核心集里面检索到才是Sci。web of science包含很多数据库,除了 SCI还有中国科学引文

十、近几年来(2014-2017)Nature 和 Science上有哪些关于人工智能的论文?

原文链接地址https://www.nature.com/articles/s41586-023-06221-2

摘要:人工智能 (AI) 越来越多地融入科学发现中,以增强和加速研究,帮助科学家提出假设、设计实验、收集和解释大型数据集,并获得仅使用传统科学方法可能无法获得的见解。在这里,我们回顾了过去十年的突破,包括自我监督学习(允许在大量未标记数据上训练模型)和几何深度学习(利用有关科学数据结构的知识来提高模型的准确性和效率)。生成式人工智能方法可以通过分析不同的数据模式(包括图像和序列)来创建小分子药物和蛋白质等设计。我们讨论这些方法如何在整个科学过程中帮助科学家,以及尽管取得了这些进步仍然存在的核心问题。人工智能工具的开发人员和用户都需要更好地了解何时需要改进这些方法,而数据质量和管理不佳带来的挑战仍然存在。这些问题跨越科学学科,需要开发有助于科学理解或自主获取科学理解的基础算法方法,使它们成为人工智能创新的关键领域。

正文

人工智能 (AI) 越来越多地融入科学发现中,以增强和加速研究,帮助科学家提出假设、设计实验、收集和解释大型数据集,并获得仅使用传统科学方法可能无法获得的见解。在这里,我们回顾了过去十年的突破,包括自我监督学习(允许在大量未标记数据上训练模型)和几何深度学习(利用有关科学数据结构的知识来提高模型的准确性和效率)。生成式人工智能方法可以通过分析不同的数据模式(包括图像和序列)来创建小分子药物和蛋白质等设计。我们讨论这些方法如何在整个科学过程中帮助科学家,以及尽管取得了这些进步仍然存在的核心问题。人工智能工具的开发人员和用户都需要更好地了解何时需要改进这些方法,而数据质量和管理不佳带来的挑战仍然存在。这些问题跨越科学学科,需要开发有助于科学理解或自主获取科学理解的基础算法方法,使它们成为人工智能创新的关键领域。

数据收集和分析是科学理解和发现的基础,是科学的两个核心目标2,定量方法和新兴技术,从显微镜等物理仪器到引导等研究技术,长期以来一直被用来实现这些目标3。 20 世纪 50 年代数字化的引入为计算在科学研究中的普遍应用铺平了道路。自 2010 年代以来数据科学的兴起使人工智能能够通过从大型数据集中识别科学相关的模式来提供有价值的指导。

尽管不同科学研究阶段的科学实践和程序有所不同,但人工智能算法的开发跨越了传统上孤立的学科(图 1)。此类算法可以增强科学研究的设计和执行。他们正在成为通过优化参数和功能4,自动化收集、可视化和处理数据的程序5,探索大量候选假设以形成理论6,以及生成假设并估计其不确定性以建议相关实验7,它是研究人员不可或缺的工具。

图1|人工智能时代的科学。科学发现是一个多方面的过程,涉及几个相互关联的阶段,包括假设形成、实验设计、数据收集和分析。人工智能有望通过增强和加速科学发现过程每个阶段的研究来重塑科学发现。这里展示的原理和说明性研究强调了对增强科学理解和发现的贡献。

自 2010 年代初以来,由于大型数据集的可用性、快速大规模并行计算和存储硬件(图形处理单元和超级计算机)以及新算法的帮助,人工智能方法的威力已大大增强。后者包括深度表示学习(方框 1),特别是能够识别基本、紧凑特征的多层神经网络,这些特征可以同时解决科学问题背后的许多任务。其中,几何深度学习(方框 1)已被证明有助于整合科学知识,以物理关系、先验分布、约束和其他复杂描述符(例如分子中原子的几何形状)的紧凑数学陈述的形式呈现。自监督学习(框 1)使在标记或未标记数据上训练的神经网络能够将学习到的表示转移到具有很少标记示例的不同域,例如,通过预训练大型基础模型8并使其适应不同领域的不同任务域。此外,生成模型(方框 1)可以估计复杂系统的底层数据分布并支持新设计。与人工智能的其他用途不同,强化学习方法(框 1)通过探索许多可能的场景并根据指标(例如从经过考虑的实验中预期的信息增益)为不同的操作分配奖励来找到环境的最佳策略。

在人工智能驱动的科学发现中,可以使用适当的归纳偏差(框 1)将科学知识纳入人工智能模型中,这些假设是将结构、对称性、约束和先验知识表示为紧凑的数学语句。然而,应用这些定律可能会导致方程过于复杂,人类无法求解,即使使用传统的数值方法也是如此9。一个新兴的该方法正在将科学知识融入人工智能模型中,包括有关基本方程的信息,例如物理定律或分子结构和蛋白质折叠中的结合原理。这种归纳偏差可以通过减少达到相同准确度水平所需的训练示例数量10并将分析扩展到大量未经探索的科学假设11来增强人工智能模型。

与利用人工智能的人类努力的其他领域相比,使用人工智能进行科学创新和发现提出了独特的挑战。最大的挑战之一是科学问题中假设空间的巨大性,使得系统的探索变得不可行。例如,在生物化学中,估计有 1060 种药物样分子可供探索12。人工智能系统有潜力通过加速流程并提供接近实验精度的预测来彻底改变科学工作流程。然而,为人工智能模型获取可靠注释的数据集存在挑战,这可能涉及耗时且资源密集的实验和模拟13。尽管存在这些挑战,人工智能系统可以实现高效、智能和高度自主的实验设计和数据收集,其中人工智能系统可以在人类监督下运行,以评估、评估结果并根据结果采取行动。这些功能促进了人工智能代理的开发,这些智能代理可以在动态环境中持续交互,并且可以做出实时决策以导航平流层气球14。人工智能系统可以在解释科学数据集以及以通用方式从科学文献中提取关系和知识方面发挥重要作用。最近的研究结果表明,无监督语言人工智能模型有可能捕获复杂的科学概念15(例如元素周期表),并在功能材料发现前数年预测其应用,这表明有关未来发现的潜在知识可能嵌入在过去的出版物中。

最近的进展,包括成功解决 50 年前的蛋白质折叠问题10,以及人工智能驱动的具有数百万粒子的分子系统模拟16,证明了人工智能解决具有挑战性的科学问题的潜力。然而,发现的巨大前景也伴随着新兴领域“人工智能科学”(AI4Science)面临的重大挑战。与任何新技术一样,AI4Science 的成功取决于我们将其融入日常实践并了解其潜力和局限性的能力。在科学发现中广泛采用人工智能的障碍包括发现过程每个阶段特有的内部和外部因素,以及对方法、理论、软件和硬件的实用性以及潜在滥用的担忧。我们探索 AI4Science 的发展并解决关键问题,包括科学行为、传统怀疑论和实施挑战。

人工智能辅助科学研究数据收集和管理

实验平台收集的数据集的规模和复杂性不断增加,导致科学研究越来越依赖实时处理和高性能计算来选择性地存储和分析高速率生成的数据17。

数据选择

典型的粒子碰撞实验每秒生成超过 100 TB 的数据18。此类科学实验正在突破现有数据传输和存储技术的极限。在这些物理实验中,超过 99.99% 的原始仪器数据代表必须实时检测并丢弃的背景事件,以管理数据速率18。为了识别未来科学探究的罕见事件,深度学习方法18用搜索外围信号的算法取代预编程的硬件事件触发器,以检测可能发生的不可预见或罕见的现象。

压缩过程中会被遗漏。可以使用深度自动编码器19(框 1)对后台进程进行生成建模。对于超出背景分布的先前未见的信号(罕见事件),自动编码器20 返回更高的损失值(异常分数)。与监督异常检测不同,无监督异常检测不需要注释,已广泛应用于物理学21,22、神经科学23、地球科学24、海洋学25和天文学26。

数据标注

训练监督模型需要带有注释标签的数据集,这些标签提供监督信息来指导模型训练并估计输入中目标变量的函数或条件分布。伪标记27和标签传播28是费力的数据标记的诱人替代方案,允许仅基于一小部分准确注释来自动注释大量未标记数据集。在生物学中,由于实验生成标签的困难,为新表征的分子分配功能和结构标签的技术对于监督模型的下游训练至关重要。例如,尽管新一代测序技术不断涌现,但只有不到 1% 的已测序蛋白质带有生物学功能注释29。数据标记的另一种策略利用在手动标记数据上训练的代理模型来注释未标记的样本,并使用这些预测的伪标签来监督下游预测模型。相反,标签传播通过基于特征嵌入构建的相似图将标签扩散到未标记的样本13,30(框1)。除了自动标记之外,主动学习31-33(框1)还可以识别要由人类标记的信息最丰富的数据点或要进行的信息最丰富的实验。这种方法允许使用更少的专家提供的标签来训练模型。数据注释的另一个策略是开发利用领域知识的标记规则34,35。

数据生成

深度学习性能随着训练数据集质量、多样性和规模36的提高而提高37,38。创建更好模型的有效方法是通过自动数据增强和深度生成模型生成额外的合成数据点来增强训练数据集。除了手动设计此类数据增强(框 1)之外,强化学习方法 39 还可以发现自动数据增强策略 40,41,该策略灵活且与下游模型无关。深度生成模型,包括变分自动编码器、生成对抗网络、归一化流和扩散模型,学习底层数据分布,并可以从优化的分布中采样训练点。生成对抗网络(方框 1)已被证明对科学图像有益,因为它们可以在许多领域合成真实图像,包括粒子碰撞事件42、病理幻灯片43、胸部 X 射线44、磁共振对比45、三维(3D)材料微观结构46、蛋白质功能47,48 到基因序列49。生成建模中的一项新兴技术是概率编程50,其中数据生成模型被表示为计算机程序。

数据细化

超高分辨率激光器和非侵入式显微镜系统等精密仪器可以直接测量物理量或通过计算现实世界的物体来间接测量,从而产生高精度的结果。人工智能技术显着提高了测量分辨率,降低了噪声并消除了圆度测量误差,从而实现了跨站点的高精度一致。人工智能在科学实验中的应用示例包括黑洞等时空区域的可视化、捕捉物理粒子碰撞51、提高活细胞图像的分辨率52以及更好地检测跨生物环境的细胞类型53。深度卷积方法利用光谱反卷积54、55、灵活的稀疏性52和生成能力56等先进算法,可以将较差的时空分辨率测量结果转化为高质量、超分辨率和结构化的图像。各个科学学科中的一项重要人工智能任务是去噪,其中涉及区分相关信号和噪声并学习消除噪声。去噪自动编码器57可以将高维输入数据投影为基本特征的更紧凑的表示。这些自动编码器最大限度地减少了未损坏的输入数据点与根据噪声损坏版本的压缩表示进行重建之间的差异。其他形式的分布学习自动编码器,例如变分自动编码器(VAE;框 1)58,也经常使用。VAE 通过潜在自动编码学习随机表示,保留基本数据特征,同时忽略非基本变异源(可能代表随机噪声)。例如,在单细胞基因组学中,自动编码器优化数百万个细胞中基于计数的基因激活载体59,通常用于改进蛋白质-RNA 表达分析。

学习科学数据的有意义的表示

深度学习可以在不同抽象层次上提取科学数据的有意义的表示,并对其进行优化以指导研究,通常是通过端到端学习(框 1)。高质量的表示应该保留尽可能多的数据信息,同时保持简单和易于访问60。具有科学意义的表示是紧凑的21、区分性的61、解开变异的潜在因素62并编码可泛化到众多任务的潜在机制63,64。在这里,我们介绍三种满足这些要求的新兴策略:几何先验、自我监督学习和语言建模。

几何先验

事实证明,将几何先验65整合到学习的表示中是有效的,因为几何和结构在科学领域中发挥着核心作用66-68。对称是几何学中广泛研究的概念69。它可以用不变性和等变性(框 1)来描述,以表示数学函数(例如神经特征编码器)在一组变换(例如刚体动力学中的 SE(3) 组)下的行为。重要的结构特性,例如分子系统的二级结构含量、溶剂可及性、残基致密性和氢键模式,对于空间方向是不变的。在科学图像的分析中,对象在图像中平移时不会发生变化,这意味着图像分割掩模在平移上是等变的,因为它们在输入像素平移时等效地变化。通过增加训练样本,将对称性纳入模型可以使 AI 与有限的标记数据集(例如 3D RNA 和蛋白质结构 70,71)一起使用,并且可以改进对与模型训练期间遇到的明显不同的输入的外推预测。

几何深度学习

图神经网络已成为对具有基础几何和关系结构的数据集进行深度学习的主要方法72-76(图2a)。从更广泛的意义上讲,几何深度学习涉及发现关系模式65并为神经网络模型配备归纳偏差,这些偏差通过神经消息传递算法80-84明确地利用以图形和转换组77-79形式编码的本地化信息。根据科学问题,开发了各种图形表示来捕获复杂的系统85-87。有向边可以促进玻璃系统的物理建模88,具有连接多个节点的边的超图用于理解染色质结构89,在多模态图上训练的模型用于创建基因组学中的预测模型90,稀疏、不规则和高度相关的图已应用于许多大型强子对撞机物理任务,包括从探测器读数重建粒子以及根据背景过程区分物理信号91。

自监督学习

当只有少数标记样本可用于模型训练或特定任务的标记数据过于昂贵时,监督学习可能是不够的。在这种情况下,利用标记和未标记数据可以提高模型性能和学习能力。自监督学习是一种使模型能够在不依赖显式标签的情况下学习数据集的一般特征的技术。有效的自我监督策略包括预测图像的遮挡区域、预测视频中过去或未来的帧,以及使用对比学习来教导模型区分相似和不相似的数据点92(图2b)。自监督学习可以是一个关键的预处理步骤,可以在小型标记数据集上微调模型以执行下游任务之前,学习大型未标记数据集中的可转移特征92-95。这种对科学领域具有广泛理解的预训练模型96-98是通用预测器,可以适应各种任务,从而提高标签效率并超越纯监督方法8。

语言建模

掩码语言建模是自然语言和生物序列自监督学习的一种流行方法(图 2c)。将原子或氨基酸(标记)排列成结构以产生分子和生物功能,类似于字母如何形成单词和句子以定义文档的含义。随着自然语言和生物序列处理的不断发展,它们相互促进发展。在训练过程中,目标是预测序列中的下一个标记,而在基于屏蔽的训练中,自监督任务是使用双向序列上下文恢复序列中的屏蔽标记。蛋白质语言模型可以编码氨基酸序列以捕获结构和功能特性100,101并评估病毒变体的进化适应性102。这种表示可以跨各种任务转移,从序列设计103-105到结构预测10,106。在处理生化序列107-109时,化学语言模型有助于有效探索广阔的化学空间110,111。它们已被用于预测性质112、规划多步合成113,114以及探索化学反应的空间115-117。

图2|学习科学数据的有意义的表示。

a,几何深度学习通过利用图形和神经消息传递策略来整合有关科学数据的几何、结构和对称性的信息,例如分子和材料。这种方法通过沿着图中的边缘交换神经消息来生成潜在表示(嵌入),同时考虑其他几何先验,例如不变性和等方差约束。因此,几何深度学习可以将复杂的结构信息合并到深度学习模型中,从而更好地理解和操作底层几何数据集。

b,为了有效地表示卫星图像等不同样本,捕获它们的相似点和差异至关重要。自我监督学习策略(例如对比学习)通过生成增强对应项并在分离负对的同时对齐正值来实现这一目标。这个迭代过程增强了嵌入,从而产生信息丰富的潜在表示和下游预测任务的更好性能。 c,掩码语言建模有效地捕获序列数据的语义,例如自然语言和生物序列。这种方法涉及将输入的屏蔽元素馈送到转换器块中,其中包括预处理步骤,例如位置编码。自注意力机制由灰线表示,颜色强度反映注意力权重的大小,结合非屏蔽输入的表示来准确预测屏蔽输入。这种方法通过在输入的许多元素上重复此自动完成过程来生成序列的高质量表示。

Transformer 架构

Transformer(框 1)118 是神经架构模型,可以通过灵活地建模任意标记对之间的交互来处理标记序列,超越了早期使用循环神经网络进行顺序建模的努力。 Transformer 在自然语言处理中占主导地位37,99,并已成功应用于一系列问题,包括地震信号检测119、DNA 和蛋白质序列建模10,120、序列变异对生物功能影响的建模100,121 以及符号回归122。尽管 Transformer 统一了图神经网络和语言模型 123-125,但 Transformer 的运行时间和内存占用可以随序列长度呈二次方扩展,从而导致远程建模 120 和线性化注意力机制 126 解决效率挑战。因此,无监督或自监督的生成式预训练 Transformer 以及随后的参数高效微调被广泛使用。

神经运算符

标准神经网络模型可能不足以满足科学应用的需要,因为它们假设固定的数据离散化。这种方法不适合以不同分辨率和网格收集的许多科学数据集。此外,数据通常是从连续域中的基础物理现象中采样的,例如地震活动或流体流动。神经算子通过学习函数空间之间的映射来学习离散化不变的表示127,128。神经算子保证是离散化不变的,这意味着它们可以处理输入的任何离散化,并在网格细化时收敛到极限。一旦神经算子经过训练,就可以在任何分辨率下对其进行评估,而无需重新训练。相比之下,当部署期间的数据分辨率因模型训练而发生变化时,标准神经网络的性能可能会下降。

基于人工智能的科学假设生成

可检验的假设是科学发现的核心。它们可以采取多种形式,从数学中的符号表达到化学中的分子和生物学中的遗传变异。提出有意义的假设可能是一个费力的过程,约翰内斯·开普勒就是一个例子,他花了四年时间分析恒星和行星数据,然后得出了一个假设,从而发现了行星运动定律129。人工智能方法可以在此过程的几个阶段提供帮助。他们可以通过从嘈杂的观察中识别候选符号表达来生成假设。它们可以帮助设计物体,例如与治疗靶点结合的分子130或与数学猜想相矛盾的反例9,建议在实验室进行实验评估。此外,人工智能系统可以学习假设的贝叶斯后验分布(框 1),并使用它来生成与科学数据和知识兼容的假设131。

图3|人工智能引导科学假设的生成

a,高通量筛选涉及使用在实验生成的数据集上训练的人工智能预测器来选择少量具有所需属性的筛选对象,从而将候选池总数的大小减少几个数量级。这种方法可以利用自监督学习在大量未筛选对象上预训练预测器,然后在带有标记读数的筛选对象数据集上微调预测器。实验室评估和不确定性量化可以改进这种方法,以简化筛选过程,使其更具成本效益和时间效率,最终加速候选化合物、材料和生物分子的识别。

b,人工智能导航器采用强化学习代理和设计标准(例如奥卡姆剃刀)预测的奖励,在符号回归过程中关注候选假设中最有希望的元素。所示示例说明了代表牛顿万有引力定律的数学表达式的推论。低分搜索路径在符号表达式树中显示为灰色分支。在与最高预测奖励相关的行动的指导下,这个迭代过程收敛于与数据一致并满足其他设计标准的数学表达式。

c,AI 微分器是自动编码器模型,可将离散对象(例如化合物)映射到可微的连续潜在空间中的点。该空间允许优化对象,例如从庞大的化学库中选择化合物,以最大化特定的生化终点。理想化的景观图描绘了学习到的潜在空间,更深的颜色表示具有更高预测分数的对象丰富的区域。通过利用这个潜在空间,人工智能区分器可以有效地识别能够最大化红星所指示的所需属性的物体。

科学假设的黑盒预测

识别有希望的科学探究假设需要有效地检查许多候选假设并选择那些可以最大限度地提高下游模拟和实验产量的假设。在药物发现中,高通量筛选可以评估数千到数百万个分子,算法可以优先考虑要进行实验研究的分子132。可以训练模型来预测实验的效用,例如相关的分子特性133,134或符合观察结果的符号公式122。然而,对于许多分子来说,这些预测因子的实验真实数据可能无法获得。因此,弱监督学习方法(框 1)可用于训练这些模型,其中使用噪声、有限或不精确的监督作为训练信号。这些可以作为人类专家注释的经济有效的代理,在计算机计算或更高保真度的实验中成本昂贵(图3a)。

经过高保真模拟训练的人工智能方法已用于有效筛选大型分子库,例如 160 万个有机发光二极管候选材料133 和 110 亿个基于合成子的配体候选物134。在基因组学中,经过训练以根据 DNA 序列预测基因表达值的 Transformer 架构可以帮助优先考虑遗传变异120。在粒子物理学中,识别质子中的内在粲夸克涉及筛选所有可能的结构并拟合每个候选结构的实验数据135。为了进一步提高这些过程的效率,人工智能选择的候选者可以被发送到中或低通量实验,以便使用实验反馈不断完善候选者。结果可以使用主动学习136和贝叶斯优化137(框1)反馈到人工智能模型中,从而使算法能够完善其预测并专注于最有希望的候选者。

当假设涉及分子等复杂物体时,人工智能方法就变得非常有价值。例如,在蛋白质折叠中,AlphaFold210 可以从氨基酸序列中以原子精度预测蛋白质的 3D 原子坐标,即使对于结构与训练数据集中的任何蛋白质都不同的蛋白质也是如此。这一突破促进了各种人工智能驱动的蛋白质折叠方法的发展,例如 RoseTTAFold106。除了正向问题之外,人工智能方法也越来越多地用于逆向问题,旨在了解产生一组观察结果的因果因素。逆问题,例如反向折叠或固定主链设计,可以使用在数百万个蛋白质结构上训练的黑盒预测器,根据蛋白质主链 3D 原子坐标来预测氨基酸序列105。然而,这种黑盒人工智能预测器需要大量的训练数据集,并且尽管减少了对现有科学知识可用性的依赖,但可解释性有限。

导航组合假设空间

尽管对与数据兼容的所有假设进行抽样是一项艰巨的任务,但一个可管理的目标是寻找一个好的假设,该假设可以满足以下条件:可以表述为一个优化问题。人工智能策略可以用来估计每次搜索的奖励,并优先考虑具有较高值的搜索方向,而不是依赖于手动设计的规则138的传统方法。通常采用经过强化学习算法训练的代理来学习策略。代理学习在搜索空间中采取行动来最大化奖励信号,奖励信号可以被定义为反映生成的假设或其他相关标准的质量。

为了解决优化问题,可以使用进化算法来解决符号回归任务,该算法生成随机符号定律作为初始解集。在每一代中,候选解决方案都会略有不同。该算法检查任何修改是否产生比先前解决方案更适合观察结果的符号定律,为下一代保留最好的解决方案139。然而,强化学习方法正在逐渐取代这种标准策略。强化学习使用神经网络通过添加预定义词汇表中的数学符号来顺序生成数学表达式,并使用学习到的策略来决定接下来添加哪个符号140。数学公式表示为解析树。学习到的策略将解析树作为输入来确定要扩展哪个叶节点以及要添加什么符号(来自词汇表)(图 3b)。使用神经网络解决数学问题的另一种方法是将数学公式转换为符号的二进制序列。然后,神经网络策略可以按概率顺序将序列一次增长一个二进制字符6。通过设计一个衡量反驳猜想能力的奖励,这种方法可以在没有关于数学问题的先验知识的情况下找到对数学猜想的反驳。

组合优化还适用于发现具有所需药物特性的分子等任务,其中分子设计的每个步骤都是一个离散的决策过程。在此过程中,部分生成的分子图作为学习策略的输入,对在何处添加新原子以及在分子中选定位置添加哪个原子做出离散选择。通过迭代执行此过程,该策略可以生成一系列可能的分子结构,并根据它们对目标属性的适合度进行评估。搜索空间太大,无法探索所有可能的组合,但强化学习可以通过优先考虑值得研究的最有希望的分支来有效地指导搜索141-145。强化学习方法可以通过训练目标进行训练,该训练目标鼓励最终的策略从所有合理的解决方案(具有高奖励)中进行抽样,而不是像强化学习中的标准奖励最大化那样专注于单个好的解决方案144 - 146.这些强化学习方法已成功应用于各种优化问题,包括最大化蛋白质表达147、规划水电以减少对亚马逊盆地的不利影响148以及探索粒子加速器的参数空间33。

人工智能代理学习到的策略具有预见性的行动,这些行动最初看似非常规,但事实证明是有效的149。例如,在数学中,监督模型可以识别数学对象之间的模式和关系,并帮助指导直觉并提出猜想9。这些分析指出了以前未知的模式,甚至是新的世界模式。然而,强化学习方法可能无法很好地推广到模型训练期间未见过的数据,因为一旦发现一系列效果良好的动作,代理可能会陷入局部最优。为了提高泛化能力,需要一些探索策略来收集更广泛的搜索轨迹,这可以帮助代理在新的和修改的设置中表现更好。

优化可微假设空间

科学假设通常采用离散对象的形式,例如物理学中的符号公式或制药和材料科学中的化学化合物。尽管组合优化技术已成功解决其中一些问题,但可微空间也可用于优化,因为它适用于基于梯度的方法,可以有效地找到局部最优值。为了能够使用基于梯度的优化,经常使用两种方法。第一种是使用 VAE 等模型将离散候选假设映射到潜在可微空间中的点。第二种方法是将离散假设放松为可以在可微空间中优化的可微对象。这种放松可以采取不同的形式,例如用连续变量替换离散变量或使用原始约束的软版本。

符号回归在物理学中的应用使用语法 VAEs150。这些模型使用上下文无关语法将离散符号表达式表示为解析树,并将树映射到可微的潜在空间。然后采用贝叶斯优化来优化符号定律的潜在空间,同时确保表达式在语法上有效。在一项相关研究中,Brunton 及其同事151 引入了一种通过将可训练权重分配给预定义的基函数来区分符号规则的方法。稀疏回归用于选择基函数的线性组合,该组合可以准确地表示动态系统,同时保持紧凑性。与使用预定义的归纳偏差来强制对称性的等变神经网络不同,对称性可以作为域的特征行为被发现。例如,Liu 和 Tegmark152 将不对称性描述为平滑损失函数,并最小化损失函数以提取先前未知的对称性。这种方法用于揭示黑洞波形数据集中隐藏的对称性,揭示历史上难以发现的意想不到的时空结构。

在天体物理学中,VAE 已被用于根据预训练的黑洞波形模型来估计引力波探测器参数。该方法比传统方法快六个数量级,使得捕获瞬态引力波事件变得可行153。在材料科学中,热力学规则与自动编码器相结合,设计一个可解释的潜在空间,用于识别晶体结构的相图154。在化学中,诸如简化分子输入行输入系统(SMILES)-VAE155 之类的模型可以将 SMILES 字符串(计算机可以轻松理解的一系列离散符号形式的化学结构的分子符号)转换为可微分的潜在符号。可以使用贝叶斯优化技术进行优化的空间(图3c)。通过将分子结构表示为潜在空间中的点,我们可以设计可微分的目标,并使用自我监督学习来优化它们,以根据分子的潜在表示来预测分子特性。这意味着我们可以通过将人工智能预测器的梯度反向传播到分子输入的连续值表示来优化离散分子结构。解码器可以将这些分子表示转化为近似对应的离散输入。这种方法用于蛋白质156 和小分子157,158 的设计。

与原始假设空间中的机械方法相比,在潜在空间中执行优化可以更灵活地对底层数据分布进行建模。然而,在假设空间的稀疏探索区域中的外推预测可能很差。在许多科学学科中,假设空间可能比通过实验检验的空间大得多。例如,据估计大约有 1060 个分子,而即使是最大的化学库也包含不到 1010 个分子12,159。因此,迫切需要在这些很大程度上未探索的区域中有效搜索和识别高质量候选解决方案的方法。

人工智能驱动的实验和模拟

通过实验评估科学假设对于科学发现至关重要。然而,实验室实验可能成本高昂且不切实际的。计算机模拟已成为一种有前途的替代方案,为更高效、更灵活的实验提供了潜力。虽然模拟依赖于手工设计的参数和启发式方法来模拟现实世界的场景,但与物理实验相比,它们需要在准确性和速度之间进行权衡,因此需要了解潜在的机制。然而,随着深度学习的出现,这些挑战正在通过识别和优化假设以进行有效测试以及使计算机模拟能够将观察结果与假设联系起来来解决。

图4|人工智能与科学实验和模拟的结合。

a、利用人工智能对复杂动态系统的核聚变进行控制:Degrave 等人166 开发了一种人工智能控制器,通过托卡马克反应堆中的磁场来调节核聚变。人工智能代理接收电压水平和等离子体配置的实时测量结果,并采取措施控制磁场并满足实验目标,例如维持功能性电源。使用具有奖励函数的模拟来训练控制器来更新模型参数。

b,在复杂系统的计算模拟中,人工智能系统可以加速罕见事件的检测,例如蛋白质不同构象结构之间的转变。 Wang 等人169 使用基于神经网络的不确定性估计器来引导势能的添加来补偿原始势能,从而使系统能够逃脱局部极小值(灰色)并更快地探索配置空间。此处所示的这种方法可以提高模拟的效率和准确性,从而更深入地了解复杂的生物现象。

c,用于求解偏微分方程的神经框架,其中 AI 求解器是经过训练以估计目标函数 f 的物理信息神经网络。变量 x 的导数是通过自动微分神经网络的输出来计算的。当微分方程的表达式未知(由 η 参数化)时,可以通过求解多目标损失来估计,该多目标损失优化方程的函数形式及其对观测值 y 的拟合。图片来源:a 中的核聚变图标,iStockphoto/VectorMine。

有效评估科学假设

人工智能系统提供了实验设计和优化工具,可以增强传统的科学方法,减少所需的实验数量并节省资源。具体来说,人工智能系统可以协助实验测试的两个基本步骤:规划和指导。在传统方法中,这些步骤通常需要反复试验,这可能效率低下、成本高昂,有时甚至危及生命160。人工智能规划提供了一种系统的方法来设计实验、优化实验效率和探索未知领域。与此同时,人工智能引导将实验过程引向高产假设,使系统能够从之前的观察中学习并调整实验过程。这些人工智能方法可以是基于模型的,使用模拟和先验知识,也可以是无模型的,仅基于机器学习算法。

人工智能系统可以通过优化资源的使用和减少不必要的调查来帮助规划实验。与假设搜索不同,实验计划涉及科学实验设计中涉及的程序和步骤。一个例子是化学中的合成规划。合成规划涉及找到一系列步骤,通过这些步骤可以从可用的化学品合成目标化合物。人工智能系统可以设计所需化合物的合成路线,减少人工干预的需要161,162。主动学习也被应用于材料发现和合成32,163–165。主动学习涉及与实验反馈进行迭代交互并从中学习以完善假设。材料合成是一个复杂且资源密集的过程,需要对高维参数空间进行有效探索。主动学习使用不确定性估计来探索参数空间并以尽可能少的步骤减少不确定性165。

在正在进行的实验中,决策通常必须实时调整。然而,当仅由人类经验和直觉驱动时,这个过程可能会很困难并且容易出错。强化学习提供了一种替代方法,可以不断对不断变化的环境做出反应,并最大限度地提高实验的安全性和成功率。例如,强化学习方法已被证明对于托卡马克等离子体的磁控制是有效的,其中算法与托卡马克模拟器交互以优化控制过程的策略166(图4a)。在另一项研究中,强化学习代理使用风速和太阳高度等实时反馈来控制平流层气球并找到有利于导航的风流14。在量子物理学中,实验设计需要动态调整,因为未来实现复杂实验的最佳选择可能是违反直觉的。强化学习方法可以通过迭代设计实验并接收反馈来克服这个问题。例如,强化学习算法已被用于优化量子系统的测量和控制,提高实验效率和准确性167。

使用模拟从假设中推导出可观测值

计算机模拟是从假设中推导出可观测值的强大工具,可以评估无法直接测试的假设。然而,现有的模拟技术严重依赖于人类对所研究系统的底层机制的理解和知识,这可能不是最理想的且效率低下。人工智能系统可以通过更好地拟合复杂系统的关键参数、求解控制复杂系统的微分方程以及对复杂系统中的状态进行建模,从而通过更准确、更高效的学习来增强计算机模拟。

科学家经常通过创建涉及参数化形式的模型来研究复杂系统,这需要领域知识来识别参数的初始符号表达式。一个例子是分子力场,它是可解释的,但代表广泛功能的能力有限,并且需要很强的归纳偏差或科学知识才能生成。为了提高分子模拟的准确性,我们开发了一种适合昂贵但准确的量子力学数据的基于人工智能的神经势来取代传统的力场16,168。此外,不确定性量化已被用来定位高维自由能表面中的能垒,从而提高分子动力学的效率169(图4b)。对于粗粒度分子动力学,人工智能模型已被用来通过从学习的隐藏复杂结构中确定系统需要粗化的程度来降低大型系统的计算成本170。在量子物理学中,神经网络由于其灵活性和准确拟合数据的能力,在波函数或密度泛函参数化中取代了手动估计的符号形式171,172。

微分方程对于复杂系统的空间和时间动力学建模至关重要。与数值代数求解器相比,基于人工智能的神经求解器更无缝地集成数据和物理173,174。这些神经求解器通过将神经网络扎根于领域知识,将物理学与深度学习的灵活性结合起来(图 4c)。人工智能方法已应用于求解各个领域的微分方程,包括计算流体动力学175、预测玻璃系统的结构88、解决刚性化学动力学问题176以及求解Eikonal方程以表征地震波的传播时间177,178。在动力学建模中,连续时间可以通过神经常微分方程建模179。神经网络可以使用物理信息损失来参数化时空域中纳维-斯托克斯方程的解180。然而,标准卷积神经网络对解决方案的精细结构特征进行建模的能力有限。这个问题可以通过学习使用神经网络对函数之间的映射进行建模的算子来解决127,181。此外,求解器必须能够适应不同的领域和边界条件。这可以通过将神经微分方程与图神经网络相结合来实现,通过图分区来离散化任意值182。

统计建模是一种强大的工具,可以通过对复杂系统中的状态分布进行建模来提供对复杂系统的完整定量描述。由于其捕获高度复杂分布的能力,深度生成建模最近已成为复杂系统仿真中的一种有价值的方法。一个众所周知的例子是基于归一化流的玻尔兹曼发生器183184,185(框1)。归一化流可以使用一系列可逆神经网络将任何复杂分布映射到先验分布(例如,简单的高斯分布)并返回。尽管计算成本昂贵(通常需要数百或数千个神经层),但归一化流提供了精确的密度函数,从而可以进行采样和训练。与传统的模拟不同,归一化流可以通过直接从先验分布中采样并应用具有固定计算成本的神经网络来生成平衡状态。

这增强了格场186和规范理论187中的采样,并改进了马尔可夫链蒙特卡罗方法188,否则这些方法可能由于模式混合而无法收敛189–191。

巨大的挑战

为了利用科学数据,必须通过模拟和人类专业知识来构建和使用模型。这种整合为科学发现开辟了机会。然而,要进一步增强人工智能跨学科的影响力,还需要在理论、方法、软硬件基础设施方面取得重大进展。跨学科合作对于实现通过人工智能推动科学发展的全面且实用的方法至关重要。

实际考虑

科学数据集通常不能直接接受人工智能分析,因为测量技术的限制会产生不完整的数据集和有偏见或冲突的读数,并且由于隐私和安全问题而导致可访问性有限。需要标准化和透明的格式来减轻数据处理的工作量159,192–196。模型卡 197 和数据表 198 是记录科学数据集和模型的操作特征的示例。此外,联邦学习199,200和密码学201算法可用于防止将具有高商业价值的敏感数据发布到公共领域。利用开放科学文献、自然语言处理和知识图谱技术可以促进文献挖掘,以支持材料发现15、化学合成202和治疗科学203。

深度学习的使用给人工智能驱动的人机交互设计、发现和评估带来了复杂的挑战。为了实现科学工作流程自动化、优化大规模模拟代码和操作仪器,自主机器人控制可以利用预测并在高通量合成和测试线上进行实验,从而创建自动驾驶实验室。生成模型在材料探索中的早期应用表明,可以识别数百万种可能具有所需特性和功能的材料,并评估其可合成性。例如,King 等人204 将逻辑人工智能和机器人技术结合起来,自主生成有关酵母的功能基因组学假设,并使用实验室自动化对这些假设进行实验测试。在化学合成中,人工智能优化候选合成路线,然后由机器人按照预测的合成路线控制化学反应7。

人工智能系统的实际实现涉及复杂的软件和硬件工程,需要一系列相互依赖的步骤,从数据管理和处理到算法实现以及用户和应用程序界面的设计。实施过程中的微小变化可能会导致性能发生巨大变化,并影响将人工智能模型集成到科学实践中的成功。因此,数据标准化和模型标准化都需要考虑。由于模型训练的随机性、不同的模型参数和不断变化的训练数据集(这些都依赖于数据和任务),人工智能方法可能会受到可重复性的影响。标准化基准和实验设计可以缓解此类问题205。提高可重复性的另一个方向是通过开源计划,发布开放模型、数据集和教育计划4,130,206,207。

算法创新

为了促进科学理解或自主获取科学理解,需要算法创新来建立一个基础生态系统,并在整个科学过程中使用最合适的算法。

分布外泛化问题是人工智能研究的前沿问题。对来自特定机制的数据进行训练的神经网络可能会发现在不同机制中无法推广的规律其基本分布已发生变化(框 1)。尽管许多科学定律并不具有普适性,但它们的适用性总体上是广泛的。与最先进的人工智能相比,人类大脑可以更好更快地泛化到修改后的设置。一个有吸引力的假设是,这是因为人类不仅建立了他们所观察到的统计模型,而且建立了因果模型,即由所有可能的干预措施(例如,不同的初始状态、代理的行为或不同的行为)索引的一系列统计模型。制度)。将因果关系纳入人工智能仍然是一个年轻的领域208-212,仍有许多工作要做。自我监督学习等技术对于解决科学问题具有巨大潜力,因为它们可以利用大量未标记的数据并将其知识转移到低数据状态。然而,当前的迁移学习方案可能是临时的,缺乏理论指导213并且容易受到潜在分布变化的影响214。尽管初步尝试已经解决了这一挑战215,216,但还需要更多的探索来系统地衡量跨领域的可转移性并防止负转移。此外,为了解决科学家关心的困难,人工智能方法的开发和评估必须在现实场景中进行,例如药物设计中看似可实现的合成路径217,218,并包括经过良好校准的不确定性估计器来评估模型的可靠性在将其过渡到实际实施之前。

科学数据是多模态的,包括图像(如宇宙学中的黑洞图像)、自然语言(如科学文献)、时间序列(如材料的热黄变)、序列(如生物序列)、图表(如复杂系统)和结构(例如 3D 蛋白质-配体构象)。例如,在高能物理学中,射流是高能夸克和胶子产生的粒子的准直喷雾。从辐射模式中识别它们的子结构可以帮助寻找新的物理学。喷射子结构可以通过图像、序列、二叉树、通用图和张量集来描述。尽管使用神经网络处理图像已经得到了广泛的研究,但单独处理粒子图像是不够的。同样,单独使用喷射子结构的其他表示形式无法给出复杂系统的整体和集成系统视图219。尽管整合多模态观测仍然是一个挑战,但神经网络的模块化性质意味着不同的神经模块可以将不同的数据模态转换为通用向量表示220,221。

科学知识,例如分子中的旋转等变性77、数学中的等式约束182、生物学中的疾病机制222以及复杂系统中的多尺度结构223,224,可以纳入人工智能模型中。然而,哪些原则和知识最有帮助、最实用,目前尚不清楚。由于人工智能模型需要大量数据来适应,因此当数据集较小或注释稀疏时,将科学知识融入模型可以帮助学习。因此,研究必须建立原则性方法,将知识整合到人工智能模型中,并理解领域知识和从测量数据中学习之间的权衡。

人工智能方法通常作为黑匣子运行,这意味着用户无法完全解释输出是如何生成的以及哪些输入对于产生输出至关重要。黑盒模型会降低用户对预测的信任,并且在现实世界实施之前必须了解模型输出的领域(例如载人太空探索228)以及预测为政策提供信息的领域(例如气候科学229)的适用性有限。尽管有大量的可解释性技术231-233,但透明的深度学习模型仍然难以捉摸230。然而,人类大脑可以综合高层次的解释,即使不完美,也可以说服其他人类,这一事实带来了希望,即通过在类似的高抽象层次上对现象进行建模,未来的人工智能模型将提供可解释的解释,至少与所提供的解释一样有价值由人类大脑。这也表明,研究更高层次的认知可能会激发未来的深度学习模型,将当前的深度学习能力和操纵能力结合起来可语言化的抽象、因果推理以及分布概括。

科学行为和科学企业

展望未来,对人工智能专业知识的需求将受到两股力量的影响。首先,存在一些即将受益于人工智能应用的问题——例如自动驾驶实验室。其次,智能工具能够增强最先进的水平并创造新的机会,例如检查在实验中无法达到的长度和时间尺度上发生的生物、化学或物理过程。在这两种力量的基础上,我们预计研究团队的组成将发生变化,包括人工智能专家、软件和硬件工程师,以及涉及各级政府、教育机构和企业的新型合作形式。最近最先进的深度学习模型的规模继续增长10,234。这些模型由数百万甚至数十亿个参数组成,并且规模逐年增加十倍。训练这些模型涉及通过复杂的参数化数学运算传输数据,并更新参数以将模型输出推向所需值。然而,计算这些更新的计算和数据要求是巨大的,导致大量的能源足迹和高计算成本。因此,大型科技公司大力投资计算基础设施和云服务,突破了规模和效率的极限。尽管营利性和非学术组织可以使用庞大的计算基础设施,但高等教育机构可以更好地跨多个学科进行整合。此外,学术机构倾向于拥有独特的历史数据库和测量技术,这些数据库和测量技术可能在其他地方不存在,但对于 AI4Science 来说是必要的。这些互补的资产促进了产学界合作的新模式,这可以影响所追求的研究问题的选择。

随着人工智能系统的性能接近并超越人类,将其用作常规实验室工作的直接替代品变得可行。这种方法使研究人员能够根据实验数据迭代开发预测模型,并选择实验来改进它们,而无需手动执行费力且重复的任务217,235。为了支持这种范式转变,不断涌现的教育项目旨在培训科学家在科学研究中设计、实施和应用实验室自动化和人工智能。这些程序帮助科学家了解何时适合使用人工智能,并防止人工智能分析得出错误的结论。

人工智能工具的误用和对其结果的误解可能会产生重大的负面影响236。广泛的应用加剧了这些风险237。然而,人工智能的滥用不仅仅是一个技术问题;它还取决于那些引领人工智能创新和投资人工智能实施的人的激励。建立道德审查流程和负责任的实施策略至关重要,包括全面概述 AI238 的范围和适用性。此外,必须考虑与人工智能相关的安全风险,因为重新调整算法实现的双重用途变得更加容易237。由于算法适用于广泛的应用程序,因此它们可以为一种目的而开发,但可以用于另一种目的,从而造成威胁和操纵的漏洞。

结论

人工智能系统可以促进科学理解,能够调查无法以任何其他方式可视化或探测的过程和对象,并通过从数据构建模型并将其与模拟和可扩展计算相结合来系统地激发想法。为了实现这一潜力,必须通过负责任且深思熟虑的技术部署来解决使用人工智能带来的安全问题。负责任地使用人工智能在科学研究中,我们需要衡量人工智能系统的不确定性、错误和效用水平。这种理解对于准确解释人工智能输出并确保我们不会过度依赖潜在有缺陷的结果至关重要。随着人工智能系统的不断发展,优先考虑可靠的实施并采取适当的保障措施是最小化风险和最大化收益的关键。人工智能有潜力解锁以前无法实现的科学发现。

注:这是nature上的一篇关于AI4science的文章,更完整的材料请阅读原文,本文中的数字标号部分为参考文献序号,全文共有参考文献238篇。

相关推荐