一、基于个人知识库的ai写作
在当今信息爆炸的时代,人们面临着海量的文本信息,从新闻报道到学术论文,从社交媒体到个人博客,每天都有大量的文字产生和传播。然而,对于许多人来说,写作却是一项具有挑战性的任务。特别是对于那些需要频繁进行写作的人来说,如新闻记者、广告撰稿人、学者等,找到合适的创作灵感和正确的表达方式变得尤为重要。
近年来,基于个人知识库的AI写作技术应运而生,为人们提供了一种全新的写作方式。个人知识库是指个人积累的关于某个领域的知识和经验的集合,它可以包括书籍、文章、笔记、网页收藏等。通过将个人知识库与AI技术相结合,人们可以更加高效地进行写作,提高创作质量和效率。
基于个人知识库的AI写作技术的核心是利用自然语言处理和机器学习算法,对个人知识库中的文本进行分析和理解。通过深度学习和模型训练,AI可以学习和模仿人类的写作风格和思维方式,从而生成符合写作要求的文本。
使用基于个人知识库的AI写作技术,人们可以在写作过程中获得以下几方面的帮助:
1: 创意灵感
创意是写作的基石,但是有时候我们会陷入创意枯竭的困境。基于个人知识库的AI写作技术可以通过分析个人知识库中的文本,为写作者提供创意灵感的建议。它可以根据写作者的需求和写作领域,推荐相关的主题、观点和论据,帮助写作者快速找到创作的切入点。
2: 文章结构
写作一篇好的文章需要良好的结构安排。基于个人知识库的AI写作技术可以分析个人知识库中的文本,并根据写作者的写作目的和读者的需求,提供最佳的文章结构。它可以帮助写作者合理安排段落、标题和子标题,使文章逻辑清晰、层次分明。
3: 标准化表达
在某些行业和领域,有一些标准化的表达方式和用语。基于个人知识库的AI写作技术可以学习并掌握这些标准化的表达方式,并在写作过程中提供相应的建议和修改。它可以帮助写作者避免使用不规范或不准确的表达,提高文章的专业性和可信度。
4: 文字润色
写作是一个反复推敲和修改的过程。基于个人知识库的AI写作技术可以作为写作者的助手,提供文字润色的建议和修改。它可以检查文章中的语法错误、拼写错误和标点符号错误,并提供合理的替换和调整建议,使文章更加通顺和易读。
基于个人知识库的AI写作技术的发展还处于初级阶段,尚存在一些挑战和限制。例如,个人知识库的质量和广度会影响到AI写作的效果;AI写作技术对于抽象概念和创造性思维的处理仍然有限。然而,随着技术的不断发展和完善,相信基于个人知识库的AI写作技术将能够为人们提供更加优质和个性化的写作体验。
总之,基于个人知识库的AI写作技术为人们提供了一种全新的写作方式,帮助他们在创意灵感、文章结构、标准化表达和文字润色等方面取得更好的效果。随着技术的不断进步,相信AI写作将会在未来的写作领域发挥越来越重要的作用。
二、基于知识库专家系统
基于知识库专家系统的应用和发展
随着人工智能技术的不断进步,基于知识库的专家系统作为一种经典的人工智能应用模型,逐渐受到了更多关注。这种系统基于已有专家知识库,通过推理和数据分析,帮助解决复杂问题和提供决策支持,为各行各业带来了巨大的便利和效益。
基于知识库的专家系统在医疗、金融、工程、咨询等领域都有着广泛的应用。例如,在医疗诊断方面,专家系统可以结合医学知识库,辅助医生进行疾病诊断和治疗方案制定;在金融领域,专家系统可以帮助分析师进行交易决策和风险评估;在工程领域,专家系统可以辅助工程师进行设计优化和问题排查。
专家系统的发展离不开知识建模和推理机制的不断完善。通过构建更加精准、完备的知识库,专家系统可以提供更加准确、快速的决策支持。同时,推理机制的优化也是关键的一环,能够让系统更加高效地利用知识库进行推理和问题解决。
基于知识库专家系统的优势和挑战
基于知识库的专家系统具有多方面的优势,如高效的知识存储和检索、快速的问题解决能力、易于扩展和更新等。这些优势使得专家系统在实际应用中能够大显身手,为用户提供更加个性化、专业化的服务。
然而,专家系统也面临着一些挑战,主要包括知识库的构建难度、推理机制的复杂性、系统的稳定性等方面。尤其是在不断变化的环境下,知识库的更新和维护是一个持续性的挑战,需要不断投入大量的人力和资源。
基于知识库专家系统的未来发展趋势
在人工智能技术不断发展的今天,基于知识库的专家系统在未来将继续发挥重要作用,并呈现出一些明显的发展趋势。首先,随着大数据和机器学习技术的不断成熟,专家系统将更加智能化和智能化,能够更好地理解和预测用户需求。
其次,基于知识库的专家系统将向多领域和跨学科发展,实现知识共享和交叉融合。不同领域的知识库可以相互联通,形成更加庞大和丰富的知识图谱,为专家系统的推理和决策提供更多元的支持。
最后,基于知识库的专家系统与自然语言处理、图像识别等技术的结合将推动其应用范围的进一步扩展,使得系统能够更灵活和全面地应对各种复杂问题和场景。
总的来看,基于知识库的专家系统在未来的发展中将继续发展壮大,并为各行各业带来更多的创新和机遇。随着技术的不断进步和应用场景的不断拓展,专家系统定将成为人工智能领域的一颗璀璨明珠。
三、大数据 知识库
随着互联网技术的不断发展,大数据已经悄然走进了人们的视野,成为了企业发展和决策制定中不可或缺的重要元素。大数据作为一种全新的数据处理技术,通过收集、存储、分析庞大的数据集合,帮助企业发现商业价值并做出更明智的决策。
大数据的定义
大数据就是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,其规模大、类型多样,处理速度快。大数据技术可以帮助企业从数据中获取有价值的信息,提升企业的竞争力。
大数据的优势
利用大数据处理技术,可以更全面、更及时地了解市场动态,满足客户需求,推动企业不断创新。大数据还可以帮助企业提高生产效率,优化资源配置,降低成本,最大限度地提升企业的综合竞争力。
大数据在知识库管理中的应用
知识库是企业中非常重要的资产,包含了企业的核心知识、经验和技能。而大数据技术的应用可以大大提升知识库管理的效率和水平。
首先,在知识库建设过程中,大数据技术可以帮助企业快速收集、整理和存储大量的知识信息,提高知识检索的效率和准确性。
其次,通过大数据分析技术,企业可以更好地理解知识库中的数据,发现其中潜在的关联和价值,为企业的决策提供更有力的支持。
最后,大数据技术还可以在知识库共享和传播方面发挥重要作用,帮助企业实现知识的共享和传承,促进企业内部协作与交流。
结语
随着大数据技术的不断发展和应用,企业对知识库管理的需求也变得越来越迫切。通过充分利用大数据技术,企业可以更好地管理和利用知识库中的信息资源,从而提升竞争力,实现可持续发展。
四、什么是指基于大数据?
大数据的定义
大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
大数据的特点
数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。
大数据的采集
科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集也不再是技术问题,只是面对如此众多的数据,我们怎样才能找到其内在规律。
五、goldendb基于什么数据库?
浙江移动成功上线基于中兴通讯GoldenDB数据库的权益中心系统,这是浙江移动与中兴通讯双方探索B域系统数据库自主创新的首个试点业务,该项目成功上线,验证了国产数据库的安全可靠,展现了浙江移动在数智化转型方面的领先实力。
六、三调数据基于什么影像?
三调使用的主要是国产的资源ZY卫星和高分GF卫星影像。三调影像使用的是遥感影像,影像解译之后才是数字化文件
七、基于FPGA的高速数据采集?
高速A/D的数据采集系统肯定是用到模数转换了采集模拟量,一般这样的系统是会强调多路采集数据和高分辨的AD。
高速的FPGA数据采集系统往往设计到多个外界模块的数据采集,一般是各种传感器采集外界环境的变化量
八、数据库数据是基于什么关系?
R<U,F>这是关系模式,U是指属性列,F指属性间的依赖关系集合。 关系模式和关系的关系呢与一个很简单的例子:数据类型和数据变量。这个关系模式R呢就好像是数据类型,而这个关系r就好像是数据变量。
九、基于大数据的指数类数据有哪些?
基于大数据的指数类数据有如下几种类型:
.1.交易数据(TRANSACTION DATA)
大数据平台能够获取时间跨度更大、更海量的结构化买卖数据,这样就能够对更广泛的买卖数据类型进行剖析,不仅仅包含POS或电子商务购物数据,还包含行为买卖数据,例如Web服务器记录的互联网点击流数据日志。
2.人为数据(HUMAN-GENERATED DATA)非结构数据广泛存在于电子邮件、文档、图片、音频、视频,以及经过博客、维基,尤其是交际媒体产生的数据流。这些数据为运用文本剖析功用进行剖析供给了丰富的数据源泉。
3.移动数据(MOBILE DATA)能够上网的智能手机和平板越来越遍及。这些移动设备上的App都能够追踪和交流很多事情,从App内的买卖数据(如搜索产品的记录事情)到个人信息材料或状况陈述事情(如地址改变即陈述一个新的地理编码)。
4.机器和传感器数据(MACHINE AND SENSOR DATA)这包含功用设备创建或生成的数据,例如智能电表、智能温度控制器、工厂机器和连接互联网的家用电器。这些设备能够配置为与互联网络中的其他节点通信,还能够自意向中央服务器传输数据,这样就能够对数据进行剖析。
十、如何构建一个基于知识库的任务型对话系统?
1. 背景
对话人工智能助理通过自然语言帮助用户完成任务。解释简单的指令(如请打开灯)相对简单,但要处理更复杂的任务,这些系统必须能够进行多轮对话。
论文的目的是证明transformer架构比常用的循环神经网络模型更适合于多轮对话的建模。为了比较序列编码核心的基本机制,特意选择了简单的体系结构。TED架构应该被视为在各种对话任务中开发最先进架构的候选。
并非谈话中的每一句话都必须是对对方最近的一句话的回应。Groz和Sidner认为对话是一组交错的话语片段,其中一个话语片段(或主题)是一组直接相互回应的话语。在对话中,这些顺序可能不会直接跟随对方。一个直观的例子是在面向任务的对话系统中需要子对话。考虑以下对话:
机器人:您的总金额是15.50美元,需要我向您上次使用的卡收费吗?
用户:我的账户上还有信用额度吗?
机器人:是的,你的账户是10美元的信用卡。
用户:好的,很好。
机器人:要我下订单吗?
用户:是的。
机器人:完成了,明天您可以收到商品。
1.1 对话栈:
店员的问题 需要我下单吗?提示返回手头的任务:完成购买。一种模式是将这些子对话视为存在于一个堆栈上,当新主题被引入时,它们会被推到堆栈上,一旦结束,就会从堆栈中弹出。
20世纪80年代,格罗兹和西德纳主张将对话历史表示为一堆主题,后来拉文克劳对话系统实现了一个对话堆栈,专门用于处理子对话。虽然堆栈自然允许处理和结束子对话,但堆栈的严格结构也有限制。《拉文克劳》的作者主张明确跟踪主题,以便对用户意图进行上下文解释。然而,一旦一个主题从对话堆栈中弹出,它就不再提供这种上下文。在上面的例子中,用户可能会进一步问这样的问题,这样就耗尽了我的信用,对吗?。如果退款信用的主题已经从堆栈中弹出,这将不再有助于澄清用户想要知道什么。由于原则上不限制人们在谈话中如何重温和穿插话题,论文对一种比堆栈更灵活的结构感兴趣。
1.2 循环神经网络
近年来,对于开放领域和面向任务的系统,一种常见的选择是使用递归神经网络(RNN)来处理之前对话的顺序。如果有足够的训练数据,RNN应该能够学习任何想要的行为。然而,在一个典型的低资源环境中,没有用于训练特定任务的大型语料库,RNN不能保证学习概括这些行为。Vlasov等人和Sahay等人曾进行过修改基本RNN结构的工作,以将这种行为的诱导偏差纳入对话策略。这些工作的目的是克服RNN的一个不适合对话建模的特性。默认情况下,RNN使用整个输入元素序列来产生编码,除非长短时记忆(LSTM)单元等更复杂的结构在足够的数据上进行训练,以明确了解它应该“忘记”序列的部分。
1.3 Transformer
近年来,Transformer体系结构取代了递归神经网络,成为训练语言模型的标准,transformer XL和GPT-2等模型在各种语料库中实现了更低的复杂度,并产生了对各种下游任务有用的表示。此外,Transformer最近显示出对意外输入(例如对抗性示例)更为稳健。直观地说,由于自我注意力机制预先选择了哪些令牌将影响编码器的当前状态,转换器可以忽略序列中的非信息性(或对抗性)tokens。要在每个时间步进行预测,LSTM需要更新其内部存储单元,并将此更新传播到其他时间步。如果当前时间步的输入是意外的,则内部状态会受到干扰,在下一个时间步,神经网络会遇到与训练过程中遇到的任何情况不同的记忆状态。Transformer通过自我注意机制解释时间历史,使每个时间步的预测相互独立。如果Transformer接收到不相关的输入,它可以忽略它,只使用之前的相关输入进行预测。
由于Transformer选择序列中的哪些元素用于在每一步生成编码器状态,因此我们假设它可能是处理对话历史的有用架构。对话中的话语序列可能代表多个交错的话题,Transformer的自我注意机制可以同时学会理清这些话语片段,并做出适当的反应。
2. 相关工作
2.1 开放域对话的Transformer
多位作者最近在对话建模中使用了Transformer架构。Henderson等人在Reddit的一个大型数据集上训练反应选择模型,其中对话上下文和反应都用Transformer编码。他们表明,这些体系结构可以在大型、多样的数据集上预先训练,然后针对特定领域中面向任务的对话进行微调。Dinan等人使用了类似的方法,使用Transformer对对话上下文以及背景知识进行编码,以研究开放领域对话。他们提出的架构有两种形式:一种是检索模型,其中使用另一个Transformer对通过排序选择的候选响应进行编码;另一种是生成模型,其中使用一个Transformer作为解码器,逐个token地生成响应。这些方法的关键区别在于,我们在话语层面运用自注意力,关注对话轮的顺序,而不是单个轮中的标记序列。
2.2 任务型对话中的话题消歧
最近的工作试图产生对话策略的神经网络架构,该架构可以在单个对话中处理交错的话语片段。Vlasov等人介绍了递归嵌入对话策略(REDP)体系结构。这项工作中的消融研究强调,REDP性能的提高是由于对话历史上的注意机制和从意外用户输入中恢复的复制机制。对标准RNN结构的这种修改使对话策略能够“跳过”对话历史中的特定回合,并在意外输入前后产生相同的编码器状态。Sahay等人[8]通过研究学习这种掩蔽行为的不同注意机制的有效性,进一步发展了这一研究路线。
在这项工作中,论文没有扩充基本的RNN架构,而是用一个Transformer来取代它。默认情况下,RNN处理序列中的每个项目以计算编码。REDP的修改是因为并非所有的对话历史都是相关的。进一步考虑这条推理路线,论文用自我注意力代替RNN,因此不存在整个序列相关的先验假设,而是对话策略应该选择哪些历史转折与选择回应相关。
3. 作为对话策略的Transformer
论文提出了Transformer嵌入对话(TED)策略,这大大简化了REDP的体系结构。与REDP类似,论文不使用分类器来选择系统动作。相反,我们通过最大化对话状态和每个系统动作之间的相似性函数来联合训练嵌入。在推理时,将对话的当前状态与所有可能的系统动作进行比较,并选择相似度最高的一个。
TED政策的两个时间步(即对话轮)如图1所示。一个步骤由几个关键部分组成。
3.1 特征提取
首先,该策略将用户输入、系统动作和词槽特征化。TED策略可以端到端或模块化方式使用。模块化方法类似于基于POMDP的对话策略或混合代码网络中采用的方法。使用外部自然语言理解系统,将用户输入特征化为一个二进制向量,表示识别的意图和检测到的实体。对话策略从固定的系统动作列表中预测操作。按照中详细解释的REDP方法,系统动作被特征化为表示动作名称的二进制向量。
所谓端到端,我们的意思是,除了话语序列之外,没有监督。端到端TED策略仍然是一种检索模型,不会生成新的响应。在端到端设置中,用户和系统的话语被编码为词袋向量。
在对话的每一步中,插槽(Slots)总是以二进制向量为特征,指示它们的存在、不存在,或者值对用户不重要。我们使用一种简单的插槽跟踪方法,用最近指定的值覆盖每个插槽。
3.2 Transformer
Transformer的输入是用户输入和系统动作序列。因此,论文利用Transformer中存在的自我注意力机制,在每个对话回合中动态访问对话历史的不同部分。从数据中学习之前对话回合的相关性,并在对话的每个回合重新计算。关键的是,这允许对话策略在一个回合中考虑用户的话语,但在另一个回合中完全忽略它。
3.3 相似度
Transformer输出 和系统动作 被嵌入一个语义向量空间 = , = ,其中 。我们使用累积损失来最大化与目标标签 的相似性 ,并最小化与负样本 相似性 。
(1)
上式为对话策略的损失函数,其中, 是取负样本集的和, 是对话中所有时间步的平均值。
全局损失是所有对话中所有损失函数的平均值。
在推理时,点积相似度可以作为下一个话语检索问题的依据。
在模块化训练期间,我们使用平衡的批处理策略来缓解类的不平衡,因为一些系统动作远比其他系统动作频繁。
四. 实验
论文的实验目的是比较Transformer和LSTM在多轮对话中的性能。具体来说,我们想测试TED策略,找出对话历史中的相关转折点,以预测下一个行动。因此,需要一个对话数据集,系统动作取决于几个回合的对话历史。这一要求排除了WikiQA等问答数据集作为评估候选数据集的可能性。
此外,需要对系统动作进行标记,以评估下一个动作检索的准确性。请注意,以下指标Recall@k可以用于未标记的数据,但由于典型的对话包含许多通用的回答,例如“是”,在很多情况下都是正确的,因此Recall@k这是值得怀疑的。因此,我们从实验中排除了未标记的对话语料库,如Ubuntu Dialogue Corpus或MetalWOZ。
所以,唯一可以同时满足这两个标准的公开对话数据集是REDP数据集、MultiWOZ和Google Taskmaster-1。对于后者,必须从实体注释中提取动作标签,这并不总是可能的。
在论文的实验中,有两种不同的模型作为基线。首先,Vlasov等人提出的REDP模型,该模型专门用于处理长期历史依赖关系,但基于LSTM。第二,另一个基于LSTM的策略与TED相同,只是Transformer被LSTM取代。
论文在数据集上使用第一个(REDP)基线进行实验,因为当存在长期依赖时,该基线更强。对于MultiWOZ实验,论文只与简单的LSTM策略进行比较,因为正如论文在这里演示的那样,MultiWOZ数据集几乎与历史无关。
4.1 包含子对话的对话
我们首先对Vlasov等人的数据集上的实验进行评估。该数据集专门用于测试对话策略处理非合作或意外用户输入的能力。它由酒店和餐厅预订域中的面向任务的对话组成,包含合作对话(用户提供与任务相关的必要信息)和非合作对话(用户提出与任务无关的问题或聊天)。该数据集的一个特性是,在任何不合作的用户行为之后,系统会重复之前提出的问题。
图2显示了不同对话策略在测试对话中的性能,以及用于训练模型的对话量的函数。TED策略的性能与REDP相当,没有任何专门设计的体系结构来解决任务,并且显著优于基于LSTM的简单策略。在极低数据情况下,TED策略的表现优于REDP。应该注意的是,REDP在很大程度上依赖于其复制机制来预测非合作性题外话之后之前提出的问题。然而,TED策略既简单又通用,在不依赖对话属性(如重复问题)的情况下实现了类似的性能。此外,由于transformer架构,TED策略的训练速度比REDP更快,并且需要更少的训练时间才能达到相同的精度。
图3可视化TED策略在示例对话中的注意力权重,此示例对话在对话中间的一行中包含几个闲聊语句。该图显示,当试图完成任务时(即,进一步询问所需问题),自我注意力机制完全忽略了一系列聊天互动。请注意,即使TED策略不使用稀疏注意体系结构,学习到的权重也是稀疏的。重要的是,TED策略从与当前预测相关的历史中选择关键对话步骤,并忽略不具信息性的历史。在这里,只想象一次对话,但对于任意数量的聊天对话,结果是相同的。
4.2 在MultiWOZ上比较端到端和模块化方法
在证明了轻量级TED策略的性能至少与专门的REDP相当,并且在对包含长期历史依赖关系的对话进行评估时,其性能显著优于基本的LSTM策略后,我们现在将TED与MultiWOZ 2.1数据集上的LSTM策略进行比较。与前一节不同,本节中的LSTM策略是一种与TED相同的架构,但Transformer被LSTM单元取代。
论文选择MultiWOZ做这个实验是因为它涉及多轮对话,并提供系统动作标签。不幸的是,我们发现它不包含许多长期依赖项,我们将在本节后面部分演示。因此,TED和REDP在概念上都不比LSTM有任何优势。随后,我们展示了TED策略在这个常用基准数据集上的性能与LSTM相当。
MultiWOZ 2.1是一个包含10438个人机对话的数据集,用于Wizard-of-Oz任务的七个不同领域:酒店、餐厅、火车、出租车、景点、医院和警察。特别是,对话是在用户和职员(向导)之间进行的。用户要求提供信息,向导可以访问有关用户可能要求的所有可能事项的知识库,提供该信息或执行预订。这些对话带有向导操作的标签,以及向导在每个用户回合后对用户目标的了解。
在论文的实验中,将MultiWOZ 2.1数据集分别分割为7249和1812个对话的训练集和测试集。不幸的是,不得不完全忽略1377段对话,因为它们的注释是不完整的。
a、 端到端训练
作为MultiWOZ 2.1的第一个实验,论文研究了端到端检索设置,其中用户的话语直接用作TED策略的输入,然后TED策略必须检索正确的响应。
向导的行为取决于对知识库的查询结果。例如,如果只返回一个场地,向导可能会引用它。论文通过(i)消除所有用户和向导的话语来边缘化这种知识库依赖性,以及(ii)引入状态槽,指示某个场地是否可用、不可用、已预订或唯一(即向导将在下一轮中推荐或预订特定场地)。这些插槽的特征化为K个二进制向量中的1个。
为了计算TED策略预测的准确性和F1-score,论文将MultiWOZ数据集提供的动作标签(例如request_restaurant)分配给输出话语,并将其与正确的标签进行比较。如果存在多个标签,我们将它们按字母顺序连接成一个标签。
表一显示了在保持测试集上得到的F1-score和精确度。F1-socre与准确度之间的差异源于这样一个事实:与大多数其他标签相比,一些标签s.a.bye_general经常出现(4759次),而s.a.recommend_restaurant_select_restaurant只出现11次。
与1.0相比,准确度和F1-score通常较低,这一事实源于MultiWOZ dialog数据集的一个更深层次的问题。具体来说,由于向导的多个特定行为在大多数情况下被认为是“正确的”,因此MultiWOZ数据集不适合用于对话策略的监督学习。换句话说,在MultiWOZ中,向导的一些操作不是确定性的,而是概率性的。例如,无法了解向导何时应询问用户是否需要其他内容,因为这是担任向导角色的人员的个人偏好。
b. 模块化训练
论文现在重复上述实验,使用相同的MultiWOZ对话子集,但现在采用模块化方法。论文模拟外部自然语言理解管道,并为TED策略提供真实用户意图和实体,而不是原始用户话语。论文从向导信念状态的变化中提取意图。这种信念状态由MultiWOZ数据集以一组插槽的形式提供(例如restaurant_area, hotel_name等),在每次用户轮次后更新。因此,典型的用户意图是inform{"restaurant_area": "south"}。然而,用户并不总是提供新信息,因此其意图可能只是inform(没有任何实体)。如果对话的最后一个用户意图以这种方式不具信息性,我们假设它是一个告别,因此将其注释为再见。
如表一所示,使用模块化方法而不是端到端学习可以大致使F1-score翻一番,并略微提高准确性。这并不奇怪,因为模块化方法接受额外的监督。
虽然分数表明模块化TED策略比端到端TED策略表现更好,但所犯的错误种类相似。论文用测试集中的一个名为SNG0253的示例对话框来演示这一点,如图4所示。
图4的第二列显示了端到端的预测。这两个预测的回答都是合理的,即回答可能来自人类。然而,这两个结果都被标记为错误,因为根据真实对话(第一列),第一个响应应该只包含第二句话(request_train,不是inform_train)。然而,对于第四个回合,情况正好相反:根据目标对话,响应应该包括有关列车的附加信息(inform_train_request_train),而预测的对话只要求提供更多信息(request_train)。
第三栏显示模块化TED策略犯了同样的错误:它预测的不是只预测请求列车,而是在第二轮同时采取通知列车和请求列车两种行动。在最后一个回合中,模块化TED策略预测reqmore_general,,而不是request_train,这意味着向导会询问用户是否需要其他任何东西。这个回答非常合理,事实上,它出现在训练集的类似对话中(例如,参见对话PMUL1883)。因此,不存在正确的行为,也不可能获得高分,如表一的测试分数所示。
据论文所知,使用MultiWOZ进行下一个动作检索时的最新F1分数分别为0.64和0.72。然而,这些数字与论文的数字没有直接的可比性:论文从所有56128个可能的响应中检索操作,并将检索到的响应的标签与正确响应的标签进行比较,而他们从20个阴性样本中检索操作,并直接比较文本响应。
4.3 历史对话相对独立
如表1所示,仅考虑最后两个回合(即当前用户的话语或意图,以及在此之前的一个系统动作),而不是最后10个回合,端到端的精确度和F1分数下降不超过0.04,模块化架构的精确度和F1分数下降不超过0.08。对于我们将在下一段中讨论的端到端LSTM体系结构,当考虑较少的历史时,性能甚至会提高。因此,MultiWOZ似乎对对话历史的依赖性很弱,因此论文无法评估TED策略处理对话复杂性的能力。
4.4 Transformer vs LSTM
作为最后一个消融实验,论文用LSTM替换TED架构中的Transformer,并运行与之前相同的实验。结果如表1所示。
LSTM和transformer版本的F1-score相差不超过0.05,这是意料之中的,因为在MultiWOZ中,绝大多数信息都是通过最近的一轮传输的。
然而,LSTM版本缺乏Transformer版本的准确性。具体而言,对于LSTM,端到端训练的准确度得分要低0.13分。由于我们在本节前面指出的模糊性问题,很难确定这种差异的原因。
5. 总结
论文介绍了Transformer嵌入对话(TED)策略,其中Transformer的自我注意力机制在多轮对话序列中运行。论文认为,这是一种比RNN更合适的架构,因为现实生活中的对话中存在交叉主题。论文表明,TED策略可以以模块化和端到端的方式应用于MultiWOZ数据集,尽管论文还发现,由于缺乏历史依赖性和对个人群体的依赖性,该数据集不适合用于对话策略的监督学习。
论文还对专门创建的面向任务的数据集进行了实验,以测试从非合作用户行为中恢复的能力。尽管TED更快、更简单、更通用,但TED策略的性能优于基线LSTM方法,并与REDP不相上下。我们证明了学习到的注意力权重很容易解释,并且反映了对话逻辑。在每一个对话回合中,一个Transformer选择当前预测要考虑的先前回合,有选择地忽略或关注对话历史的不同回合。