AI内参_29_028_ACL_2018论文精读问答系统场景下如何提出好问题

你好，我是洪亮杰。

今天，我和你分享的主题是ACL二零一八论文精读问答系统场景下，如何提出好问题。

今年七月十五号到二十号计算语言学协会年会。

Acl二零一八在澳大利亚的墨尔本举行，这是自然语言处理和计算语言学领域的顶级会议计算。

语言学协会ACL最早成立于一九六二年，每年都赞助举行各种学术交流和研讨大会。

Acl大会是ACL的旗舰会议，可以说这个会议是了解自然语言处理每年发展情况的重量级投稿会议，今年收到了一千零一十八篇长论文和五百二十六篇短论文的投稿，最终大会接受了二百五十六篇长论文以及一百二十五篇短论文，综合录用率达到了百分之二十四点七。

今天我们来看这次会议的一篇最佳论文，题目是学习提出好问题。

今天完美信息的神经期望价值，对澄清问题进行排序。

今先给你简单介绍一下论文的作者。

第一，作者哈饶来自马里兰大学学院式分校是计算机系的博士生，他已经在ACLEMNLPNAACL等自然语言处理大会上发表了多篇论文产且在微软研究院实习过。

第二，作者是饶的导师，哈尔道姆三世是马里兰大学学院，是分校计算机系的一名教授，目前也在纽约的微软研究院工作。

他是机器学习和自然语言处理领域的专家，在诸多领域都发表过不少研究成果，论文引用数达到九千多次。

这篇论文关注的是问答系统。

问答系统不仅在实用领域受到大量用户的青睐，产生了诸如quora、知乎stack、 over floor等知名的在线问答服务。

因此，人工智能系统开发领域受到研究者的关注。

我们曾经提到过，图灵测试用来衡量一个系统，或者说是一个机器人是否具有真正的人工智能。

这个测试其实就是建立在人机问答的交互场景下的。

因此，建立有效的问答系统一直是人工智能研究特别是自然语言处理研究的核心课题之一。

这篇论文的作者们认为，在问答系统的场景中，一个非常重要的手段是针对已经提出的问题进行澄清式提问，从而能够引导其他回答者更加有效的进行回答。

也就是说，作者们研究的主题是如何找到这些具有桥梁作用的澄清式问题，这是这篇论文的第一个重要贡献。

论文的第二个主要贡献是利用了决策论框架下的EVPI,也就是完美信息的期望价值来衡量一个澄清式问题，会对原始的问题增加多少有用的信息，并而言之，EVPI就是这篇论文提出来的一个衡量有用信息的测度。

论文的第三个贡献是通过stack exchange平台构造了一个七万七千条，还有澄清式问题的数据集。

作者们从这个数据集中选取了五百个样本进行了实验，并且发现提出的模型要明显好于一些之前在问题系统中的类似算法。

既然这篇论文的一个核心共贡献是提出了澄清式提问这么一个新的概念，用于帮助问答系统的开发。

那么，究竟什么是重试提问呢？实际上，在这篇文章里，作者们并没有对澄清式提问给出一个清晰的定义，而是仅仅提供了一个实例来解释什么是澄清式提问。

例如，一个用户在XU不two这个子论坛里询问在安装APE程序包时遇到的问题。

这个时候，如果我们需要问澄清式问题，究竟什么样的问题可以激发其他人或者提出澄清式问题的人来进一步解答。

原始的问题呢？我们看下面几个从不同角度提出的问题，可以问这个用户使用的优不two系统具体的版本号也可以问用户wifi网卡信息，还可以问用户是不是在澄八六体系下运行优不two.那么在这一个场景下，后两个问题，要么无法为原始的问题提供更多有价值的信息，而么就是彻底的不相关。

而第一个问题，关于具体的版本号，很明显是用户可以提供的，并且可以帮助回答问题的人来缩小问题的范围。

这也带出了这篇论文的第二个贡献点。

如何衡量一个帖子的价值呢？要回答这个问题，我们需要知道这里有两种帖子是模型需要处理的。

第一种帖子集合是候选的澄清式问题集合。

第二种帖子集合是候选的最终回答集合，我们最终的目的是得到最佳的最终回答，这里面起到搭桥作用的就是澄清式问题。

所以作者们就构造了一个针对某一个最终问题的EVPI值，用于衡量这个问题的期望价值。

为什么是期望价值呢？因为这里面有一个不确定的因素，那就是根据不同的澄清式问题，可能会产生不同的回答。

因此，作者们在这里使用了概率化的表达。

为就是说EVPI的核心，其实就是计算给定当前的原始问题，以及某一个澄清式回答的情况下，某一个最终回答的概率乘以这个回答所带来的收益。

当我们针对候选最终回答集合中所有的回答都进行了计算以后，然后求平均就得到了我们针对某一个澄清式回答的EVPI.换句话说，某一个澄清式回答的EVPI,就是其所能产生的所有可能的最终回答的加权平均收益。

从上面这个定义中，我们有两点不确定。

第一，我们并不知道给定当前的原始问题，以及某一个澄清式回答的情况下，某一个最终回答的条件概率。

第二，我们并不知道问题的表量。

然此，作者们利用了两个神经网络模型来对这两个未知量进行联合学习，这可以算是本文在建模上的一个创新之处。

具体来说，首先作者们利用了LSTM来针对原始问题、候选澄清问题，以及最后解答产生相应的表达向量。

然后原始问题和某一个候选澄清问题的表达。

向量，通过一个神经网络产生一个综合的表达。

最后，作者们定义了一个目标函数，来针对这些初始的表达向量进行优化。

这个目标是需要我们学习到的答案的表达，靠近初始得到的答案的表达，同时也要靠近最终答案的表达。

如果这个最终答案所对应的问题，也靠近原来的问题。

换句话说，如果两个问题的表达相近，答案的表达也需要相近。

那什么样的问题是相近的问题呢？作者们利用了losen这个信息检索工具，根据一个原始的问题，寻找相近的问题。

这里作者们并没有真实的标签信息。

所以利用了一些方法来标注数据，从而能够让模型知道两个问题是否相关。

那这些方法的实验结果是怎样的呢？作者们利用了stack exchange来构建了一个分析澄清式问题的数据集。

具体的思路是，如果原始问题曾经被作者修改过，那么后面的某一个帖子中所提出的问题就会被当做是澄清式问题。

而原始问题就被当做是因为澄清式问题而得以改进的帖子。

很明显，这是一个非常粗略的数据收集条件。

当原始问题被作者修改过以后，并且最后因为这个修改得到回复，就被认为是一个最终的答案。

经过这么一番构建，作者们整理了期望七千多条帖子，作者们利用论文提出的方式和其他的经典模型进行比较。

最后的结论是，提出的模型能够更好的找到最佳的澄清式问题，效果要好于仅仅是简单利用神经网络来匹配原始问题和相应的澄清式问题。

今天我为你讲了ACL二零一八的一篇最佳论文，一起来回顾一下要点。

第一，这篇论文提出了澄清式提问这个概念来帮助问答系统的开发。

第二，文章提出了一系列方法，对澄清式问题进行描述和衡量。

第三，文章构建了一个数据集，通过实验论证了所提出方法的有效性。

最后给你留一个思考题，通过这篇文章关于澄清式问题的介绍，你能否给澄清式问题下一个定义呢？欢迎你给我留言，和我一起讨论。