三方众包市场中的发包方<img id="50b8474afcf26d20e34ef750a3d0f191" class="picture_figure_line" src="http://rtt.5read.com/pdgpath/d9/d9f0/d9f02fdbbfce171a7b3584f341c9a07f/0f2d00ea2e56acc275e4760bb0c6431c.jpg" width="11" height="5" title="width=11,height=5,dpi=110" />平台博弈机制设计

随着机器学习任务的规模逐渐增大，人们迫切需要对大规模数据进行收集.众包(crowdsourcing)作为低成本高效率的数据收集方式，受到了广泛欢迎.

众包研究的基本问题之一是设计有效的机制以使得参与者在竞争中实现共赢.当前，众包机制设计研究往往基于两方众包模型：发包方(requester)发布任务并支付标注者(workers)费用；标注者完成任务并收取报酬[1].该模型的重要假设在于发包方和标注者可以直接进行交互.而现实应用中，如图1所示，发包方和标注者的交互往往以平台(platform)为中介，构成三方众包市场.其中，发包方将任务和报酬发布给平台，平台雇佣标注者进行标记，进而在将标记结果反馈给发包方的同时，赚取支付给标注者的费用和发包方支付给自己的费用之间的差价.显然，传统的两方众包模型无法对该过程进行建模，因此需要引入全新的三方众包模型进行研究.

相比于两方众包，三方众包的核心问题是发包方与平台之间的博弈：发包方希望支付较少的报酬同时获取准确率较高的标记；而平台则希望降低雇佣标注者的成本，同时从发包方处获取较多的报酬.这之中存在着复杂的博弈关系.一方面，发包方和平台既有合作也有竞争：双方都希望最大化标记的准确率，但在最小化或最大化发包方支付这一点上有冲突.另一方面，发包方和平台各自只能掌握自身信息，而无法直接观测到对方信息.在不完全信息下采取最优策略，对双方都是相当具有挑战性的问题.

本文开启三方众包市场中的发包方-平台博弈机制设计研究，主要贡献有4点：

1) 提出不完全信息博弈[2]模型CrowdMarket对三方众包市场进行建模，并证明通过设计合适的在线学习策略可以近似达到该博弈的Nash均衡；

2) 在单发包方设定下，证明了EXP3算法[3]为发包方的最优策略，进而本文设计了基于反事实遗憾最小化(counterfactual regret minimization, CFR)技术[4-5]的平台策略，证明该策略能够充分利用平台方的有效信息，具有比直接应用传统在线学习方法更强的理论保证；

3) 将单发包方的策略拓展到多发包方的情形，并给出了多发包方情形下的理论分析；

4) 通过合成及真实数据集上的实验验证了方法的有效性.

1 相关工作

众包研究的核心问题之一在于如何平衡标记质量和支付费用[6-7].现有研究中，实现这一目标的方式可以分成2类：设计更好的标记推断方法以及设计更好的众包机制.标记推断已经有了丰富的研究，例如文献[8-11].本文则着力于探讨机制设计问题.

两方众包机制设计已经得到了充分研究，其中包括任务与报酬的分配机制设计[12-15]，以及利用提供线索[16]或跳过选项[17-19]等方式提升高难度样本的标记质量.由于这些机制都是针对标注者的，因此这些策略同样可以应用于三方众包市场中作为平台与标注者之间的博弈机制.并且由于这方面的研究相对成熟，本文不再对此进行深入探讨.同时，也有大量的研究关注如何设计合适的支付策略以激励标注者给出高质量的标记.这方面的代表性工作包括文献[20-23].在我们的问题设定中，这些激励机制可以被平台用于激励标注者给出更准确的标记，但是不能直接用于处理平台和发包方之间的博弈.

近期以来，一些工作也开始从应用的角度关注三方众包市场.例如文献[24]提出了一种声誉评价方法以防止发包方和标注者的欺骗行为，而文献[25]则将众包市场建模为一个3层的优化问题以最大化平台的健康度.但这些工作均不涉及博弈机制设计研究，因而它们的研究动机与本文有着显著的差异.

当前，将众包形式化为博弈问题，特别是预算有限条件下的收益最大化问题，是一个重要的理论研究方向[26-28].这个方向上的现有研究主要集中于传统两方设定，本文所提出的三方众包模型，对拓展这一方向的研究内容可能起到有益的作用.此外，近期也有工作研究如何在广告市场中利用机器学习方法从数据中学习有效的三方博弈机制[29].本文的研究也为将这种新方法引入众包博弈问题提供了有益启示.

2 CrowdMarket模型

2.1 基本定义

本节提出三方众包模型CrowdMarket，将三方众包市场形式化为发包方、平台以及标注者三方的不完全信息博弈[2].本节讨论单发包方情形，第4节中将对多发包方情形进行讨论.

单发包方情形下的CrowdMarket模型为持续T轮的博弈，在第t轮下：

1) 发包方发送一个包含b个任务的任务包，以及支付报酬xt∈(0,1]给平台.本文假设发包方只能从有限数量的K个报酬选项X1,X2,…,XK中选择合适的报酬.

2) 在收到报酬和任务包之后，平台选择mt个标注者完成标注任务.

3) 标注者各自选择采取低等级的努力或者高等级的努力以完成任务.高努力下准确率为p*>1/2；而低努力下标注者随机猜测以返回标记，准确率为1/2.之后每位标注者各自独立地为每个任务进行标注，并将结果反馈给平台.

4) 平台将每位标注者给出的标记通过多数投票法进行集成，并将集成后标记返回给发包方.集成后标记的实际平均准确率记为at.发包方从返回的标记中得到的收益取决于该准确率以及支付给平台的报酬，因此可以表示为at-xt.

5) 平台从发包方的支付中取出一部分作为参与了本轮标注的标注者的报酬，其余作为自己的收益.

为了激励标注者给出高质量的标记，平台需要得知标注者给出的标记的准确程度，这就需要发包方向平台提供反馈.因此，我们引入了这样一个步骤：发包方在每一轮结束之后会向平台反馈该轮标记的准确率.参考文献[17]，可以设计激励机制来确保发包方会诚实地反馈标记准确率，在3.1节中我们将会给出该激励机制并进行分析.另外，本文假设平台只能有部分轮次得到真实标记.因此，平台不能在任意轮次中直接推断出标记准确率.

每一轮中参与者可能选择的动作组成的集合称为动作集.具体而言，发包方的动作集为Areq={(x,a′):x∈{X1,X2,…,XK},a′∈[0,1]}，其中x代表支付给平台的报酬，a′代表汇报的准确率；平台的动作集为Apla=(m,c):m∈{1,2,…,N},c∈

N}，其中m代表平台选择标注的人数，c代表为每一位标注者支付的报酬组成的向量(m<N时，多出的向量元素值为0)，N代表平台能选择的标注者最大人数；标注者的动作集为Awor={高等级努力，低等级努力}.在博弈过程的每一轮中，每位参与者可能会以一定的概率分布从各自的动作集中随机选择1个动作.这样随机选择时，每个动作被选中的概率分布称为(混合)策略.每位参与者的所有策略组成的集合称为策略空间.分别记发包方、平台和标注者群体的策略以及策略空间为

2.2 CrowdMarket博弈的分解

CrowdMarket模型是一个多方非零和博弈[30]，这是博弈论中最难分析的博弈类型.但是，该模型有特殊的结构：发包方和标注者之间并没有直接的交互.利用这一点，我们可以将CrowdMarket模型分解成2个部分：发包方和平台之间的博弈以及平台和标注者之间的博弈.其中，平台和标注者之间的博弈与传统的两方众包中发包方和标注者之间的博弈是类似的，因此平台需要设计机制以激励标注者采取高等级的努力.并且，需要同时引入激励机制使发包方诚实反馈准确率.

3 平台激励机制设计

本节介绍平台需要采用2个激励机制：1)激励发包方诚实反馈准确率信息的机制；2)激励标注者采取高等级努力的机制.

3.1 激励发包方诚实反馈的机制

在CrowdMarket模型中，平台可以获得发包方反馈的准确率信息a′t.但是，发包方可能会试图通过反馈一个虚假的准确率a′t进行欺诈.为了防止这一点，受到文献[17]中“没有免费的午餐”(no-free-lunch)原则的启发，我们为平台设计了一个惩罚机制以防止发包方欺诈.

本文假设在CrowdMarket博弈过程中，平台可以随机选取某些轮次通过第三方得到真实标记,进而在这些轮次中对发包方反馈的标记准确率进行验证.如果验证发现发包方反馈的准确率不正确，即发包方在该轮进行了欺诈，那么平台将会对发包方进行一定的惩罚.

我们首先定义指示变量序列yt,t=1,2,…,T如下：

惩罚机制可以表示为指示变量序列的一个函数f(y1,y2,…,yT)：在众包博弈结束后，发包方需要支付f(y1,y2,…,yT)给平台作为欺诈的惩罚.为了确保公平性，惩罚机制需要满足2个基本条件：

第1个条件是平台不能在没有发现发包方欺诈的情形下进行惩罚；相反，如果发包方被发现在每轮都作弊了，那么需要支付最大数额的惩罚金额Fmax.该条件可以形式化为定义1.

定义1. 如果惩罚机制f满足:

1) 若yt≠1对所有t=1,2,…,T成立且存在t使得yt=-1，则f(y1,y2,…,yT)=Fmax.

2) 若yt=1对所有t=1,2,…,T成立，则f(y1,y2,…,yT)=0.

则称f满足“没有免费的午餐”条件.

第2个条件是发包方应该支付惩罚当且仅当其被发现有欺诈行为.该条件可形式化为定义2.

定义2. 如果惩罚机制f满足:对于任意轮次t∈{1,2,…,T}以及任意

(y1,…,yt-1,yt+1,…,yT)∈{-1,0,1}T-1

f(y1,…,yt-1,1,yt+1,…,yT)=
f(y1,…,yt-1,0,yt+1,…,yT)≤
f(y1,…,yt-1,-1,yt+1,…,yT)，

那么称f满足“激励相容”条件.

基于这2个条件，我们提出如下机制：

其中，I(yt≠-1)为指示函数.

式(1)表明：如果被发现在众包过程中有欺诈行为，发包方会支付最大数额的惩罚.显然，式(1)所述的机制满足我们提出的2个条件.我们可以进一步证明定理1成立，定理1表明了由式(1)定义的惩罚机制是满足我们所要求的2个条件的唯一机制.

定理1. 当Fmax≥T2时，式(1)机制是唯一满足“没有免费的午餐”条件和“激励相容”条件的机制,且发包方最优策略是每轮诚实反馈收益信息.

证明. 假设f是同时满足定理要求的2个条件的机制.我们只需要证明：当所有的指示变量yi≠-1时f(y1,y2,…,yT)=0，否则f(y1,y2,…,yT)=T即可.

1) 当∀i∈[t]:yi≠-1时，我们假设y1,y2,…,yT中有k个1和T-k个0.不失一般性地，可以假设前k个变量取值为1，其余变量取值为0.由“没有免费的午餐”可知：

2) 平台仅在第t轮进行了1次检查，且yt=-1.根据“没有免费的午餐”条件，该情况下惩罚为Fmax.又由“激励相容”条件易知，任何存在yi≠-1,i=1,2,…,T的情况下，惩罚均不应小于该情况，也为Fmax.

综上即是该机制为唯一满足条件的机制.

接下来考虑该机制下发包方作弊能得到的额外收益.考虑极端情况：发包方只需要在其中1轮作弊，未被发现即可得到最大收益R，被发现则要另外支付惩罚T.再设发包方不作弊得到的收益为r，平台检查的轮数所占比例为p.由于平台至少检查1次，因此p≥1/T.对发包方而言，不作弊是最优策略当且仅当

解不等式得p≥(R-r)/Fmax.由于在CrowdMarket模型中，R-r≤T，因而上述不等式恒成立.这表明诚实反馈是发包方的最优策略.

3.2 激励标注者采取高等级努力的机制

作为博弈的参与方之一，标注者在博弈中的目标也是最大化自身的期望收益.因此平台只需要设计一个支付机制，使得标注者采取高等级努力时的期望收益最大即可.与平台激励发包方诚实反馈的机制类似，平台可以利用第三方反馈的真实标记检查标注者给出标记的准确率，并据此判断标注者是否采用低等级努力.下文中为简化记号，假定标注者i在t≤T轮中参与了标注，构造指示变量序列

如下：

标注者i获得的总收益为

式(2)采用了一个简单的机制：如果被发现在标注过程中有采取低等级努力行为，标注者将无法得到该轮报酬，否则等价于每一次标注都得到报酬ci.由于标注者的目标是最大化其收益，因而有定理2：

定理2. 在式(2)机制下，标注者的最佳策略为在所有轮次均采取高等级努力进行标注.

证明. 由于标注者的目标为最大化其收益，在任意t≤T轮中,显然只有当标注者采取高等级努力时，所收获的单轮回报最大，进而知定理结论成立.

注意到，由于标注者所标记的样本是有限的，因而通过标注是否正确判断其努力程度存在一定错误的可能性.在实际问题中，不难通过允许用户对自身努力程度被错判的情况进行申诉，来消除该错误.

在本节给出的激励机制的保证之下，平台可以保证在每一轮中：1)发包方诚实汇报准确率；2)标注者选择高等级努力，因而给出的标记的准确率为p*；3)平台向每位被分配任务的标注者支付报酬ci,由于标注者之间相互等价(能力与标注策略均相同)，每位标注者的报酬均相同.在上述标注者策略已经固定的情况下，后文将集中研究如何设计发包方和平台之间的博弈策略.另一方面，不妨将发包方与平台已经确定的动作从动作集中移除，以重点研究还未确定的动作：发包方-平台博弈的每一轮中，发包方的动作是选择支付给平台的报酬，平台的动作是选择分配的标注者人数.为此，在下文中我们重新定义发包方和平台的动作集分别为Areq={X1,X2,…,XK}，Apla={1,2,…,N}.发包方和平台的策略空间也相应地重新定义.

4 发包方-平台博弈策略设计

本节介绍发包方和平台在CrowdMarket博弈中采取的博弈策略.在4.1节我们证明发包方和平台可以使用在线学习算法最小化自身遗憾；4.2节和4.3节分别给出发包方和平台基于在线学习算法的策略.

4.1 基于在线学习的博弈策略

每个参与者的目标均为最大化自身的累计收益，这等价于最小化自身的“遗憾”：

其中,

表示局中人i在第t轮采用的策略，

表示除对应局中人i之外其他局中人在第t轮采取的策略,

表示局中人i的收益.称策略组合

是ε-最优的，当且仅当

且ε=max{ε1,ε2}.容易看出，当ε-最优性满足时，博弈各方都满足了遗憾最小化的性质.而下述定理给出了策略组合的最优性与Nash均衡之间的联系.

定理3. 如果

是ε-最优的，那么对应的平均策略组合

是一个ε-Nash均衡[2],其中：

证明. 首先以平台为例进行证明.由ε-最优性的定义有

进而，由于平台收益是线性函数，我们可以得出：

发包方的效用函数可类似地表示为策略的线性函数，从而同理可证

由于Nash均衡状态代表了各方策略同时达到稳定状态，因而定理1表明，博弈各方只需采用能够对遗憾进行最小化的学习策略，就能在竞争中合作共赢.

4.2 发包方策略

发包方策略设计面临的主要挑战在于缺少信息：发包方无法得知之前轮次中被分配任务的标注者的具体数目.因而，发包方很难对标注者能力p*及平台策略

进行估计.因此，发包方需要采用能保证最坏情形下收益的策略.

注意到发包方可以将博弈过程建模为赌博机(bandit)在线学习问题：发包方可能选择的支付动作Areq可视为赌博机摇臂，博弈产生的收益可以作为选择特定摇臂之后得到的收益.进而，发包方可以采用文献[3]提出的EXP3算法作为其策略.下面的定理给出了任何发包方策略的遗憾下界，进而验证了EXP3策略的最优性.

定理4. 在最坏情况下，任何发包方策略的期望遗憾至少为

证明. 考虑这样一种情况，标注者能力p=1，即标注者总是返回真实标记；平台通过以一定概率随机反转集成后标记的方式控制返回给发包方的标记准确率.假设当发包方选择支付给平台的报酬为x时，平台翻转标记的概率为1-q(x)，即平台提供的标记的期望准确率为a=q(x).

根据文献[3]中的定理5，如果发包方得到的效用u=q(x)-x满足以下条件，则发包方的遗憾至少为

存在一个最好的支付选择x0使得发包方的期望收益为α+ε；2)当选择除了x0之外的其他支付时，发包方获得的期望支付为α .

考虑函数q(x)=x+α+εI(x=x0)，I()表示指示函数，并且α足够小从而使得q(x)∈[0,1].显然此时发包方的期望收益u=q(x)-x=α+εI(x=x0)满足以上条件.

这与EXP3的遗憾上界同阶，因而EXP3是发包方在缺乏信息的条件下所能采用的最优策略.值得注意的是，平台也可以由定理4得知发包方会使用EXP3策略.在4.3节我们会展示这一优势是如何帮助平台制定策略的.

4.3 平台策略

尽管平台也可以使用EXP3策略并得到

阶的遗憾上界，但是这样的策略并不是最优的.其原因在于EXP3并不能利用到平台掌握的全部信息：由于平台知道每一轮分配的标注者的具体数目，再结合发包方反馈的收益信息，就可以推断标注者能力及后续的标注准确率;同时，再和发包方使用EXP3算法这一信息结合，平台就可以进一步预测出后续发包方会选择的支付策略;进而，平台可以直接模拟整个博弈过程求解出最优策略.但是，基于历史信息估计标注者能力是有误差的，特别是在博弈的早期阶段，

此时信息很不充足，对标注者能力的估计误差会很大.解决该挑战的思路是，在每轮博弈中基于文献[4]提出的CFR技术模拟之后的博弈过程.基于CFR的平台博弈策略(以下简称CFR策略)如算法1所示：

① 初始化置信区间I1=[0,1],P1={p:p∈I1}；

② 初始化历史记录H=∅；

④ 运行CFR模拟，根据式(3)更新策略

⑤ 根据策略

选择分配的标注者人数mt；

⑥ 完成众包并接收发包方反馈的收益at；

⑦ 将(mt,at)添加到H之中；

⑧ 由历史H计算选mt个标注者时发包方的平均收益

⑨ 由历史H计算标注者的平均标注者能力

更新Pt+1={p:p∈It+1}；

该策略的关键思想是通过模拟后续博弈过程求解出最小化反事实遗憾的策略(算法1行④).假设在第t轮平台运行了一个总轮数为S的模拟博弈；平台的反事实收益

定义为平台在模拟博弈中得到的期望累计收益；在模拟博弈中，标注者能力是从可能取值的集合Pt中随机挑选的；进而，平台的反事实遗憾可表示为

其中,

代表这样的策略组合：发包方策略为

而平台则始终选择m个标注者，

代表模拟博弈中的发包方策略；

代表平台策略中选择m个标注者的概率.在模拟博弈的第s轮，平台采取遗憾匹配(regret matching)算法[31]计算其策略.令

其中,N为平台最多可选择的标注者人数.

另一方面，直接应用原始的CFR算法无法达到理想效果.这是由于对于平台而言，标注者能力在博弈开始是未知的，必须通过对标注者能力进行有效估计，才能加快CFR算法的收敛速度.为了能更精确地得到对标注者能力的估计，算法1中引入了标注者能力估计步骤，利用Hoeffding不等式逐渐缩小标注者能力的可能取值范围(算法1行⑤～ width=17,height=14,dpi=110

，行⑩中b为每轮任务数，δ为置信系数).随着博弈轮数的增加，参数区间会越来越紧，从而起到逐渐缩小标注者能力的可能取值集合的效果(算法1行 width=17,height=14,dpi=110

).下述定理表明应用该策略可以达到更紧的遗憾界.

定理5. 当博弈总轮数T充分大时，以至少1-δ的概率，算法1中的策略的期望遗憾上界为O(log T).

证明. 如果平台可以使用真实能力p*进行模拟，由文献[4]可知，模拟得到的平台策略

和平台的最优策略

之间的差距将完全由模拟深度决定：在第t轮，在模拟博弈中由式(2)得到的策略满足

但是平台仅仅可以知道一个可能的标注者能力的取值集合Pt.因此，模拟得到的结果是不准确的，其中的误差会随着模拟深度的增加逐渐累积.当模拟深度较大时，累积的误差也会很大.文献[32]中的定理2.1表明，由Pt模拟得到的策略

和由p*模拟得到的策略

之间的差异有关系：

其中,εt表示模拟过程和真实过程之间有差异的平均概率.结合式(4)和式(5)可知，总的遗憾上界为

令

考虑t<T0和t≥T0这2种情况.

当t<T0时，由于平台每一轮的收益在[0,1]之间，故平台每一轮的遗憾必定在[0,1]之间.

当t≥T0时，区间长度会缩短至仅有一个

并且

从而令S(t)=O(t2)，即可使得以至少1-δ的概率，平台的遗憾有如下的一个上界：

定理5说明算法1的遗憾界显著优于EXP3策略，表明该策略充分利用了前文所述的额外信息.

5 多发包方情形下的策略

本节讨论多发包方CrowdMarket模型的博弈机制.如果标注者群体可以同时为所有的发包方提供服务，那么平台只需要和每一个发包方单独进行CrowdMarket博弈，此时多发包方和单发包方的情形是完全一致的.但是如果标注者群体在同一时间只能为部分发包方提供服务，那么发包方之间需要竞争服务的使用权.因此，本节针对后一种情况进行研究.

不失一般性，假设一共有n个发包方参与博弈，平台在每一轮中为出价最高的发包方提供服务.同时，假设单个发包方只能知道自己是否成功获得服务，而无法得知其他发包方的出价以及任务完成准确率信息.易知，在任何一轮当中，出价最高而得到服务的发包方的收益和单发包方的情形相同，而未得到服务的发包方的收益则为0.

与单发包方条件下类似，在多发包方条件下，发包方仍然面临着缺乏决策信息的问题：不仅无法得知平台如何雇佣工人，而且无法得知其他发包方的情况.因而，可以类似地证明发包方的最优策略为使用EXP3算法.接下来我们证明：平台也仍可以使用CFR策略模拟多发包方的情形，以优化自身的遗憾.

定理6. 在有n个发包方情形下，当博弈总轮数T充分大时，以至少1-δ的概率，CFR策略的期望遗憾上界为O(n(log n+log T)).

证明. 通过和定理5相似的证明方法可知，当平台为单个发包方服务轮数超过阈值

时，可以至少1-δ/n的概率准确估计与该发包方对应的标注者能力.并且，可知平台的遗憾表示为

当T≥nT1时，至少有一个发包方在至少T1轮赢得服务，而对于赢得服务小于T1轮的发包方，与其博弈的遗憾界是常数阶.进而知以至少1-δ的概率有

6 实验验证

本节对发包方-平台策略性能进行验证.具体而言，本节实验对3点进行验证：1)对于发包方，当平台使用强对抗性的策略时，EXP3策略是否有好的表现；2)对于平台，CFR策略是否能利用额外信息给出更好的结果；3)对于多发包方的情形，发包方EXP3策略及平台CFR策略是否依然适用.实验中发包方和平台的动作集设定为：1)发包方可能的支付选项为{0.1,0.2,0.3}；2)平台可能选择的标注者人数为{1,3,5}；3)平台雇佣每个标注者的成本C=0.01.

本节实验使用8个二分类真实数据集：1)BM数据集[33]，该数据集中标注者对语料给出正面或负面情绪标记；2)TEMP数据集[34]，该数据集中标注者对2件事是否是先后发生的进行标记；3)WVSCM数据集[8]，该数据集中标注者对图片中人脸是否微笑进行标记；4)WB数据集[35]，该数据集中标注者对图片中的水鸟是否是鸭子进行标记；5)SpamCF数据集[36]，该数据集中标注者对一个AMT平台上的任务是否是垃圾任务进行标注；6)MediaEval数据集[36]，该数据集中标注者对给定图片是否和时尚有关进行标注；7)MEHCB数据集[37-38]，该数据集中标注者对搜索请求和网页是否有关进行标记；8)RTE数据集[34]，该数据集中标注者对文本之间是否有蕴含关系进行标注.实验所用8个数据集的相关信息如表1所示.

6.1 单发包方策略验证

本节在单发包方情形下，将发包方EXP3策略与ε-贪心策略(ε=0.05)及固定策略(始终固定在最高支付)进行性能对比.同时，假设平台使用高对抗性甚至是作弊性质的策略，因为我们需要验证即便在最坏情形下EXP3策略仍然有效.

在我们的实验中，平台和发包方用各自的策略进行持续T轮的CrowdMarket博弈.轮次上限T的取值分别设定为10,15,…,40.本实验中假设平台可获取真实的标注者能力p*，从而可以通过以一定概率翻转标记的方式准确控制返回给发包方的标记准确率.并且，平台会采用如下强对抗性的策略以诱导发包方提高支付：平台以一定的概率q翻转标记，之后如果平台收到了更高的报酬则会逐渐降低q的取值.平台采用的这一策略要求发包方逐渐提高支付的报酬而不能只用贪心策略.本次实验中设定初始轮次中q=0.50,每次收到更高报酬后q的降低量分别设为0.02,0.03,0.04,0.05.在每组参数下我们重复实验50次并汇报平均累计收益.实验结果如图2所示，实验结果可见，当平台使用强对抗性的策略时，发包方使用EXP3策略获得的累计收益总是比ε-贪心策略和固定策略要好，这表明了EXP3策略的有效性.

6.2 多发包方策略验证

本节验证了3个发包方情形下，发包方使用EXP3策略的有效性.博弈过程的参数设定同6.1节.

为了验证EXP3策略的有效性，在实验中我们令3个发包方分别使用EXP3策略、ε-贪心(ε=0.05)策略和固定策略，平台使用的策略为CFR策略.我们令3个发包方在CrowdMarket博弈中使用不同策略相互竞争，胜出的发包方所使用的策略就是这3个策略中最优的策略.为了保证公平性，所有发包方使用的数据集都是一样的，以确保标注者能力对于所有发包方是一致的.我们在8个数据集上进行了实验，每个数据集上重复10次.发包方累计收益的平均值如图3所示.可以发现，使用EXP3策略在绝大多数时间内都能获得最多的收益，这表明EXP3策略在多发包方的情形下依然适用.

6.3 平台策略验证

为了验证平台在单发包方与多发包方情形下使用CFR策略的性能，我们将CFR策略和EXP3策略、ε-贪心(ε=0.05)策略以及固定策略进行了对比，发包方的策略固定为EXP3策略.博弈过程的参数设置与6.1节相同.单发包方情形下我们在8个数据集上进行了实验，在多发包方情形下则测试了2组发包方数据集的组合，所有实验结果如图4所示.每张子图展示了平台的累计收益.实验结果显示：无论在哪个数据集上，性能最好的策略均为CFR策略，其次是EXP3策略，再次是ε-贪心策略，排名最后的是固定策略.这表明利用到了额外信息的CFR策略确实能取得更好的效果.

表2展示了单发包方情形下，当平台使用不同策略，发包方使用EXP3策略时，40轮之后平台和发包方的合计累计收益.结果表明平台使用CFR策略可以使得双方的累计收益达到最大.综合上述结果可知，CFR策略是最适合于合作的策略.注意到平台使用CFR策略是在发包方反馈准确率信息时的最优策略，而平台使用EXP3策略是在发包方不反馈准确率信息时的最优策略.因此，表2中平台使用CFR策略时，累计收益超过EXP3策略，这表明2.1节中引入的反馈步骤可以提升双方的累计收益，对于双方的合作有促进作用.

6.4 实验结果分析

在本节中，我们利用仿真数据集和真实数据集进行了实验，对本文提出的基于在线学习方法的三方众包市场发包方-平台博弈策略进行了验证.实验结果表明，在符合CrowdMarket模型假设的条件下，本文提出的单发包方及多发包方策略不仅能优化自身的累计收益，而且能达到促进博弈双方合作共赢的目的.这验证了本文提出策略的有效性.另一方面，在实际应用中，也可能存在数据不符合CrowdMarket模型假设的情况.由于相关数据集的缺乏，难以验证在这一条件下本文方法的实际效果.我们会在未来研究中探索这一问题.

7 结束语

本文针对三方众包市场中的发包方-市场机制设计问题进行理论研究，提出三方众包市场模型CrowdMarket.在该模型的基础上，针对单发包方和多发包方的设定，研究平台和发包方的策略设计和理论分析.真实数据集上进行的实验验证了本文所提出的策略的有效性.我们相信本文的研究结果可以激发更多针对三方众包市场的研究，有助于更好地理解现实应用中众包产业的市场行为.

作者贡献声明：何雨橙调研整理文献，实施方法研究，完成实验，撰写论文;丁尧相设计研究方案，实施方法研究，修订论文;周志华提出研究选题，指导方法研究与论文撰写支持.

[1]Zhang Jing, Wu Xindong, Shen V S. Learning from crowdsourcing labeled data: A survey[J]. Artificial Intelligence Review, 2016, 46(4): 543-576

[2]Nisan N, Roughgarden T, Yardos E, et al. Algorithm Game Theorem[M]. Cambridge, UK: Cambridge University Press, 2007

[3]Auer P, Cesa-Bianchi N, Freund Y, et al. The Nonstochastic multiarmed bandit problem[J]. SIAM Journal on Computing, 2002, 32(1): 48-77

[4]Zinke V M, Johansom M, Bowling M, et al. Regret minimization in games with incomplete information[C] //Proc of the 20th Int Conf on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc, 2007: 1729-1736

[5]Hu Yujing, Gao Yang, An Bo. Online counterfactual regret minimization in repeated imperfect information extensive games[J]. Journal of Computer Research and Development, 2014, 51(10): 2160-2170 (in Chinese)(胡裕靖, 高阳, 安波. 不完美信息扩展式博弈中在线虚拟遗憾最小化[J]. 计算机研究与发展, 2014, 51(10): 2160-2170)

[6]Wang Lu, Zhou Zhihua. Cost-saving effect of crowdsourcing learning[C] //Proc of the 25th Int Joint Conf on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 2111-2117

[7]Wang Wei, Zhou Zhihua. Crowdsourcing label quality: A theoretical study[J]. Science China Information Sciences, 2015, 58(11): 1-12

[8]Whitehill J, Wu Tingfan, Bergsma J, et al. Whose vote should count more: Optimal integration of labels from labels of unknown expertise[C] //Proc of the 22nd Int Conf on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc, 2009: 2035-2043

[9]Dekel O, Shamir O. Vox Populi: Collecting high-quality labels from a crowd[C/OL] //Proc of the 22nd Annual Conf on Learning Theory. New York: ACM, 2009 [2021-10-11]. http://www.learningtheory.org/colt2009/papers/037.pdf

[10]Raykar V C, Yu Shipeng, Zhao L H, et al. Learning from crowds[J]. Journal of Machine Learning Research, 2010, 11(43): 1297-1322

[11]Yan Yan, Rosales R, Fung G, et al. Modeling annotator expertise: Learning when everybody knows a bit of something[C] //Proc of the 13th Int Conf on Artificial Intelligence and Statistics. Brookline, MA: Microtome Publishing, 2010: 932-939

[12]Von Ahn L, Dabbish L. Labeling images with a computer game[C] //Proc of the 22nd SIGCHI Conf on Human Factors in Computing Systems. New York: ACM, 2004: 319-326

[13]Ho C J, Vaughan J W. Online task assignment in crowdsourcing markets[C] //Proc of the 26th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2012: 45-51

[14]Karger D R, Oh S, Shah D. Budget-optimal task allocation for reliable crowdsourcing systems[J]. Operation Research, 2014, 62(1): 1-24

[15]Zheng Yudian, Wang Jiannan, Li Guoliang, et al. QASCA: A quality-aware task assignment system for crowdsourcing applications[C] //Proc of the 41st ACM SIGMOD Int Conf on Management of Data. New York: ACM, 2015: 1031-1046

[16]Han Bo, Yao Quanming, Pan Yuangang, et al. Millionaire: A hint-guided approach for crowdsourcing[J]. Machine Learning, 2019, 108(5): 1-28

[17]Shah N B, Zhou Dengyong. Double or nothing: Multiplicative incentive mechanisms for crowdsourcing[J]. Journal of Machine Learning Research, 2016, 17(1): 5725-5776

[18]Zhong Jinhong, Tang Ke, Zhou Zhihua. Active learning from crowds with unsure option[C] //Proc of the 24th Int Conf on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 1061-1067

[19]Ding Yaoxiang, Zhou Zhihua. Crowdsourcing with unsure option[J]. Machine Learning, 2018, 107(4): 749-766

[20]Jurca R, Faltings B. Mechanisms for making crowds truthfully[J]. Journal of Artificial Intelligence Research, 2009, 34(1): 209-253

[21]Hu Zehong, Liang Yitao, Zhang Jie, et al. Inference aided reinforcement learning for incentive mechanism design in crowdsourcing[C] //Proc of the 32nd Int Conf on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc, 2018: 5512-5522

[22]Witkowski J, Parkes D C. Peer prediction without a common prior[C] //Proc of the 13th ACM Conf on Electronic Commerce. New York: ACM, 2012: 964-981

[23]Jain S, Gujar S, Bhat S, et al. An incentive compatible multi-armed-bandit crowdsourcing mechanism with quality assurance[J].arXiv preprint, arXiv:1406.7157, 2014

[24]Gamage D, Ballav A, Goyal S, et al. Boomerang: Rebounding the consequences of reputation feedback on crowdsourcing platforms[C] //Proc of the 29th Annual Symp on User Interface Software and Technology. New York: ACM, 2016: 625-637

[25]Qiu Chenxi, Squicciarini A, Rajtmajer S. Rating mechanisms for sustainability of crowdsourcing platforms[C] //Proc of the 28th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2019: 2003-2012

[26]Singer Y, Mittal M. Pricing mechanisms for crowdsourcing markets[C] //Proc of the 22nd Int World Wide Web Conf. New York: ACM, 2013: 1157-1166

[27]Goel G, Nikzad A, Singla A. Mechanism design for crowdsourcing markets with heterogeneous tasks[C] //Proc of the 2nd AAAI Conf on Human Computation and Crowdsourcing. Palo Alto, CA: AAAI Press, 2012: 77-86

[28]Gravin N, Jin Yaonan, Lu Pinyan, et al. Optimal budget-feasible mechanisms for additive valuations[J]. ACM Transactions on Economics and Computation, 2020, 8(4): 1-15

[29]Liu Xiangyu, Yu Chuan, Zhang Zhilin, et al. Neural Auction: End-to-end learning of auction mechanisms for e-commerce advertising[C] //Proc of the 27th ACM SIGKDD Conf on Knowledge Discovery and Data Mining. New York: ACM, 2021: 3354-3364

[30]Vamvoudakis K G, Lewis F L. Multi-player non-zero-sum games: Online adaptive learning solution of coupled Hamilton-Jacobi equations[J]. Automatica, 2011, 47(8): 1556-1569

[31]Hart S, Mas-Colell A. A simple adaptive procedure leading to correlated equilibrium[J]. Econometrica, 2000, 68(5): 1127-1150

[32]Ross S, Bagnell D. Efficient reductions for imitation learning[C] //Proc of the 13th Int Conf on Artificial Intelligence and Statisics. Brookline, MA: Microtome Publishing, 2010: 661-668

[33]Mozafari B, Sarkar P, Franklin M J, et al. Active learning for crowd-sourced databases[J]. arXiv preprint, arXiv: 1209.3686, 2014

[34]Snow R, O’ Connor B, Jurafsky D, et al. Cheap and fast—but is it good? Evaluating non-expert annotations for natural languages tasks[C] //Proc of the 13th Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2008: 254-263

[35]Welinder P, Branson S, Belongie S, et al. The multidimensional wisdom of crowds[C] //Proc of the 23rd Int Conf on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc, 2010: 2424-2432

[36]Sheshadri A, Lease M. SQUARE: A benchmark for research on computing crowd consensus[C] //Proc of the 1st AAAI Conf on Human Computation and Crowdsourcing. Palo Alto, CA: AAAI Press, 2013: 156-164

[37]Tang Wei, Lease M. Semi-supervised consensus labeling for crowdsourcing[C] //Proc of the 34th SIGIR Workshop on Crowdsourcing for Information Retrieval. New York: ACM, 2011: 36-41

[38]Dekel O, Shamir O. Good learners for evil teachers[C] //Proc of the 26th Annual Int Conf on Machine Learning. New York: ACM, 2009: 233-240

三方众包市场中的发包方平台博弈机制设计