AI比人类更有“识人之明”?
该研究聚焦于借贷领域,邀请人类决策者和人工智能根据提供的借款人的资料打出一个“还款分”(分数越高代表借款人还款可能性越高),并与实际还款情况进行对比。
研究选取了4895个样本,其中有1103位违约者和3792位履约者,采用10分制打分方法。研究显示,人类决策者对违约者的平均打分是 5.22,对履约者的平均打分是5.44。而AI对违约者的平均打分是3.21,对履约者的平均打分是6.94。也就是说在平均意义上,人工智能对还款概率的预测,比人类所做的预测更为准确。
图 1 人类决策者(左)和机器学习算法(右)预测的“还款分”比较
那么是否部分具备“识人术”的人,可以超越人工智能算法呢?我们用统计学上的一个指标AUC(area under the receiver operating characteristic curve)来量化衡量“还款分”的质量,取值越大代表质量越高。图2展示了每个决策者的AUC值的分布和人工智能的AUC值(右侧虚线代表人工智能的预测质量),可以看到,即使是辨人识人能力较强的那部分人类决策者,也无法超越人工智能。
图 2 人类决策者的“还款分”质量分布
人类愿意采用算法的决策吗?
目前人工智能在很多任务上都可以超越人类的水平,但是有趣的是,人类很多时候并不愿意采用人工智能的建议,结果造成了效率的损失。这种现象被称为“算法厌恶”。比如最近还有一项关于语音推销机器人的研究(Luoet al. 2019.)可以生动地说明这种现象,现实中人们对人工智能存在着较为回避的态度。当顾客不知道与自己对话的推销员是机器人时,语音机器人和人工推销员的推销效果一样好;但是当顾客知道与自己对话的是机器人的时候,语音机器人的推销效果相比人工推销员下降了79.7%。
该研究进一步探索在借贷领域是否存在相似的“算法厌恶”。研究团队评估了人类决策时对人工智能所提供的“还款分”所赋予的权重,并将其与最优权重进行对比。这是首次在人机交互的场景下使用权重的方式对算法厌恶进行评估。在回归分析中,算法给出的还款分每上升1分(满分为10分),决策者认为还款概率将上升6.7个百分点,而实际上还款概率上升了8.9个百分点,这说明决策者对人工智能的权重误差为-2.2个百分点。这一结果说明,大部分决策者都倾向于低估人工智能提供的信息的重要性,即他们存在算法厌恶。
过度自信导致“算法厌恶”
在人类的决策情景中,产生算法厌恶的因素是什么?该实验结束后调查了参与者认为自己与人工智能在“还款分”打分任务中的相对表现。图2的结果表明,没有任何参与者的预测比人工智能更准确,因此研究团队把所有回答自己比人工智能做得好的参与者标记为“过度自信”,其余参与者标记为“非过度自信”。两类参与者对人工智能的权重误差见图3。其中灰色代表“过度自信”组,白色代表“非过度自信”组。
图 3 人类-人工智能决策组中人类决策者对人工智能赋予的权重分布
在图3中,过度自信组的权重偏误分布在非过度自信组的左侧,说明过度自信的人的算法厌恶程度高于非过度自信的人。在回归分析中,过度自信可以很大程度上解释人们对人工智能信息的算法厌恶现象。
过度自信是人类常见的行为偏误,表示人们高估自己能力、低估他人能力的倾向。本研究发现,算法厌恶虽然是人工智能时代的新概念,但其本质上与过度自信这种常见的非理性行为高度相关,只是这里的“他人”即“人工智能”。
现实中人们的决策经常会犯很多错误,展现出非理性的行为。一种观点认为人工智能替代人类决策可以让决策变得更加理性。然而,我们的研究发现,人类“非理性”的成分本身可能阻碍了这一进程。这是在研究人机共处关系中特别需要注意的。
人类对于AI的常见误解
除了过度自信,还有哪些因素可能会影响人们对算法的态度呢?
首先,人们存在对算法错误的预期。换言之,人们可能不了解机器学习算法的工作原理——现在的机器学习可以达到何种预测质量,算法已经涉及哪些任务类型,与算法从错误中进行反馈迭代的能力。对于这一原因,解决方式是从信息提供的角度,提高公众掌握的算法知识水平。就像金融知识教育可以改进人们的投资行为一样,研究团队倡议进行机器学习智识教育,来提高人们在生活中对算法的接受度。例如,有研究曾发现,当人们看到算法犯错的时候,即使他们知道算法比人类表现好,仍会更不愿意接受算法,而向人们阐明算法可以从犯错中吸取经验,逐渐迭代提高准确率,则可以提高人们对算法的接受度。
其次,采用算法决策会让人觉得缺乏对决策的掌控感。解决方式是让人类成为决策的一环,而不是让人工智能全权代理人类去做决策。例如,增加人们对最终结果的修改权,以增加人们对人工智能预测的接受度。
还有,人们倾向于认为,算法所擅长的仅仅是在既有数据框架下做决策,而人类身处的复杂的真实世界,这是算法所不能通过一些标准化的数据所理解的。基于这一原因,人们不愿意采用算法去做涉及伦理的决策(例如交通、法律、医药、军事领域),因为他们认为算法不能思考,也不能感受。有文献曾研究人们是否相信推荐系统对哪个笑话更好笑的判断。结果发现,即使知道推荐系统做得比人类好,人们也宁愿相信自己的朋友、家人,甚至是陌生人,而非推荐系统,理由是他们认为推荐系统的建议难以理解。
社会因素也影响着人们对于算法的态度。有研究发现媒体对机器学习的正面或负面报道对人们的态度有显著影响,其中带有“科学研究表明”的字样更会增加这一影响。社会中其他人对算法的接受度也有所影响。例如,如果观察到他人曾经采用过算法完成某一任务,人们自己也会更愿意采用算法。
最后,是否采用算法也有市场因素。在竞争市场中,人人都选择算法推荐,并不能提高自己的竞争力,所以坚持选择人工,保留自己的优势。并且,人们有时会为了保持一定形象而宁愿选择坚持人工决策。例如,医院的患者会认为没有算法辅助的医生的诊疗水平更高,还会认为机器学习算法在诊断中会忽视自己的独特性。那么,医生反过来也就只好坚持自己诊断,不依赖机器学习算法。