本文源自于 Rebooting Web of Trust 组织在 RWOT IX — Prague, 2019会议上的论文《Reputation Interpretation》的后半部分,我们将继续延续上一期的话题,为大家详细阐述声誉系统的设计逻辑。
原文: https://github.com/WebOfTrustInfo/rwot9-prague/blob/master/final-documents/reputation-interpretation.md
作者:Arthur Brock, Kaliya Hamlin, Grace (Rebecca) Rachmany, Jakub Lanc
确定输入项
一旦明确定义了输出项,就可以确定用于达到该输出的输入项。了解最终结果的需求,有助于对遍历大量可用信息等任务进行简化,完成这种看似不可能完成的任务。
本文不会定义可用的输入类型或对其进行分类,也不会对如何提供输入项作出任何建议。
以下是在确定输入项时 Bob 需要注意的事项。
· 理想:理想的结果在各个方面都很完美。Bob 将拥有 Alice 的所有学历记录、Alice 的每位患者的每项结果、同行评价及患者评价等。所有这些“完美的”信息100%可靠,而且没有漏洞。
· 可用:在现实世界中,并非所有信息都可用。例如,理想情况下,Bob 想知道 Alice 每个服务对象的症状或主诉、治疗时间长短以及最终结果。例如,Alice 可能花了三个小时来消除某人的恐惧症,或许她已经对其进行了三年的治疗,但其症状仍未消除。且理想情况下,Bob 可以访问 Alice 每位患者的相关信息。但实际上通常是没有这些信息的。即使未来患者可以发布这些数据(匿名数据),但不是 Alice 的所有客户都会公开这些信息,因此信息并不完整。
· 成本:某些数据需要花钱,包括实际购买数据及处理数据。
基于以上这些考量因素,Bob 最终将获得他向 Alice 请求的数据和数据源列表。
误差界限
现在,Bob 向 Alice 提出了对数据的请求,Alice 提供了全部或部分数据。通过查看这些数据,Bob 可以评估误差界限。但无法确认 Bob 是否知道 Alice 根本没有该数据(例如,她从未进行过 Myers-Brigg 评估),或者她是否有意隐瞒数据(例如,从简历或 LinkedIn 个人资料中删除经历)。Bob 会根据数据的完整性或不完整性确定最终分数的“ 可靠性” 或“ 误差界限” 。
在确定误差界限时,一些数据可能比其它数据更关键。 例如,如果 Alice 缺少学术机构的测试结果,则 Bob 可能认为这是误差界限的一个次要因素,但如果她缺少学术机构的真实证明,则在确定误差界限时会被认为是较为重要的因素。因为这会让人怀疑 Alice 声称自己现在毕业的申明是否真实,从而对她所有其它自我证明的事项都感到怀疑。
本文作者就将误差界限作为报告中的“ 总体” 评分来计算,还是将其分别应用于每项数据进行了讨论。计算顺序是一个实现问题。本文指出数据完整性是需要纳入考量的问题,这取决于声誉诠释系统的用户想要怎么实现。
数据规范化
收集数据后,需要对数据进行规范化(标准化)以使其易于理解和处理。以下是数据规范化的注意事项。
· 数据的格式可能难以理解或不统一。例如,等级可以使用1-5或1-10的数字标度(奇数标度具有中间选项而偶数标度没有),等级评估方式众口难调,评分维度多样化(专业性、有效性、友好度及对家庭作用等)。收集专业评估或评论的系统可能需要规范化数据,以便以相似的范围提供所有数据。
· 数据可能有漏洞。系统本身可能存在漏洞:人们可能会发表虚假评论,入侵系统,对某些行为有偏见等。
· 用户控制。某些机构会提供未经审查的数据。例如,大学成绩单包含全部课程的所有成绩,而 Alice 无法编辑任何内容。但在 LinkedIn 中,当有人提供推荐时,Alice 可以接受或拒绝,或请求对评论进行更改。这不是“ 篡改”系统,而是每个系统在用户控制方面的不同级别。
· 发行人的可信度(非正式意义上的声誉)。对 Bob 而言,一份来自某个商学院的成绩单,它的价值多少取决于该商学院的声誉,以及 Bob 如何看待“应用知识”和“学术知识”等。
· 对数据类型的偏见。例如,由于人为偏见,评论系统往往偏向于两个极端的评论。如果人们觉得还不错或中立,他们往往不会提供任何评论。明确地说,人们的评论往往比较极端。
上面是处理数据时最先考虑的问题。此外,数据可以是多维的。例如,Alice 研究生学习阶段的记录可能包括成绩、教师评语、学生评语、出版物数量、推荐信及奖项等。
标准化过程的一部分是将不同的特征归为结果的某个适当部分。例如,如果 Alice 为一家著名机构工作,这将影响 Alice 的薪水,并且该机构的名称将在 Alice 简介中提及。
关注点
一旦把来自不同来源的数据进行规范化,那就可以认为该数据是格式化的,该格式允许将相似类型的数据一起分组处理。例如,同行评审将被标准化为正面、中立或负面。专业能力的说明会和客户评论与同行评论分开。
在 Bob 的案例中,确定了两种类型的关注点:
· 重要性:Bob 在确定输出项时,将使用加权机制来确定各个部分的重要性。例如,患者评论可能是潜在客户所看到的重要内容,占该报告的50%。但是在提供雇佣合同时,Bob 可能不会对患者评论计权重,而只有一个阈值。例如,如果 Alice 得到的患者正面评价超过80%,那么就聘用 Alice。
· 信任:每个数据源(或聚合数)都具有该特定值的信任级别。信任是对数据可信度的评估。可以根据其信任级别对数据的各部分进行加权。
注:本文不会讨论数据如何处理,这是 Bob 能独立完成的事情。
结论
由于声誉所涉及到的方方面面及其衡量方法的广泛性,关于如何衡量声誉,什么是声誉以及如何跟踪声誉的讨论永无止境。通过采取一种实用的方法,即在特定的背景下讨论声誉,我们可以认识到声誉本身并不是一个孤立的事情,而是个人和组织用来决策的工具。如果从一开始就了解最终结果的需求,我们就能够从了解收集有关一个人的哪些数据以及如何处理它的角度来理解声誉。
本文提供了一个框架,以从基于声誉的行为和决策的角度考虑声誉问题。对不同的情况会使用不同的标准化和评估方法,以便做出相关决策。