德尔菲是古希腊的神庙。在中国的一些农村,当不确定性很大时,大家还有问神的习惯。简单地说,德尔菲专家判断法就如问神,专家就是"神";不光是问一个"神",而且要问多个,交互验证。
早在二战后期,美国空军就用这种方法,召集相关领域的专家们,判断新技术的走向,指导新武器的研发。在上世纪50年代,兰德公司进一步优化这套方法论,比如预测使用核武的可能后果[1]。这套方法论有多种变种,但关键都差不多:专家,匿名,多轮反馈和修正,直到最后达成共识,或者达到预先设定的门槛,比如重复了多少轮,如图 1。这种结构化、系统化的方法,对提高专家判断法的准确度至关重要。
专家:这是早期决策,数据非常有限,那就只能靠判断。谁有判断?专家。但是,越是专家,其接触面反倒越窄----要想精通一个领域,就只能选择一点深挖。而新产品、新技术的开发涉及面很广,任何一个专家都没法全面覆盖,那就请多方面的专家来判断,以增加预测的准确度。
图 1:德尔菲专家判断法示意图
来源:Delphi Method, Dr. Phil Davidson, University of Phoenix, research.phoenix.edu
匿名:这是为了避免权威、头衔、职位、个性、名声等的影响,以避免强势职能影响弱势职能、强势人物影响弱势人物。你知道,老板坐在那里,不管在多民主的企业,大家都会自觉不自觉地跟着老板的思路走;强势职能在场,他们的胳膊最粗,拳头最大,八成最后也是他们说了算。名人光环就更不用说了。在新品预测上,匿名就是在汇总预测数据时,略去头衔、姓名,有时候甚至是职能,这样也让大家更加放心、独立地做出各自的判断。
背靠背:这是为进一步减轻了职能与职能、人与人之间的博弈。大家坐在一起讨论,看上去是各抒己见,其实是在互相博弈:每个人都代表自己的职能,讲什么话,做出什么样的判断,很大程度上取决于别的职能、别的人采取什么立场。大家也习惯性地藏着掖着,比如不愿意首先发言----发言就如谈判,谁先亮牌,谁就在博弈中处于被动。德尔菲专家判断法中,大家背靠背地做出判断,由专人搜集整理,有助于降低互相影响、互相博弈,让大家更可能以专家身份做出客观判断。
德尔菲专家判断法还有个重要特点,就是多轮循环:每个专家匿名、背靠背做出判断,由专人搜集整理汇总,提供给全体成员,成为下一轮判断的基础;在最新信息的基础上,专家们调整自己的决策,一般会更加一致,表现在预测上,就是预测值的标准差更小、离散度更小;如此再三,最终达成一定程度的共识,比如以平均值或者中位数作为最终的预测[2]。
【实践者问】我看您的书和文章中,对一线销售层层提需求持否定态度。在我看来,这也是由多个人背靠背独立做预测,不也是专家判断法吗?
【刘宝红答】层层提需求与这里讲的专家判断法是两回事。在专家判断法里,是多个专家对同一对象做判断,这是个多对一的关系,有的人偏高,有的人偏低,互相抵消后,平均值会更接近真相。但在层层提需求时,我们把整体需求切分成N份,每个人只是对其中的1份做判断,这本质上是一对一的关系,与专家判断法有本质区别。
专家判断法失败三原因
专家判断法本质并不难理解:"三个臭皮匠,赛过诸葛亮",这道理大家都懂;真正的挑战在以下几个方面,处理不好,会导致专家判断法流于形式,达不到期望的效果,而最终又回到老板拍脑袋,或者强势职能说了算的老路上来。
其一,选错了专家,问错了问题。问错了问题我们前面已经谈过,这里谈选错了专家。专家的定义是在某个方面深入了解这个产品。比如设计师熟悉这个产品是针对大众还是小众,产品经理最熟悉这个产品与别的产品的关系(比如替代还是互补,还是没关系),电商经理熟悉促销计划和消费者的嗜好,采购经理熟悉成本构成和最小起订量----这些信息大都在具体的产品层面,能显著影响产品的需求和供应计划。
但在实践中,人们往往在专业层面确定专家,那专家团队就变成了首席技术官、营销总监、产品总监等。这些人是各自领域的专家没错(至少名义上没错),但往往并不是具体产品的专家,对具体产品所知有限,并不是做出产品预测的最佳人选;他们职位高,责任重,沉湎于各种事务,往往也没有足够的精力投入到具体的新品预测中,对具体产品的判断往往低于平均水平,反倒拉低了整体的判断能力,也降低了决策效率[3]。
其二,把专家判断等同于专家拍脑袋。专家判断还是得遵循"从数据开始,由判断结束"的决策流程,只不过数据比较少,更加不结构化而已。对于产品层面的专家,他们聚焦自己的领域,往往缺乏整体层面的信息。比如这个产品跟现有产品的关系,是竞争还是互补?现有相关产品的销量如何?以前类似产品的需求预测、实际销量如何?这些信息需要组织者统一整理,提供给每个领域的专家,以尽量缩短他们的学习曲线,减少循环的次数,尽快达成共识。否则,德尔菲专家判断法无非就是把一个人拍脑袋,变成了多个人拍脑袋,没有改变拍脑袋的本质,也没法系统提高决策的质量。
图 95:德尔菲法失败的几个原因
其三,缺乏反馈机制,有教训没经验,没法持续提高决策质量。专家判断法很容易被当成一锤子买卖,但其实不是:我们一直在导入新产品,一锤子买卖经常做,就变成了经常行为,需要不断改进,提高新品预测的准确度。这里的关键是形成闭环反馈机制。新品上市了,有了销量,我们要跟需求预测对比,跟每个具体专家的预测比,看他们对是对在何处,错又错在哪里;某个专家一直虚高,另一位专家一直虚低,为什么?这是组织者的一项重要任务:他们需要把这些数据收集起来,建成数据库,真正形成集体智慧和经验,提高以后新品预测的准确度。但现实中,很多公司把专家判断法做成一锤子买卖,没有反馈和总结,容易形成有教训,没经验,随意性大,准确度低,最后就又回到老板拍脑袋,或者强势职能说了算的状态。
专家判断法用于什么产品?
德尔菲法需要跨职能参与,前后多轮,外加基本信息的准备和多轮数据分析,对资源的要求较多,属于"重武器",所以不能滥用。企业得定义适当的产品,比如不确定性较大,新的功能较多,类似产品较少等。特别要避免的是,不能因为手头有把锤子,你就把啥都当钉子。
在一个服装电商企业,德尔菲专家判断法一经导入,差点就成了这样的一把万能"锤子":试点项目中只做款式层面的判断,后续应用中连SKU层面的预测都让专家团队做。就拿其中一个新品来说,两个款式、四种颜色,那意味着在SKU层面,专家团队得做8个判断,也就是8个需求预测----预测的颗粒度那么小,准确度不可能高;同时预测这么多项,专家们也不可能做出高质量的判断。
那该怎么办?我们得遵循预测的基本准则,那就是力求在颗粒度更高的地方做预测。就这个产品来说,就是款式层面:两种款式,两个判断,专家团队能更好地预测;然后根据历史经验,按比例分解到不同的颜色,解决SKU层面的预测问题。比如以前类似的产品、款式,在出现第一个颜色、尺码断码前,不同颜色的款式销量比例,还是有相当的参考性。当然,不同的颜色组合、不同的时令节气,都可能影响颜色的比例,但没有一个人知道地比历史数据还多:试想想,有多少专家会关注到款式+颜色层面去,比如这个款式、这个颜色卖掉多少个?他们的关注的大多是款式层面的销量,让他们做颜色层面的预测,我们问了个糟糕的问题,得到的当然是糟糕的答复,甚至没有答复。
专家判断有没有约束力?
在这个服装电商企业,专家团队的配合度、积极性逐渐降低,还有一大原因:该企业把专家判断纳入到集成新产品开发流程中,要求每个新产品都得做;但究竟是否采纳专家判断结果,却取决于该产品的项目经理。
于是就出现了这样的情况:专家团队工作数轮,做了判断,项目经理却"参考"了一下了事。这里并不想挑战项目经理们为什么不用----他们不用,自然有不用的原因;这里想说的是,这样做得次数多了,对专家们来说,就相当于让你在地上不断地挖坑,又让你给填上----没价值的事情,大家当然不愿意继续做,特别是在导入集成新产品开发(IPD)后,专家团队的会议量大增,资源日渐紧缺的情况下。
那该怎么办?你得尊重专家判断的严肃性。如果不想用,那就不要做----项目经理在没做之前就得决定不做;但如果做了,这凝结了公司集体智慧的决策,你就得用,否则专家判断法的严肃性会削弱,最终变成走过场。对"只讲利害,不讲原则"的国人来说(林语堂语),这或许比较费解,让我用英国脱欧的例子来说明。
几年前,英国全民公决要脱欧,但几年下来,只能说是一地鸡毛:谁也没有意识到脱欧会有这么多的问题。试想想,脱欧那样复杂的事,政治专家们都搞不清,一般的老百姓能搞得清吗?不时有舆论说,如果重新全民公决,相信英国人民会做出不同的选择。那为什么不搞个二次公决呢?
这有关民主的严肃性:如果民主决策如果有了Undo(撤销键),随时可以撤销重来,那大家还会不会严肃地对待?这势必让民众把民主当儿戏----随便做做,大不了我们再做一次,导致民主决策的质量越来越低,大家也越来越不信任,最终导致强人政治的出现。要知道,在西方的民主社会,民主就是民主,不是供决策者参考的;英国人民做了一个糟糕的选择,那就得为这个糟糕的选择买单----这就是民主的代价,也只有这样,才能维护全民公决的严肃性,让大家对自己的决策负责,以后尽力做好决策。
专家判断法由谁来维护?
总体而言,德尔菲专家判断法是个决策流程,是需求计划的一部分,可以由计划职能来维护。当然, 在很多企业,特别是小而美的企业,新品的需求计划往往是产品经理或销售的责任,这个流程也可以由他们来负责。但问题是产品管理、销售相对分散,比如有多个产品经理和销售经理,有些产品之间的搭接度不高,难以找到唯一的对接口,导致最佳实践难以固化、传播。
计划职能虽然天然是集中的,但往往影响有限,难以有效推动跨职能协作。在这个服装电商,或许可以这样尝试:德尔菲法作为新产品集成开发的一部分(IPD),由产品管理整体负责,驱动跨职能资源,但由计划职能负责组织、执行,进行具体的操作。这跟产品经理负责整个产品的开发,而由设计负责具体的设计工作是一个道理。
[1] Avella, J. R. (2016). Delphi panels: Research design, procedures, advantages, and challenges. International Journal of Doctoral Studies, 11, 305-321.
[2] 之所以用中位数,是为了避免极端值对平均数的影响。比如我跟盖茨的平均财富是490亿美金,但你知道那都是盖茨的钱。这也是为减少博弈,比如某个职能有意虚高或虚低----那样做能显著改变平均值,但对中位数的影响甚微。
[3] 比如我问一个企业,为什么返单的周期长?答曰主要是决策慢和物料采购周期长。长周期物料容易理解,但为什么决策慢呢?决策慢,主要是慢在那些决策者:越是职位高的人,越缺乏产品层面的信息,要他们做产品层面的决策,比如需求预测,他们当然不放心,于是拖延症就占了上风,导致迟迟做不出预测;预测错了,也没法尽快纠偏。
评论