回到主页

郭然:我的监测评估往事,在美国,在中国

· 监测评估
broken image

要点速览——

  • 我一直苦恼于研究/评估该怎么做才能接地气,贴项目,怎么才能对一线的服务项目和伙伴们产生实际的帮助。在那时,我并不知道有一件事叫做“监测评估”
  • 随着工作的深入,我越来越发现她们所说的baby step并不是我理解的零基础,零起点,因为有现成的范式框架,指标众多,贴项目,不复杂
  • 在我经历过的这些机构中,也看到了在监测评估方面真实存在的挑战:问责的张力,一些同类项目的排行榜激化了同行内卷
  • 我意识到我们国内现在对监测评估的理解和应用,早已经不是10年前我离开时的样子了。
  • 它已经有了自己本土化的特色。与之相对应的,我们需要有不同的发展路径和能力建设的支持方式。
  • 监测评估对于我而言,是一种项目管理方法,也是一种能力:一种让【愿意改变世界的实践者】拥有“询证”和“基于数据”优化实践的能力。

最近一直在做监测评估训练营三期的迭代工作。

从2月份开始,我们就在陆陆续续地准备,其中包括密集访谈了一些伙伴,聊了大家在监测评估方面的日常,有小成绩,也有大困惑。我作为课程制作人,汲取了很多用户视角的需求。

同时,看着可爱的公益行业从业者们,听着TA们的分享,也不禁想回顾一下我在监测评估这件事上的历程,不能说系统和全面,但也有一些或印象深刻,或感受强烈的片段

我的监测评估的起点,某种意义上,受到了进入公益领域的第一份工作的深刻影响。当时我负责管理机构内各个项目的研究相关的工作。因为机构的服务对象大都是社会边缘人群,且机构在议题领域内有一定的国际影响力,因此我们获得了一些高质量的高校学者资源,他们来自国内外第一梯队的院校,并且都在这个领域有深耕。

现在回想起来,印象最深的是一位哥伦比亚大学韩裔教授与我们的合作。他常常在纽约的后半夜发来问卷的修改稿,为了方便让更广泛的相关方给他提意见,并且减少我的工作量,这些问卷都是他自己利用软件翻译出的繁体汉字版本。他来北京做现场调研时,大半个行李箱里装着带给服务对象的小礼物。一句话来说,就是工作孜孜不倦,待人和善有礼。我们都很喜欢他。

在几个靠谱的合作关系中,他的研究产出也是最快的,大概历时一年半左右的时间,一篇研究论文发表了,除此之外,合作期间他也会参与一些我们向国际资方提交的项目申请书的修改工作上。

然而我还是对这类工作产生了强烈的困惑。当时有种明确的感觉,就是我在给我的项目部同事增加工作负担,每次都需要他们大力配合和付出,但我却似乎没有提供给他们太多实际的帮助。闭环不完整,让我有种“卖数据”的不良感受,非常不安。

那段时间还有一些不能算成功的经历,比如我们主动找到一些高校学者,希望他们来参与研究或者评估,但对方并不感兴趣。我们也有一些项目评估的不成熟的尝试,其中包括我们尝试基于社群的参与式评估,让社群成员协作主导,虽然不算成功,但也算是积累了宝贵的经验教训。总结来说,我们所有的尝试整体上都很难有显性的对项目的直接/实际的帮助。

所以,我一直苦恼于研究/评估该怎么做才能接地气,贴项目,怎么才能对一线的服务项目和伙伴们产生实际的帮助。在那时,我并不知道有一件事叫做“监测评估”。

这份工作的下一站,是我带着这个疑问去美国的社工学院上学。现在还记得有这样一幕,在一门课的嘉宾发言环节,导师请来了联合之路(United Way)某个分区的项目负责人做讲座,她的开场白大致是这样的:我的这个项目在全州有80多个项目点,我该怎么及时知道各个项目点的执行情况?在以前是不太可能的,但是现在,我们用一种软件来管理,每个项目点都有相关的指标,而且数据都是实时更新的。

她很兴奋,对我而言,我也感觉像是看到了一扇大门。几个月之后,她从业务经理转职成为了机构的监测评估负责人,而我也选择了监测评估方向作为硕士的主攻方向。

找到这扇门,后来推开这扇门,我慢慢看到了它的更多的侧面:

 

baby step并不简单

我实习加入了一家中型机构的监测评估队伍,全机构2000多员工,监测评估部门只有3个全职。这个小队伍的负责人是一位御姐风的30+女性,名字叫S。

S第一次(2012年)跟我聊监测评估时,她说在这个方向我们都是才起步(baby step),前不久在华盛顿开这个主题的行业大会,参会人互相都在问,你们怎么做的,我们啥都不会,大家都非常渴望向同行学习……

但随着工作的深入,我越来越发现她们所说的baby step并不是我理解的零基础,零起点。

现成的范式框架,指标众多

我到岗不久之后,S递给我一沓从监测评估软件中打印出来的一个养老院项目的简要数据,并布置给我一个任务:研究一下养老服务(nursing home)的行业通用指标框架,并在桌面研究的基础上,搭建一个我们自己的指标框架,且框架中的核心指标不要超过10个,这件事的最终目的是为这个养老项目提供一个实时数据的仪表盘(dashboard),方便所有人查看它的情况。

我研究了两天,有两个发现,养老服务这个行业有非常成熟的管理和评价体系,有成型的指标框架,不仅涵盖服务对象的成效监测,比如老年人生活质量,生活能力等各个方面,还有很多其他方面比如运营层面的指标框架。第二个发现是,S给我的那个所谓的“简要”数据,并不简单,我们该有的数据基本在软件里都有了。我要做的是,合理地从众多指标中提出一个综合性质的“简要”框架,less is more。

后来我陆陆续续接触到其他服务对象人群和细分领域, 发现很多一线服务类的领域都有自己现有的成熟框架和系统,这些框架和指标都是基于多年的实证研究和实践基础上积累出来的。

贴项目,不复杂

虽然各个议题领域的现成的指标多,框架繁,但同时,我也越来越意识到,在监测评估日常用得起来的指标,都是少而精的。

每个月的监测评估会议上,大家手里的数据报告往往是一个项目的核心成效指标就聚焦在两三个,剩余的是服务产出数据,对每个项目来说,总共加起来一般不超过10个指标。

针对低收入和非法移民的慢性病管理服务项目,每个月要看的指标除了每个月的服务人数,服务天数之外,还要看上个月患有糖尿病,高血压等慢性病的服务对象,有百分之多少的人出现了超出管理预期的测量数据。

面向流动人口提供再就业辅导的项目,每个项目周期后的再就业人数比例是多少,平均时薪是多少,1年后的就业率是多少。

这些数据统计,没有量表,没有访谈,大多是事实性数据,最难的就是一通电话,要在1年之后去追踪服务对象的就业情况。

虽然说起来也不是那么容易做到,但比我之前想象得要务实和贴项目实践很多。

 

不完美,很真实

因为我是奔着学习监测评估去的,因此我接触到的机构都是对这方面的工作很重视,且在那个年代来说,是勇于尝试和实践的。也有很多机构在那个时候,还没梳理清楚自己机构这个存在了几十年的项目,到底项目逻辑是什么。

但我经历过的这些机构中,也看到了在监测评估方面真实存在的挑战:

问责的张力

说两个具体的事例吧:

S入职不久就与一位一线社工发生了冲突,那位社工年纪很大了,讲起案主的成功故事,都是眼含热泪,感性而阳光。但S入职之后,强势的御姐理性的工作作风,与这位老派的社工产生了激烈的对抗。一个要求所有的工作内容和工作量都要记录/体现在软件里,一个拒绝改变自己已经习惯多年的工作方式,几个月之后,那位社工主动辞了职。

另一份张力来自于一位救助中心负责人。她抵制的第一阶段是:伪装配合协作,实际上却是消极抵抗。什么都说好,没问题,但我们的工作却很难往下推进。第二阶段,正面较量:在每月的监测评估会议上,当着机构负责人的面,常常质疑数据的专业度,潜台词是这些数据不能反映出项目的真实情况,你们团队的技术能力不行,这让S备受压力。

一些同类项目的排行榜激化了同行内卷

还有一类现象是将基于数据的管理促成了有危害性的内卷。

因为美国的一些服务类项目,常常都是执行机构各有不同,但服务范式几乎是一模一样,可比性很强,因此有一些根据核心指标的排名被政府(资方)作为购买的依据。有某些情况下,

政府会明确表示,经费只用于购买排名前X名的项目,于是内卷开始了,有些时候甚至会出现本末倒置的情况。

比如有一类过渡性住房项目,本意是为了给正在遭受“流离失所”风险的弱势人群提供免费住房,并辅以就业、医疗等服务,帮助他们早日实现经济独立和可持续性,避免成为长期的“流浪人士”。

其中一项核心指标是平均居住在免费过渡性住房的天数。天数越小,意味着服务对象越快找到工作,有了自己付房租的能力,项目本身的可持续性也会更好。

但因为资方购买的硬性要求,同行被迫卷了起来:服务对象很多重要的问题还没解决,比如心理问题,健康问题,工作人员就极力鼓励服务对象赶紧去找工作,工作还没稳定,就麻溜地让服务对象“毕业”,为了追求指标,一天都不想耽搁。

但几个月后,大家发现问题了,那些着急被“毕业”的人又回来了,于是形成了一个循环,进来,出去,进来,出去,这并不是项目最初设计的初衷。

这些挑战真实存在,也给我们思考和启发。我们怎么理解它,怎么用好它,需要仔细研究,好好实践。

 

中国的监测评估有不同发展路径

说回我的历程,2018年开始,我有更多地机会参与到了国内的项目评估和监测评估工作中,作为第三方评估者和机构内部的监测评估者的身份,我看到的,参与到的工作越来越多,也让我意识到我们现在对监测评估的理解和应用,早已经不是10年前我离开时的样子了。

它已经有了自己本土化的特色。与之相对应的,我们需要有不同的发展路径和能力建设的支持方式

自我拷问和探索

虽然不管国外还是国内,监测评估基本都是从资方的角度开始推动的,但我也看到了越来越多的伙伴们,逐渐拥有了评估思维,并持续不断地对自己的工作进行拷问。这种对监测评估的诉求的内化的伙伴们越来越多,就为我们探索其使用方法和各种实践开创了空间。

大家不只是停留在一个好看的数字而已,还想知道数字之外更深入的问题。项目效果怎么样,怎么能持续地提升和优化等等的问题牵引了越来越多伙伴的注意。

第三方评估的参与

如果说美国和中国在监测评估方面有很多不同,我个人感受最深的是在第三方评估的参与度上。

第三方评估在国外一般是一次性的评估,通常情况下,这次评完了不知道下次评估会是什么时候(机构认证的评审不属于我说的这种情况)。第三方评估一般耗时很长,一年两年都是很正常的。如果是全国多个项目点的项目,那恨不得要搞个三年五载。预算经费当然也比较高。因此,国外的项目并不经常做第三方评估。

对于国外的第三方评估机构来说,很少会接到邀请为项目做监测评估。监测评估在国外语境下,基本都是项目/机构内部完成的。

而对于国内的一些在监测评估上走得相对比较快的机构来说,有些是因为有了或多或少第三方评估的参与,有些机构会定期(比如每年一次)找第三方评估;政府购买或创投场景下,也会有比较固定的第三方评估。在第三方评估的带领下,项目方逐步学到了什么是逻辑框架,什么是产出,什么是成效。

从这一点来说,第三方评估是我们在项目范式,实证研究和项目评估上的积累不足的前提下,较多地下场参与项目的监测评估的建立,一定程度上帮助了我们的一线机构或项目从0到1的创建起监测评估。

但第三方参与过多的副作用也很明显,大家以为监测评估就应该是外部专家主导的,过于追求严谨和科学性,把它与第三方项目评估等同。反而忽略了监测评估对实操性,贴项目的独特特色的要求。形象一点就是,项目实践者把监测评估这个本属于自己的工具,举手交给了外来观察协作者手上。监测评估本身也就失去了意义。所以在监测评估这件事上,我个人认为好的第三方评估者应该是以协作、技术支持为主,而非决策和带领的角色。

说了这么多,想以这样一句话作为结束:监测评估对于我而言,是一种项目管理方法,也是一种能力:一种让【愿意改变世界的实践者】拥有“循证”和“基于数据”优化实践的能力。

 

感谢大家读完我的念念碎,你认为好的监测评估应该是什么样子的?

欢迎大家加我微信私聊,期待你的观察和想法。

broken image
broken image