前几天,有人在社交媒体上发了一张截图——微信状态页的右下角,多了一行小字:”3人看过”。

点进去一看,头像都列出来了。谁看了你的状态,一目了然。

问题是:这功能从哪冒出来的?我什么时候允许别人看我的访客记录了?

答案是——没有。你什么都没同意。这是一次灰度测试,微信在一小部分用户身上悄悄试水。大多数人还不知道这功能存在的时候,少数”幸运”用户已经被安排上了。

消息一出,全网炸了。”微信居然偷偷搞访客记录?”“谁看了谁的朋友圈全暴露了?”“以后还怎么偷偷看前任?”

腾讯微信事业群副总裁张军很快在微博回应了四个字:已焊死

翻译成人话:这功能不会上线了,代码层面彻底封掉。语气斩钉截铁,透着一股”这事不是我批的但锅我来背”的决绝。

事情看起来解决了。但如果你往深了想一层——问题根本不是这一个功能。

10亿人的隐私,不是你的A/B测试

灰度测试这个东西,做互联网的人都不陌生。新功能上线前先给1%的用户开放,看看数据反馈,没问题再扩大范围,最后全量推送。

这套逻辑在技术上完全合理。改了一个按钮颜色,先灰度看看点击率有没有提升——没毛病。调了一下推荐算法的权重,先灰度看看用户留存——也没毛病。

但微信这次不是改按钮颜色。它是在隐私的边界上做实验。

“谁看了你的状态”这个信息,本质上是一种社交监控能力。它改变的不是UI的美观度,不是功能的易用性,而是人与人之间的信息不对称。当你的访客记录被别人看到,你们之间的权力关系就变了——”偷偷关注”这个行为从安全的变成了有风险的。

这种改变是不可逆的。

按钮颜色灰度测试,用户不喜欢?改回去,什么都没发生。推荐算法灰度测试,数据不好?回滚,用户无感知。

但访客记录呢?灰度期间已经有人截图传播了。你的老板看了你的状态,你知道了。你的前任看了你的朋友圈,你知道了。这些信息一旦泄露,改回去有什么用?截图不认识回滚键。

在10亿用户的隐私边界上做灰度测试,本质上就是一场信任赌博。赢了,你多一个功能;输了,你失去的是用户对平台的安全感。

而安全感这东西,失去了就很难找回来。

灰度测试的信任赌博:按钮颜色 vs 隐私边界

你的手机上,至少有3个App在拿你做实验

你可能觉得灰度测试是偶发事件。毕竟微信翻车了一次,以后应该会注意吧?

现实可能会让你不太舒服:你的手机上,此时此刻,至少有3个App在对你进行灰度实验。

这不是夸张。根据行业通用的产品迭代节奏,一个日活过千万的App,同时在线运行的A/B测试实验通常在50到200个之间。你看到的每一个页面布局、每一种推荐排序、每一个弹窗的措辞,都可能是某个实验组的版本。

你身边两个人打开同一个App,看到的可能是完全不同的界面。一个人被分到了实验组A(新版推荐流),另一个在实验组B(旧版推荐流),他们永远不知道对方看到的不一样。

大部分时候,这些实验无伤大雅。按钮是蓝色还是绿色,推送时间是早上8点还是9点,搜索结果是按热度排还是按相关度排——这些灰度测试完全在合理范围内。

但总有人想试试底线在哪。

有的App灰度测试过”对老用户涨价”——同一个商品,新用户看到99元,老用户看到129元。被发现后叫”大数据杀熟”。有的App灰度测试过”减少取消订阅入口的可见性”——让你多绕两步才能退订。有的App灰度测试过”自动勾选隐私协议”——帮你同意了你没看过的条款。

这些操作有个共同特征:如果不被发现,就是”成功的产品优化”;一旦被发现,就是”侵犯用户权益”。

区别只在于被发现的概率。

灰度的三个阶段:从验Bug到试底线

灰度测试并不是一开始就这么”卷”的。它的演变经历了三个阶段,每一步都看起来合情合理,走到最后却变了味。

第一阶段:技术保险丝。

灰度测试最初的用途很单纯——降低发版风险。新版本可能有bug,先给1%的用户用用看,如果崩溃率飙升,赶紧回滚。这是一种工程上的审慎,没有争议。

第二阶段:数据驱动的产品优化。

后来产品经理发现,灰度测试不光能验bug,还能验功能。两个设计方案拿不定主意?各放50%的量跑一周,看哪个留存高就用哪个。这就是经典的A/B测试。

到这一步,其实也还好。只要实验内容是界面层面的调整,对用户的影响微乎其微,整体来说利大于弊。

第三阶段:隐蔽的底线试探。

问题出在这里。当A/B测试成为一种根深蒂固的工作习惯,什么东西都想”先灰度一下看看反应”的时候,那条边界就开始模糊了。

产品经理想做访客记录?”先灰度5%用户看看数据。”想做已读回执?”先灰度看看。”想做好友亲密度排名?”先灰度看看。”

每一个单独拿出来,都可以用”先小范围验证”来辩护。但叠加在一起,你会发现一个令人不安的模式:灰度测试正在成为一种”试探用户底线”的低成本工具。

做得好,数据好看,全量推送,皆大欢喜。做砸了,回滚,道个歉,说”这只是内部测试”。进可攻退可守,成本极低。

但微信的这次翻车说明了一件事:在隐私领域,没有”回滚”这回事。

信息一旦泄露,就像泼出去的水。你可以关掉水龙头,但地板上的水不会自己回到杯子里。

灰度测试的三个阶段:从技术保险丝到底线试探

你被灰度了吗?一个快速自检清单

作为普通用户,你大概率正在被若干个App的灰度实验覆盖着。虽然大多数实验无害,但如果你想知道自己是不是”实验对象”,有几个简单的判断方法:

对比法。 跟朋友打开同一个App的同一个页面,看看是不是长得一样。如果排版、功能入口、价格显示有差异,大概率你们在不同的实验组。

版本检查法。 有些灰度功能只对特定版本开放。如果你的App不断提示更新,而你更新后发现多了一些以前没有的功能,那很可能是灰度推送。

消失法。 你曾经看到过一个功能,过两天又消失了?这是典型的灰度测试回收——数据不好看,功能被撤了。

而如果你是产品经理,这里有一份”灰度禁飞区”清单,在按下灰度发布按钮之前,请先对照检查:

  • 涉及用户隐私数据的可见性变更 → 不灰度,走正式公告+用户授权
  • 改变用户间信息不对称的功能 → 不灰度,全量上或不上
  • 影响用户付费金额的变量 → 不灰度,否则就是大数据杀熟
  • 修改用户已有权限或已同意条款 → 不灰度,需要重新获取授权
  • 一旦泄露就无法撤回影响的功能 → 不灰度,因为灰度本身就是泄露

这份清单的核心逻辑只有一条:如果回滚无法消除影响,就不要灰度。

灰度禁飞区清单:产品经理的5条红线

需要焊死的,不是功能

张军说”已焊死”。干脆利落,四个字就把这事定性了:技术问题,技术解决。

但真正需要焊死的不是那一行访客记录的代码。

真正需要焊死的,是一种产品文化——把10亿用户当成免费的实验样本,把灰度测试当成试探底线的探针,把”用户无感知”等同于”用户已同意”。

灰度测试本身不是坏东西。它是一种工程工具,本质上跟安全气囊一样,是用来降低风险的。但如果你把安全气囊拆下来当武器用,那问题就不在安全气囊了。

微信这次翻车的真正教训不是”访客记录不能做”。它的教训是:当你的产品覆盖了10亿人的日常生活,你在每一个人的手机上做的每一次实验,都不再是”小范围测试”,而是一次未经授权的社会实验。

下一次你的微信突然多了一个奇怪的功能,然后又消失了,你会知道——那不是bug。

那是有人在拿你做实验。只不过这次,实验失败了。