(薛宇飞)近日,由中国人民大学高瓴人工智能学院等单位主办的“推荐算法社会价值与可持续发展”研讨会在中国人民大学举行。清华大学计算机科学与技术系长聘副教授张敏在研讨会上指出,对算法公平性的研究与探讨,是不断变化与深入的。

清华大学计算机科学与技术系长聘副教授张敏。来源:主办方供图

她提出,要研究算法公平性问题,首先要研究公平性的定义问题。最早人们提出的公平性定义是对于不同个体的推荐结果一致。之后,人们对公平性的定义有新的认识,公平性的定义从个体变成了群体,要求同等对待两个群体,例如男性和女性,老年人、孩子和中青年。很快,人们发现绝对的一致并不代表公平,即并不是要给群体推荐完全一样的结果,而是不同的群体要拥有相同的推荐性能,即从系统中获得的满意程度相同。比如推荐系统中男性和女性的点击率或男性作者和女性作者的书获得的点评数应该是接近的。到现在,一般认为要从不同维度上在同类用户/产品之间进行公平性的考量。比如,苹果与华为公司的产品应该有同等的机会呈现给用户。相反,不能要求矿泉水公司和苹果公司获得相似的推荐次数和推荐群体,因为它们并非同类公司。目前人们对公平性的定义逐渐深化和合理化,表明研究界对公平性问题的认识进入了新的阶段。

张敏表示,算法公平性还要考虑时间周期,要放在一段合理的时间区间内考量公平性。比如,用户在一次推荐交互中能够查看的信息是有限的,需求也相对比较集中,很难面面俱到,因此只有在一段时间内考量是否公平地满足了用户或信息(产品)提供者的需求才是有意义的。”因此,她称:“对于个体,要在足够体现用户多方面需求的时间段内集成起来考虑公平性。据我们了解,在公平性度量中引入时间维度还没有太多已有工作,我们的一些相关想法也在探索中。”

造成算法不公平性的原因有很多。一是来自数据的不平衡性。实际系统能够采集到的数据往往是不平衡的,而不平衡数据的学习一直都是机器学习的难点之一。二是用户的行为带来的偏置(bias)。比如浏览新闻时,用户会因为猎奇心理或受到“标题党”新闻的影响,点击那些质量不够好的结果,而算法相信用户的点击并相应地学习并进行推荐,因此输入给系统的信号有偏带来了系统推荐结果的偏差。三是不同的算法本身在推荐中带有一定的倾向。比如基于流行度的算法(most popular)倾向于推荐较为流行的物品或内容,而基于协同过滤的算法则一般对交互比较多的用户或内容推荐得更好些。四是从社会学角度看人类本身的差异。比如,女性的购物兴趣相对更多样和分散,而男性的兴趣则更集中;再比如一般来说,与男性相比,女性在公开场合更少的表达自己的观点,评论或者写评论的行为少一点等。这是天然的属性差异,也会让推荐结果和性能有所不同。

对于多样性和公平性的关系。张敏称,很多人认为不公平就是因为系统不够多样、或者只要系统能有足够的多样性就会有足够的公平性。但其实多样性和公平性是两个不同的衡量指标,不多样的系统也有可能是公平的,或另一方面就算是多样的系统也有可能存在不公平,两者不能混为一谈。从多样性的角度,带来多样性问题的本质原因是对用户潜在需求理解不够深度,如果能够深入挖掘用户的潜在需求,那么多样性问题也就迎刃而解了。所以我们不是要投其所好,推荐所有已知的用户感兴趣的东西,而是要满足用户的需求,特别是潜在需求——有时这样的需求甚至是用户自己没有意识到的,这也是推荐系统的高级目标。所以一定要注意兴趣和需求是两个不同的概念。

她称,麻省理工学院(MIT)每年都会发布十大突破技术,2021年发布的十大突破技术之一是“TikTok推荐算法”。文中称“TikTok推荐算法能够使普通人发的内容也有可能受到明星般的关注,迅速流行起来”,这就是发布内容端公平性的体现。另一方面,“具有小众或细分需求的用户,也能看到自己感兴趣的内容”,则是用户角度公平性的表现。

张敏最后称,提升公平性并不意味着推荐精准性的损失,推荐系统中公平性完全可以与精准性、多样性并存,实现双赢或者三赢,这种情况已经开始在研究中看到初步成果。