推荐算法的前世今生

您当前的位置：环亚科技网新闻正文

2019-08-23 13:13:38 阅读：1231+ 作者：责任编辑。王凤仪0768

编者按：本文来自微信大众号“刺猬公社”（ID：ciweigongshe），作者童淑婷，36氪经授权发布。算法分发、修改分发、交际分发……...

编者按：本文来自微信大众号“刺猬公社”（ID：ciweigongshe），作者童淑婷，36氪经授权发布。

算法分发、修改分发、交际分发……在信息年代，人们常常评论信息分发问题，相关概念也成为大热名词。

但事实上，信息资源一直在人类的进化和开展中占有侧重要方位。交际分发是最陈旧的分发方法，修改分发也比咱们幻想得更早。

而当咱们把算法分发置于人类社会信息分发的前史长河中，便能清楚地看到它的“前”与“后”——从这个视点来看，新鲜的算法引荐，其实也不新鲜。

亘古的信息分发问题

信息分发，是一个亘古问题。

无妨从一个风趣的联想开端：在人类文明前期，群居的先人们依托搜集和打猎生计。由于打猎是一个十分风险的技能活，人们需求沟通打猎作战的信息和经历，来进步成功率。

比方，猎物呈现时用什么信号招集火伴？从什么方位埋伏猛兽作用更好？他们经过手势和发声，把这些重要信息分发给火伴——这便是“交际分发”，人类社会最原始的信息分发方法。

“知”（甲骨文）：

甲骨文的“知”就表明议论和教授行猎、作战的经历。

交际分发的意思是依据交际联系的直接和天然的分发。《人类简史》用“八卦”来描绘这种信息沟通，指出八卦对人类进化的重要作用。

另一种自古就有的信息分发方法，则是修改分发。尽管英文“edit”一词的呈现和报纸相关，可这种分发方法早已有之。

在口传年代，由古希腊盲诗人荷马搜集、收拾而成的“荷马史诗”（《伊利亚特》和《奥德赛》）便是典型比方。汉语将“修改”解释为“搜集材料，收拾成书”。去其形，取其义，这种信息分发的底子特征是：信息经过收拾后分发至接受者，有加工和把关的意涵。

不管交际分发，仍是修改分发，它们都现已前史悠久。仅仅承载这些分发方法的详细媒介在不断更新和改变，也给这些分发方法带来了新的或许。

比方，互联网经过对交际联系的约束（地域、血缘等）打破，在某种程度上完结了跨区域的交际联合，也让交际分发的规划从家庭、线下社区，转向更广的爱好集体。

进入互联网年代，科学家和工程师都在尽力处理信息过载环境下的分发问题，前期两种代表性的处理计划是分类目录和查找引擎——前者，经过人工修改把闻名网站分门别类，让用户依据类别来查找网站，典型如yahoo、Hao123等；后者，让用户经过查找要害词找到所需信息，处理了分类目录的有限掩盖问题，典型如谷歌、百度等。

实践上，这两种处理计划的思路并不新鲜，很大程度上能够别离对应图书馆的分类收藏和百科全书的条目索引。

纵观整个前史长河，咱们不难发现：信息环境是改变的，处理计划是详细的，但信息分发的需求和方法却是相通的。它们都在答复一个问题——怎么有用地衔接人和信息。

引荐算法：了解的新朋友

算法分发的呈现和遍及运用，意味着人类开端运用机器大规划地处理信息分发问题，人类社会信息分发的动力从人力转向了部分自动化——从“人找信息”，到“信息找人”。

站在人类社会信息分发的长河中看，算法分发尽管是一个新鲜事物，但它的任务和根基却是了解的。从这个切断去考虑，不难答复为什么这个年代诞生了引荐算法：

榜首，新的信息环境和人类的信息需求动力，呼喊一种新的信息分发处理计划。

面临信息过载的环境和碎片化的信息消费场景，怎么从许多信息中找到自己感爱好的信息，是一件十分困难的工作。作为重要东西的查找引擎，能够部分满意人们的需求，但最适用于需求清晰的场景。假如用户无法精确描绘自己的信息查找需求，乃至对自己的需求都不充沛了解呢？

这意味着，咱们需求一个能够自动依据咱们的爱好和需求来分发信息的计划。早在1995年出书的《数字化生计》（Being Digital）中，尼古拉·尼葛洛庞帝便提出“我的日报”（The Daily Me），以为在线新闻将使受众自动挑选自己感爱好的内容，预言未来信息的个人化。

在其时，这种幻想或许被以为是“白日做梦”。由于个别之间天然有差异，而为了社会的全体功率，人们总是尽或许寻觅信息的“公约数”。

跟着技能的开展，引荐体系的呈现给人类的信息分发带来了一种或许：人们不必每次都供给清晰的需求，而是经过为不同个别的信息需求建模，然后自动引荐能够满意他们爱好和需求的信息。

第二，信息技能的开展，为个性化引荐体系的呈现供给了物质条件。

一方面，移动互联网开展，每个人都是一个终端，这使得信息的分发能够低成本定位到不同的个别用户。

另一方面，AI技能的老练和硬件资源的进化，为个性化引荐供给了技能完结途径：机器学习模型的运用，深度学习的快速开展等，供给了有力的算法东西；而大规划分布式机器学习结构的呈现、GPU对深度学习的加快才能得到遍及验证、专用深度学习芯片的呈现（TPU、寒武纪），又供给了另一层保证。

1994 年美国明尼苏达大学GroupLens研讨组推出榜首个自动化引荐体系 GroupLens（1），提出了将协同过滤作为引荐体系的重要技能，也是最早的自动化协同过滤引荐体系之一。

1998年亚马逊（Amazon.com）上线了依据物品的协同过滤算法，将引荐体系面向服务千万级用户和处理百万级产品的规划，并能发生质量杰出的引荐。

2006 年10月，北美在线视频服务供给商 Netflix 开端举行闻名的Netflix Prize引荐体系竞赛。参赛者如能将其引荐算法的猜测精确度进步10%，可获得100万美元奖金。参赛的研讨人员提出了若干引荐算法，大大进步引荐精确度，极大地推动了引荐体系的开展。

2016年，YouTube宣布论文（2），将深度神经网络运用引荐体系中，完结了从大规划可选的引荐内容中找到最有或许的引荐成果。

自榜首个引荐体系诞生，至今已有二十多年。现在，算法引荐的思路和运用，现已深化到许多互联网运用中。

比方，内容分发途径的个性化阅览（今天头条、抖音等）、查找引擎的成果排序（谷歌、百度等）、电商的个性化引荐（亚马逊、淘宝等）、音视频网站的内容引荐（如Netflix、YouTube等）、交际网站的（Facebook、微博、豆瓣等），等等。

依据第三方监测组织“易观”发布的《2016中国移动资讯信息分发商场研讨专题陈述》：2016年，在资讯信息分发商场上，算法推送的内容将超越50%。到本年，这个比重想必更大。

现在，人们讨论算法分发的价值，最常说到的是进步了信息分发的功率，它表现在：解放了部分人力，一起打破了人力对信息分发形成的约束，完结长尾内容的有用分发，然后更高效地完结人和信息的匹配。

但是，还有一层含义较少有人触及：经过算法完结的个性化引荐，真实重视和了解个别。每一个个别都是一个含义不同的“终端”，而不是永久将个别置于集体中去全体了解。也即尼葛洛庞帝所言的“在数字化生计的情况下，我便是‘我’，不再是人口统计学中的一个‘子集’。”——这也是“personal”（个性化）中“person”的意涵地点。

人道面前，算法有更多或许

算法为人智能地匹配信息，但它引荐的依据仍是在于人。

即使引荐算法开展得愈加老练，人们在和算法的日常共处中，也不免会有一些困惑：有时，期望算法再“聪明”、更了解自己一些；有时，并不想老重视自己感爱好的内容，也想看看公共热门；还有时，会猜测自己除了这些需求之外，会不会也有其他的潜在爱好？……

今天，对内容引荐的批判声响中，包含让视界窄化、信息低俗化、人的边缘化等——这些声响从底子上折射出人类永久重视的问题：信息的宽度和高度，以及人的主体性。面临这些诘问，或许转而用一种全体的和开展的视角，更有利于咱们去了解问题。

首要，算法引荐是重要的，但它并非悉数。人类有多种信息需求场景，不同的信息分发方法和东西在互相配合来满意用户的需求。这些分发方法的详细东西，或许在不同阶段此消彼长，但本质上并没有彻底替代对方。

举个简略的比方：假定一个初级电影爱好者想在周末看一部电影，会有几种或许？假如他今天想看库布里克的著作，他或许直接翻开查找框，查找“库布里克”导演，看看他导演的著作还有哪些自己没看过；假如他自己没有特定的主意，便或许翻开个性化引荐的APP，在了解自己喜爱的信息流中，刷一刷看有没有感爱好的电影；当然，假如他命运好，微信加了一个电影发烧友，也能够直接请对方引荐几部。

从这个比方中，能够看到：查找引擎满意了用户有清晰意图时的自动查找需求；而引荐体系能够在用户没有清晰意图的时分，协助他们发现感爱好的新内容——从这个含义上看，“引荐”和“查找”实践上是满意人们不同需求的两个互补的东西。

当个性化引荐运用开展迅速的时分，人们或许会情不自禁地假定它占有自己的悉数信息场景；但是，在实践情况里，一个人在日常日子中触摸信息的途径，远比咱们幻想得要愈加丰厚——2016年Seth Flaxman等学者进行的一项试验，也证明了这个定论（3）。

该研讨请5万名参与者，自主陈述自己最近获取信息的新闻媒体来历，一起经过电子手法直接监测和记载他们的实践新闻消费行为，包含网页阅读前史等。两项数据的比照后，研讨终究发现人们实践的媒体消费比他们所幻想的更具有多样性。

再者，从底子上来说，算法是运用智能来处理信息分发问题的思路，而非一个肯定的和定型的操作手法，它自身也在不断开展。算法与修改、交际并不敌对，将三者有机结合能够协助完结更有用的信息匹配。

《内容算法》一书中，作者把算法比喻为“是个筐，什么都能往里装”：算法是依据咱们对实践国际的了解进行的笼统和建模，一切咱们关怀的要素（修改分发、交际分发）都能够转化为算法引荐的参阅要素。

实践运用的引荐体系一般都会运用多种引荐算法，来进步引荐体系的个性化、多样性、健壮性（即鲁棒性）。比方：运用依据内容的引荐算法，处理用户和内容的冷启动问题；在具有了必定的用户行为数据后，依据事务场景的需求归纳运用依据用户的协同过滤（UserCF）、依据物品的协同过滤（ItemCF）、矩阵分化或其他引荐算法进行离线核算和模型练习，并归纳考虑用户的交际网络数据、时刻相关和地舆数据等进行引荐。

与此一起，人工修改也在要害的时分发挥作用。比方在今天头条途径，由人工审阅和机器算法一起对内容进行把关。一个具有杰出引荐机制和规矩的途径，能够助力高质量内容的传达，然后促进内容生态的开展。新技能环境中，专业内容出产和修改团队的价值不只不会褪色，还会越来越重要。

终究，从人们环绕算法分发的讨论中，能够看到人们面临信息时的两对永久需求——个人向和公共向、已知的和不知道的。人类永久期望二者能够到达动态的平衡，而这个平衡点又往往因人而异。这给算法的开展和完善供给了动力，也带来了难题。

关于个别来说，一个趋于抱负态的信息生态，或许需求具有社会性、集体性、个别性，统筹信息的高度和宽度——有些问题，算法能够处理，也正在测验处理；但有些问题，或许人类自己也无法很好地解题，终究仍是要不断回归到人道自身。信息分发技能开展和完善的背面动力，仍是在于人，在于人对信息分发抱负形式的永久寻找。在这过程中，人一直具有其共同的价值和能动性，据守“技能为人”。