Netflix如何打造AI工厂

二○一○年时，Netflix（网飞）开始采用人工智能工厂，有系统的将资料分析及人工智能应用在推荐引擎上。到了二○一四年，更进一步根据联网速度、使用设备、偏好的视频类型等因素了解用户行为，研判应该从边缘服务器上缓存哪些电影和电视节目，缩短节目与用户之间的网络距离，提升个性化的流媒体体验。

目前网飞在全球一百九十多个国家拥有约一．五亿个用户，视频库中已经累计超过五千五百个节目，所使用的带宽占全球互联网流量的一五%。

网飞及其他领先公司的经验，凸显出人工智能工厂的一些基本组件的重要性：

1.资料潮流（data pipeline）：此流程以有系统、可持续、可规模化的方式，搜集、输入、清理、集成、处理与保全资料。

2.开发算法（algorithm development）：算法产生有关于业务的未来状态或行动的预测，这些算法及预测是数字体公司运行的心脏，驱动一家公司最重要的运营活动。

3.实验平台（experimentation platform）：通过实验平台机制，人工智能工厂可以检验有关预测及决策的各种假设，以确定算法建议的改变方案。

4.软件基础设施（software infrastructure）：这些系统把资料潮流嵌入一个坚实的模块化软件和运算基础设施里，并视需要及适切性，把它连接至内部及外部用户。

若说资料是人工智能工厂的燃料，那么基础设施就是输送燃料的管路，算法就是执行工作的机器，实验平台则是把新燃料、新管路与新机器连接至现有运营系统的阀门。

人工智能工厂的建造与运行：资料潮流

资料是人工智能工厂的投入要素。近年来人工智能技术蓬勃发展，原因之一在于可供分析的资料数量及种类快速增加。二○一二年时，网飞就已经拥有大量资料，看看工程师阿玛特里安（XavierAmatriain）和巴西里柯（Justin Basilico）在网飞博客中的描述，就能够以知道他们使用的资料种类有多么广泛：

●我们拥有数十亿笔会员评价（ratings），而且以每天数百万笔的规模快速增加。

●我们以人气（popularity）作为算法基准。计算视频“人气”的方法很多，可以根据特定时间区间的资料，例如每小时、每天或每周的人气；也可以根据地区或其他相似性指标来区分会员群，计算视频在不同群体中的受欢迎的程度。

●我们每天收到数百万笔流媒体播放（plays）相关资料，包括观看时间、何时观看、使用什么设备观看等等。

●我们的会员每天在他们专属的片单（queues）中加入数百万部视频。

●我们的每一部片子有大量元数据（metadata），包括演员、导演、类型、年龄分级、评价等等。

●我们知道我们向会员展示（presentations）或推荐哪些视频、在何处向他推荐，可以查看这些推荐如何影响会员行动。我们也观察会员和推荐视频的交互情形，例如卷动鼠标滚轮、将鼠标光标移至推荐视频上的滑动或点击动作，以及在特定页面的停留时间等。

●社交（social）资料已经成为我们最新的个性化功能依据之一，我们可以分析会员的亲朋好友观看或评价些什么。

●我们的会员每天在网飞服务中直接输入数百万笔搜索项（search terms）。

●除了上述内部资料，我们也可以利用外部资料（external data）来改进系统的功能，例如可以加入票房表现、影评的评论等等。

●当然，我们搜集与使用的资料不限于这些，还有许多其他的资料，例如人口结构统计、地点、语言、时间资料等，都可以运用在我们的预测模型。

网飞运用资料的深度与广度令业界称羡。在这些资料与分析资产中，有一部分是来自网飞创造约两千个“微群集”（microclusters），把具有相似观影喜好的用户连接起来，因此这又称为“品味社群”（taste communities）。一位用户可能同时归属在好几个品味社群之中，这是简单的人口统计资料所无法呈现的，例如一位住在印度孟买市的六十五岁阿嬷，以及一位居住于阿肯色州农村的青少年，两人可能为同类型节目深深着迷。

网飞把电视娱乐给资料化（datafication），这是阿里巴巴总参谋长暨湖畔大学教育长曾鸣创造的词汇。 “资料化”是指有系统的从任何业务自然进行的活动与交易中取得资料。举例而言，Google的Nest Thermostat就是通过把一群传统活动（控制家中暖气、冷气、通风等空调系统的行动）资料化，进而进军睡眠市场。装设电子传感器来传感家中温度及住户起居活动，再加上计算机管控及Wi-Fi连接，创造出能为屋主创造重要价值的全新资料。只要短短几天，Nest Thermostat就能学会根据你的使用习惯自动调节室内温度，或自动选择适合你家的电力公司节能方案，并且让你通过智能手机来操控这一切。

从脸书上的社交行为、戴着Apple Watch或Fitbit去运动，到以Oura或Motiv关注睡眠与健康状态，类似的资料化历程可说是无所不在。如同我们在网飞的案例中看到，越来越多资料可以与外部资料结合起来，为用户提供更多价值。例如，Oura智能指环的应用程序能将睡眠及心率资料与Apple Watch的传感资料相结合，提示用户每日所需的休息时间与活动量。优步、来福车、Grab、滴滴出行、GOJEK等共享平台已经将交通运输相关信息资料化，它们的应用程序能够和智能手机功能相互结合，产生关于个人交通喜好、交通服务市场供需、市中心进出交通流量等广泛且规模空前庞大的资料。在过去，企业根本难以想象能够拥有如此准确、即时的资料。

有时需要一些创新，才能把传统活动转化为有用资料的源头，例如支付宝和微信广泛使用QR code作为支付工具，在商业交易领域取得领先地位。有些资料并不容易取得、甚至根本不存在，这时公司就十分值得投入生成资料相关技术与服务。就连必能宝（Pitney Bowes，一家拥有百年历史的邮递服务供应商）都拓展出新的商业模式，将资料化策略应用在美国物理地址资料，为银行、保险公司、社交平台及零售企业推出“知识结构”（Knowledge Fabric）解决方案，用地址资料来满足营销、诈骗侦测等各种需求。这一切都源自于该公司能够意识到，它可以在收取邮资之外创造价值与攫取价值。

试图创建人工智能工厂的传统型企业往往会发现，它们手中拥有的资料不仅片断零散、缺乏完整性，而且经常是分散而孤立的存放在各部门IT系统。以传统商务旅馆为例，一家连锁商务旅馆理论上应该拥有大量资料，包括顾客的住家地址、信用卡信息、差旅频率、搭乘的航空公司、交通形态、差旅地、住房房型、餐点击择、当地旅游景点喜好、健康情况与运动偏好等等；但实际上，多数连锁旅馆拥有的资料非常片断零散、存放在缺乏兼容数据结构的不同系统、没有通用识别码，而且未必完全正确。许多传统公司主管始终低估投资在跨部门清理、集成资料的挑战性与急迫性。为了创建一个有效人工智能工厂，公司主管当务之急就是确保做出适当的投资。

作者简介

马可．颜西提（Marco Iansiti）

哈佛大学商学院教授、哈佛创新科学实验室（Laboratory for Innovation Science at Harvard）联合主任。

卡林．拉哈尼（Karim R. Lakhani）

哈佛商学院教授，美国全国经济研究所（National Bureau of Economic Research）研究员；也是Mozilla董事会成员，以及数家人工智能创业公司顾问。