Netflix如何打造AI工厂

二○一○年时,Netflix(网飞)开始采用人工智能工厂,有系统的将资料分析及人工智能应用在推荐引擎上。到了二○一四年,更进一步根据联网速度、使用设备、偏好的视频类型等因素了解用户行为,研判应该从边缘服务器上缓存哪些电影和电视节目,缩短节目与用户之间的网络距离,提升个性化的流媒体体验。

目前网飞在全球一百九十多个国家拥有约一.五亿个用户,视频库中已经累计超过五千五百个节目,所使用的带宽占全球互联网流量的一五%。

网飞及其他领先公司的经验,凸显出人工智能工厂的一些基本组件的重要性:

1.资料潮流(data pipeline):此流程以有系统、可持续、可规模化的方式,搜集、输入、清理、集成、处理与保全资料。

2.开发算法(algorithm development):算法产生有关于业务的未来状态或行动的预测,这些算法及预测是数字体公司运行的心脏,驱动一家公司最重要的运营活动。

3.实验平台(experimentation platform):通过实验平台机制,人工智能工厂可以检验有关预测及决策的各种假设,以确定算法建议的改变方案。

4.软件基础设施(software infrastructure):这些系统把资料潮流嵌入一个坚实的模块化软件和运算基础设施里,并视需要及适切性,把它连接至内部及外部用户。

若说资料是人工智能工厂的燃料,那么基础设施就是输送燃料的管路,算法就是执行工作的机器,实验平台则是把新燃料、新管路与新机器连接至现有运营系统的阀门。

人工智能工厂的建造与运行:资料潮流

资料是人工智能工厂的投入要素。近年来人工智能技术蓬勃发展,原因之一在于可供分析的资料数量及种类快速增加。二○一二年时,网飞就已经拥有大量资料,看看工程师阿玛特里安(XavierAmatriain)和巴西里柯(Justin Basilico)在网飞博客中的描述,就能够以知道他们使用的资料种类有多么广泛:

●我们拥有数十亿笔会员评价(ratings),而且以每天数百万笔的规模快速增加。

●我们以人气(popularity)作为算法基准。计算视频“人气”的方法很多,可以根据特定时间区间的资料,例如每小时、每天或每周的人气;也可以根据地区或其他相似性指标来区分会员群,计算视频在不同群体中的受欢迎的程度。

●我们每天收到数百万笔流媒体播放(plays)相关资料,包括观看时间、何时观看、使用什么设备观看等等。

●我们的会员每天在他们专属的片单(queues)中加入数百万部视频。

●我们的每一部片子有大量元数据(metadata),包括演员、导演、类型、年龄分级、评价等等。

●我们知道我们向会员展示(presentations)或推荐哪些视频、在何处向他推荐,可以查看这些推荐如何影响会员行动。我们也观察会员和推荐视频的交互情形,例如卷动鼠标滚轮、将鼠标光标移至推荐视频上的滑动或点击动作,以及在特定页面的停留时间等。

●社交(social)资料已经成为我们最新的个性化功能依据之一,我们可以分析会员的亲朋好友观看或评价些什么。

●我们的会员每天在网飞服务中直接输入数百万笔搜索项(search terms)。

●除了上述内部资料,我们也可以利用外部资料(external data)来改进系统的功能,例如可以加入票房表现、影评的评论等等。

●当然,我们搜集与使用的资料不限于这些,还有许多其他的资料,例如人口结构统计、地点、语言、时间资料等,都可以运用在我们的预测模型。

网飞运用资料的深度与广度令业界称羡。在这些资料与分析资产中,有一部分是来自网飞创造约两千个“微群集”(microclusters),把具有相似观影喜好的用户连接起来,因此这又称为“品味社群”(taste communities)。一位用户可能同时归属在好几个品味社群之中,这是简单的人口统计资料所无法呈现的,例如一位住在印度孟买市的六十五岁阿嬷,以及一位居住于阿肯色州农村的青少年,两人可能为同类型节目深深着迷。

网飞把电视娱乐给资料化(datafication),这是阿里巴巴总参谋长暨湖畔大学教育长曾鸣创造的词汇。 “资料化”是指有系统的从任何业务自然进行的活动与交易中取得资料。举例而言,Google的Nest Thermostat就是通过把一群传统活动(控制家中暖气、冷气、通风等空调系统的行动)资料化,进而进军睡眠市场。装设电子传感器来传感家中温度及住户起居活动,再加上计算机管控及Wi-Fi连接,创造出能为屋主创造重要价值的全新资料。只要短短几天,Nest Thermostat就能学会根据你的使用习惯自动调节室内温度,或自动选择适合你家的电力公司节能方案,并且让你通过智能手机来操控这一切。

从脸书上的社交行为、戴着Apple Watch或Fitbit去运动,到以Oura或Motiv关注睡眠与健康状态,类似的资料化历程可说是无所不在。如同我们在网飞的案例中看到,越来越多资料可以与外部资料结合起来,为用户提供更多价值。例如,Oura智能指环的应用程序能将睡眠及心率资料与Apple Watch的传感资料相结合,提示用户每日所需的休息时间与活动量。优步、来福车、Grab、滴滴出行、GOJEK等共享平台已经将交通运输相关信息资料化,它们的应用程序能够和智能手机功能相互结合,产生关于个人交通喜好、交通服务市场供需、市中心进出交通流量等广泛且规模空前庞大的资料。在过去,企业根本难以想象能够拥有如此准确、即时的资料。

有时需要一些创新,才能把传统活动转化为有用资料的源头,例如支付宝和微信广泛使用QR code作为支付工具,在商业交易领域取得领先地位。有些资料并不容易取得、甚至根本不存在,这时公司就十分值得投入生成资料相关技术与服务。就连必能宝(Pitney Bowes,一家拥有百年历史的邮递服务供应商)都拓展出新的商业模式,将资料化策略应用在美国物理地址资料,为银行、保险公司、社交平台及零售企业推出“知识结构”(Knowledge Fabric)解决方案,用地址资料来满足营销、诈骗侦测等各种需求。这一切都源自于该公司能够意识到,它可以在收取邮资之外创造价值与攫取价值。

试图创建人工智能工厂的传统型企业往往会发现,它们手中拥有的资料不仅片断零散、缺乏完整性,而且经常是分散而孤立的存放在各部门IT系统。以传统商务旅馆为例,一家连锁商务旅馆理论上应该拥有大量资料,包括顾客的住家地址、信用卡信息、差旅频率、搭乘的航空公司、交通形态、差旅地、住房房型、餐点击择、当地旅游景点喜好、健康情况与运动偏好等等;但实际上,多数连锁旅馆拥有的资料非常片断零散、存放在缺乏兼容数据结构的不同系统、没有通用识别码,而且未必完全正确。许多传统公司主管始终低估投资在跨部门清理、集成资料的挑战性与急迫性。为了创建一个有效人工智能工厂,公司主管当务之急就是确保做出适当的投资。

作者简介

马可.颜西提(Marco Iansiti)

哈佛大学商学院教授、哈佛创新科学实验室(Laboratory for Innovation Science at Harvard)联合主任。

卡林.拉哈尼(Karim R. Lakhani)

哈佛商学院教授,美国全国经济研究所(National Bureau of Economic Research)研究员;也是Mozilla董事会成员,以及数家人工智能创业公司顾问。