优先聚焦数据治理,Line资料平台和AI架构再次大变革

从去年3月,Line和Yahoo!Japan(雅虎日本)母公司Z控股整合之后,各界就高度关注通信平台巨头和电商巨头整合后将如何激发出新的火花。

Z控股订下的首要战略目标是优先加强数据治理。这是因为,成为一家世界级AI科技公司,是整合后双方的共同战略目标,而高品质的可用资料正是迈向这个愿景的关键基础工程。尤其,Line日本用户 、雅虎日本用户和PayPay三大生态系整合后,用户数达到2亿人规模。如何支撑新的超大规模生态圈,从今年11月刚结束的Line与雅虎日本首次联合技术会中,可以观察到,资料科技和AI技术是关键。

擅长社交平台,拥有海外多国发展经验的Line,和拥有深厚电商、零售与金融产业布局的雅虎日本,在年会中展现出各自不同的技术发展重心,却又可以互补。Line聚焦于发展平台式的战略型技术架构,尤其在AI架构和资料科技平台,及区块链架构上,而雅虎日本则聚焦在扩大AI应用和产业AI实践等。前者聚焦强化AI技术体质和未来性,后者则聚焦扩大产业AI版图和业务广度。

Line目前全球每月约2亿用户使用,累计了大量的用户和行为资料,因此早在2019年,Line激活了一个自助式的超大规模资料平台IU(Information Universe),后来,2020年时,又进一步在IU上发展出了一层机器学习平台MLU(Machine Learning Universe),用来支持多项跨服务共享的大型ML模型集群,包括NLP模型、计算机视觉模型、推荐模型、广告优化模型。

目前IU支持了Line内部超过200项服务,存储了400PB的HDFS资料,超过4万个Hive表格,每天要执行15万个任务。Line首席技术官Tomohiro Ikebe指出:“庞大资料不只是很大的存储挑战,利用时也是很大的挑战。”

IU资料平台新变革,打造资料血统功能将资料变动过程可视化

在年会中,Tomohiro Ikebe首度披露了后续IU上进一步打造的网页式资料目录服务,也就是IU Web门户网站。

在这个IU Web上,提供了多项自动化机制,例如元数据搜集机制、Data profiling机制、可辅助法遵需求的资料验证工具。另外,IU也引进了Apache Iceberg资料湖技术,并将流媒体大数据分析平台Spark升级到3.2版。

IU Web最重要的新功能则是2021年11月新上线的Data Lineage (资料血统)功能。Tomohiro Ikebe解释,随着IU上的资料流程越来越复杂,一旦发生问题,想要找出资料间的关系,越来越困难。要解决这个问题就需要资料血统机制。

资料血统机制可以用来关注特定资料从创建后到现在的发展路径,在浏览器上通过图表来呈现资料变动的过程。

Line资料平台部门资深产品经理宇田川直人表示,这个内部资料目录提供了一站式的入口,来涵盖所有的资料活动,来提高包括搜索资料,访问控制,元数据管理和探索性资料分析等资料利用的效率。

不过,要打造这样的资料目录有两大挑战,一是得搜集所有资料集的元数据,第二是如何呈现这些元数据的关联。Line使用了开源的目录服务项目Apache Atlas来串联各种不同资料源,搜集资料元数据来了解异动状况,并将资料每一次的变化过程用可视化的方式呈现,这就是资料血统的机制。资料血统图上的每一个节点,可以列出这个节点相关的资料表简介、时间戳、表格关系、PII(涉及个人信息),资料拥有者,使用单位,还有从这份资料产生的相关报表、用户清单和各种连接等。

可是,IU上有4万个Hive表格,每天要执行15万个任务,每一个任务和每一个表格都是一个人信息料血统图上的节点,要追溯出从创建到目前的所有变化和关联,就会产生非常复杂和庞大的节点关联图,。

为了改善资料血统图的可读性,Line采取了多项设计机制来简化资料血统图的复杂性。Line利用Atlas串联了HIve服务器和Spark,利用Atlas的通知机制,采取推送更新元数据的做法。不过,因为IU上执行的任务每天多达十几万个,几分钟内的资料表异动也多达数百次。因此,Line通过Kafka汇集整理来自Atlas的通知,以30分钟为最小关注单位,排除掉30分钟内的异动,例如操作错误的数据库反复添加或删指令,大幅减少了90%异动通知。再进一步比较异动模式,过滤掉对用户没有意义的DDL语法异动资讯,更大幅减少了95%的噪声。

不只如此,Line在资料血统数据库中,排除了不重要的资料节点的注册,这更大幅减少了9成节点数,也删除了3万个不需要的任务。通过这些一层又一层的过滤和筛选,才让Line资料目录IU Web上提供的资料血统,要处理的复杂度降低,甚至可以进一步展开到以字段为节点单位的关联分析图。

Line更提供了一个互动式的接口,默认可以展开一项资料从出生到现在的血统脉络。

资料血统功能在2021年11月上线,统计到2022年5月,有79个服务和部门使用这项功能,每天用于ETL、资料管理和数据科学分析等功能,特别是Data ETL团队可以更容易确认资料表维护的范围,尤其要执行资料表删除或异动时能更放心。更有不少用户每天常用资料血统来调查各种资料错误的根本原因

“可以掌握资料间的关联,就可以很容易知道如何管理庞大资料,来提高再利用效率,更可以在安全和治理的角度下,来使用这些资料。”Tomohiro Ikebe表示。不只用于IU,在MLU平台上,也可以利用相同的血统技术,来关注一个模型用了哪些资料来训练,以及在训练中如何使用这些资料。

IU Web的资料血统功能,可以呈现一项资料从出生到现在的资料异动脉络也就是资料血统,默认展开三层重要的节点,用户可以自行放大或缩小画面,也可以针对任何一个人信息料字段,再进一步展开下三层的资料血统关联图。图片来源/Line

Line机器学习平台MLU引进联合学习新架构

不只IU资料平台展开大变革,Line的机器学习平台MLU也采用了全新的训练架构和模式。Tomohiro Ikebe表示,今年秋天,Line在贴图推荐导入了一套新的机器学习训练架构,“可以处理爆量特征来创建模型,又能兼顾隐私和用户便利性,就是联合学习(Federated Learning)和差分隐私(Differential Privacy)。”

通过联合学习机制,在用户本地端App上完成模型训练,并利用差分隐私(Differential Privacy)架构,将模型加上噪声来避免从模型回推原始资料,再将没有用户资料的特征模型,回传到后端服务器来更新整体推荐模型,再分派新模型到用户App上,利用本地端Log来产生更个性化的推荐顺序。

雅虎日本首席技术官小久保雅彦指出,两家公司共同累计了庞大用户和爆量数据,而且只会加速增加。为了持续增长,必须解决多项技术挑战,像是得打造一套灵活平台,回应快速暴增的流量和资料。也得扩大甚至加速导入先进AI技术。还要打造安全和隐私保护的可靠性架构来创建信任。

这三大挑战,也正是Line资料平台和AI架构新变革要解决的课题。