Google研究专家告诉你资料科学最重要的两大关键
2016-08-07 12:40:06 | 来源:ithome | 投稿:小唯 | 编辑:dations

原标题:Google研究专家告诉你资料科学最重要的两大关键

Google研究科学家纪怀新畅谈过去研究维基百科、Google+的失败经验,他体会到研究只有量测、统计还不够,得进一步让成果发挥效力,才能展现其价值。

图片来源:

iThome

「资料科学中,最重要的就是量测(Measurement)跟效力(Impact)。」Google研究科学家纪怀新在台湾资料科学家爱好者年会分享研究使用者行为多年心得时,一开场,他就特别强调这两件事。

纪怀新曾在帕罗奥图研究中心(PARC)担任过首席科学家,专攻人机互动领域,目前是Google Play及社群平台Google+研究团队领导者之一。他认为,量测是进行科学研究不可缺的要件,而现在无论是取得资料的难度降低,或是电脑分析工具的进步,都使得量测的门槛降低。

但是,纪怀新表示,许多人分析资料时,只因容易取得资料,却没有思考为何要拿这些资料来分析背后的真正目的,往往不易找到可以发挥效益的成果。纪怀新用3个例子,来说明他经历两次挫败和一次成功的故事。

没获重用的维基百科成长趋势分析

第一个故事是在2006年,纪怀新正在研究维基百科,他蒐集了所有文章的数量画成分析图表。他发现,维基百科在2001年至2003年,文章数量的成长状况并不稳定,而度过2003年后,文章数量才开始按照指数模型(Exponential Model)稳定成长。

这样的成长趋势分析很容易得到,所以,纪怀新并没有在此就打住,他更进一步计算文章编辑次数,以及编辑者的数量。他观察到,从2001年开始,文章编辑次数、活跃编辑者的数量虽然都按照指数模型成长,但是到了2007年,两者的成长趋势开始停滞。

成长趋势在2007年后无法用指数模型解释,纪怀新参考另一个人口统计学中的罗吉斯成长模型理论来说明,该理论是用来解释一个资源有限的地区,当人口成长趋势到达该地资源的承载量(Carrying Capacity)后,人口数量将达到瓶颈,成长曲线也变得较平滑,而不是能够不断成长的指数模型,得修正为有饱和上限的罗吉斯成长曲线。

对研究者而言,找出解释现象的规则是一大成就,他兴奋地告诉维基百科团队,对方虽觉得有趣,却没有重视他的研究成果,这让当时的纪怀新感到失望。

Google +社群分析再度不受重视

后来纪怀新进入Google,刚好是Google投入社群平台,推出Google+刚起步时,他就被赋予重责大任:「研究使用者在Google+中建立社群的行为」。

纪怀新盘点社群研究相关文献,归纳出人们可以从社群中获得满足的两大需求:资讯以及社交,想要提高社群活跃程度,就得同时满足这两大需求,除了加强成员社交图谱(Social Graph)的连结外,也得让使用者取得新资讯的难度降低。

为了评估Google+社群是否有满足使用者两大需求,纪怀新总共分析了将近50万个Google+的社群,并且锁定两个分析重点:使用者间的连结数(Edges),以及资讯分享的活跃程度。

纪怀新表示,社群图谱分析中常透过使用者间连结(Edges)所组成的三角形,来作为剖析该图中社群互动程度,是频繁或是稀疏的指标。

举例来说,社群中若有3个使用者A、B、C,A认识B,而B又认识C,若从图谱可以看到C也认识A,那就可以视为一个封闭三角形。因为一个三角形的三个点间,可以排列组合出6种具有方向性的互动连结,只要计算图谱中的三角形数量多寡,乘以6倍就可以得知图谱不同区域的连结数量,连结数量越多的社群,代表社交动能越强,反之,连结稀疏代表成员彼此间的互动不多。

纪怀新又进一步将社群人数规模和成员间连结数来绘製X-Y比较图,试图寻找这两者间的关係曲线。

他表示,大多数社群都是成员越多,彼此的互动越频繁。但有趣的是,有数个Google+社群为离群值(Outlier),例如成员互动次数远高于一般值的风景摄影社群,以及成员互动次数远低于一般值的哈利波特爱好者社群。

不只如此,纪怀新也发现,几乎所有的摄影团体,都出现类似风景摄影社群的超高互动特性,而电影、电玩相关的团体,也多符合哈利波特爱好者社群的超低互动特性。

但是,究竟要如何解释这些特殊社群的存在意义,纪怀新使用广场(Plaza),形容成员互动模式频繁的摄影团体,虽然Google+只是虚拟社群平台,但是其模式仍跟真实世界有异曲同工之处,像摄影爱好者的团体,就相当符合社会科学中第三区域(Third Place)的概念:人群互相交谈、获得新资讯的场所,例如西方世界中的酒吧、理髮厅,或是台湾过去的寺庙、广场,「在这些地方所聚集的人群,连结是重要的社会机能。」所以,摄影爱好者这类社群的连结数量远高于一般社群。

而哈利波特社群以及电玩社群则是另一种纪怀新称为新资讯布告栏(Topic board)式的社群型态,以新资讯取得、交流为主。由于群组的功能主要是提供资讯,使用者在满足资讯的需求后,「没有必要跟社群成员进一步连结。」

不少人认为研究成果能量化,得到可以解释的模式就够了,但纪怀新不然,只透过数据验证假说还不够,还想进一步验证他的想法是否正确。因为他认为:「资料科学的重点不是资料,重点是用科学的方式了解数据。」

为了验证自己的理论,纪怀新也透过滚雪球取样(Snowball Sampling),取得800多位使用者的回馈意见,才了解大部分用户能符合纪怀新的研究假设:「一半满足资讯需求,另一半使用者则是想拓展社交圈。」

用Google+翻译功能降低语言隔阂

得到使用者意见的支持后,纪怀新信心满满,认为这次Google+的研究成果应该可以得到更大的重视,当他兴奋地将研究报告呈交给Google的主管时,只得到美国文化中常见的客套答案:「这非常有趣」,但是都没有任何后续消息。这样冷淡的回应让纪怀新再次感到挫败。

他也从此领悟,除了提供研究成果还不够,更重要的是让成果产生实际效益,因此他决定,要以Google+为起点,不只研究现象和理论,还要让研究成果能用于改变人与人之间的沟通。

自小在美国生活的纪怀新,能体会与他人使用不同语言所产生的沟通障碍,例如当他在社群平台分享贴文时,得为了不同国家的朋友準备不同版本的翻译,否则很多朋友会不懂他所贴文章的意涵。

这件事让纪怀新开始比对Twitter以及Google+社群图谱的国籍和语言差异,他发觉,相比Twitter,Google+社群间的语言隔阂较大。进一步研究Twitter中具备双语能力的使用者后,纪怀新观察到,在Twitter中,前三大语言分别是英语、日语及葡萄牙语,而具备英语能力的使用者,其中不少比例同时也能使用西班牙文或葡萄牙文,「但是英语和日语的连结就相对比较弱。」因此,如果社群平台具备翻译功能,让使用者能理解非自家母语的文章,就能更有效地串接不同母语的用户。

因此他想:「如果我推出翻译功能,是否有助于降低社群间的沟通隔阂?」恰好Google创办人Larry Page正考虑是否该在Google+中推出翻译功能,决定让纪怀新大展身手。

纪怀新想要做的是,让Google+系统自动翻译,系统可以判断浏览者惯用的语言,将文章内容自动翻译成不同国籍的朋友都能看得懂的内容。

研究结果产生效力才是关键

在2013年8月,Google+的翻译功能正式上线,而Google进行了A/B实验,评估翻译功能对平台的成效,短短一周,可以利用翻译功能的使用者,除了贴文数增加2.49%,文章分享数更成长7.19%。

摆脱过去二次研究失败的阴霾,直到推出Google+翻译功能,纪怀新才让研究成果发挥威力。他强调,资料科学除了研究、统计外,更重要的是,让研究结果应用于现实世界,才能展现其真正价值。「资料科学要铭记在心的重点是量测跟效力」,纪怀新说,不能只是蒐集资料、分析资料,还要让分析结果真正发挥影响力。

Modern Web 2016 精彩议程

tags:关键   科学   专家   研究   资料

上一篇  下一篇

相关:

女研究生街头流浪 [热事件]

女研究生街头流浪毕业后患上精神病母亲患病父亲顾不上女研究生街头流浪:近日,一年轻女子(小兰)连续多日在枣庄市中区街头流浪,引起不少热心市民的关注,小兰得到了枣庄市救助管理站的救助。8月3日,记者与枣庄市

霍顿游泳小将资料战绩 让孙杨痛失金牌的对手 [非常娱乐]

霍顿游泳小将资料战绩 让孙杨痛失金牌的对手 [非常娱乐]马克-霍顿在2015年澳大利亚全锦赛上就有3分42秒84的惊人表现,800自和1500自也都游出了非常好的成绩。但在世锦赛舞台上,初战世界大赛的18岁霍顿有些放不开,

澳大利亚游泳霍顿资料背景 何方人物让孙杨失金痛哭? [非常娱乐]

澳大利亚游泳霍顿资料背景 何方人物让孙杨失金痛哭? [非常娱乐]马克-霍顿在2015年澳大利亚全锦赛上就有3分42秒84的惊人表现,800自和1500自也都游出了非常好的成绩。但在世锦赛舞台上,初战世界大赛的18岁霍顿有些

滴滴司机孔某资料照片遭扒 孔某直播空姐视频观看 [非常娱乐]

滴滴司机孔某资料照片遭扒 孔某直播空姐视频观看 [非常娱乐]昨天,有网友爆料称,滴滴司机孔某刻意于深夜在机场附近接空姐订单,在未告知乘客的情况下,诱导乘客暴露个人隐私,将双方对话在某直播平台上直播。孔某承

李旺个人资料家庭背景 河南小伙摩托返乡被烧死 [非常娱乐]

李旺个人资料家庭背景 河南小伙摩托返乡被烧死 [非常娱乐]距离事发已过去6天,李家人还在焦急地寻找目击者的线索。8月1日凌晨5时许,18岁的河南小伙李旺驾驶一辆摩托车在河南省道227线一处路段发生事故。看到李旺的

站长推荐: