TensorFlow释出资料验证函式库TFDV,进行大规模资料分析与验证
2018-09-11 19:17:14 | 来源:ithome | 投稿:梁子 | 编辑:dations

原标题:TensorFlow释出资料验证函式库TFDV,进行大规模资料分析与验证

TensorFlow现在释出TensorFlow资料验证(TensorFlow△Data△Validation,TFDV)工具,来帮助开发人员大规模理解、验证以及监控机器学习的资料。

TensorFlow产品经理Clemens△Mewald提到,学术界和业界都非常关注机器学习的演算法和效能,但是资料是其中最根本的要素,一旦资料错误,计算相关的最佳化工作都将前功尽弃,因此资料整理是一件重要的工作,以资料理解以及验证来确保资料的正确性以及可用性。少量的资料可用人工的方式进行整理,但是在实务上,以人工进行资料验证,就有点不切实际,因为资料通常以连续且大量形式抵达,所以有必要使用自动化和可扩展的资料分析、验证以及监控方法。

而TensorFlow释出的资料验证TFDV是TFX(TensorFlow△Extended)平台的一部分,是Google每天用来分析和验证PB级资料的技术,在快取中就能有效发现错误资料,将能帮助TFX使用者维护机器学习工作管线的健康运作。TFDV可以用在笔记型电脑以及产品环境的资料验证,Clemens△Mewald表示,在设计TFDV初期,他们就决定让TFDV也能在笔记型电脑环境中运作,因为让资料科学家和工程师,越早可以在工作流程使用TFDV越好,即便他们仅使用一小部分的资料进行研究,仍然要确保他们可以检查并验证使用的资料,除了避免错误发生外,也让后续迁移至大规模部署的工作变得简单。

TFDV基础建立在一个强大的函式库之上,能用来计算机器学习资料的描述性统计资料,这些统计资料将有助于开发人员了解他们的资料。而TFDV△API目的在让连接器可以使用不同的资料格式,并提供足够的灵活性与扩展性。TFDV使用Apache△Beam来定义和处理其资料工作管线,所以现有的Beam△IO连接器以及使用者定义的PTransforms,可被用来处理不同的格式和资料表示法。

TFDV△API除了提供由TFDV计算的标准统计资料外,只要该运算可以表示为Apache△Beam转换形式,TFDV△API就能进行自定义统计资料计算,这些自定义统计资料在同样的statistics.proto序列化,还可供下游函式库使用。在笔记型电脑上,TFDV创建的Apache△Beam工作管线,使用DirectRunner执行,而同样的工作管线也可与其他Runner像是GCP上的DataflowRunner一并发布。Google还提到,Apache△Flink和Apache△Beam社交也将完成Flink△Runner,未来也可以用来执行TFDV创建的Apache△Beam工作管线。

在正式的产品环境中使用TFDV,也是使用和笔记型电脑相同的函式库,进行大规模资料分析和验证,只是有其特殊的使用案例,包括验证连续到达的资料以及检测训练与服务间的偏差。现在官方已经在GitHub上开源TFDV,其中包括了笔记型电脑环境的范例程式码。另外,官方也提供了端到端范例,展示了TFDV与TensorFlow△Transform、TensorFlow△Estimators、TensorFlow△Model△Analysis和TensorFlow△Serving一起使用的方法。

tags:

上一篇  下一篇

相关:

Android装置的无线广播暴露敏感资料,但Google只针对最新版作业系统修补

图片来源: Nightwatch△Cybersecurity博客 对于行动装置而言,无线网络的通讯,是连上网络最为普遍的方式之一,然而,连线过程所传递的附加资讯,却可能让有心人士能够更容易锁定下手目标,造成使用者的装置暴露在危

Skydio释出自驾空拍机Skydio R1的SDK

Skydio△R1可自行飞行,躲避环境障碍,追踪拍摄使用者。 图片来源: Skydio 新创业者Skydio继于今年2月发表自驾空拍机Skydio△R1之后,于上周释出了Skydio△R1的软件开发套件(SDK),鼓励第三方开发人员打造Skydio

中国法院承认区块链资料的证据效力

图片来源: 中国最高人民法院 中国最高人民法院上周表示,区块链的资料具有证据的效力。中国最高人民法院审判委员会本月初通过、上周实施的《最高人民法院关于互联网法院审理案件若干问题的规定》中处理了多项议题,其

被揭发背后把资料传送到中国 Apple 下架广告软件侦测工具 | 香港 UNWIRE.HK 玩生活.乐科技

MacOS 的 App Store 由 Apple 管理,与 iOS 一样有着审查机制,不过看来这个机制也有漏网之鱼。最近 Apple 就下架了一款广告软件工具,原因是这个工具原来背后会向中国的伺服器发送用家数据。这个名为 Adware Doctor

脸书将斥资14亿美元于新加坡兴建首个亚洲资料中心

图片来源: 脸书 脸书(Facebook)于周四(9/6)宣布,将斥资逾14亿美元于新加坡兴建该公司在亚洲地区的第一个资料中心,以便支援日益成长的亚洲业务。为了服务逾22亿名散布在全球的脸书用户,迄今脸书已兴建了11个资

站长推荐: