订阅成功
扫码关注智东西Plus
接受订阅信息更新提醒
谷歌开源新算法 语音区分准确率92%

11月13日消息,据外媒报道,谷歌AI研究人员在最新名为《Fully Supervised Speaker Diarization》的论文和相关博客文章中,描述了一种新的AI系统,该系统能够将声音区分的准确率提高至92%。据称,该系统核心算法已经可在Github上的开源软件中可用,它实现了一个在线二值化错误率(DER),在NIST SRE 2000 CALLHOME基准上是7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法DER为8.8%。

订阅
订阅谷歌最新消息
相关快讯
  • 05月20日 09:14
    路透:谷歌暂停与华为的部分业务往来

    5月20日早间消息,据路透社报道称,谷歌已经暂停了与华为的部分业务往来。路透社称,谷歌将不再与华为开展需要转让硬件和软件产品的业务,但在开源授权范围内的除外。谷歌还将停止就安卓和谷歌服务为华为提供技术支持和协作。路透社称,华为在海外的下一版智能手机将无法访问流行的应用程序和服务,包括Google Play商店和Gmail应用程序。

    来源:智东西
  • 05月17日 11:12
    谷歌团队公布新算法MixMatch相关代码

    5月17日消息,来自谷歌的研究团队在GitHub公布了该团队日前发布的半监督学习新算法MixMatch的相关代码。该项研究由Ian Gooffellow在离开谷歌研究所前与同事合作完成,他们统一了当前用于半监督学习的主要方法从而生成了新的算法MixMatch。该算法通过猜测数据增强未标记示例的低熵标签并使用 MixUp 混合标记和未标记数据来工作,并在许多数据集以及标记数据上都具有很大的优势。

    来源:智东西
  • 05月16日 12:24
    谷歌新研究项目可直接用音频进行翻译

    5月16日消息,谷歌今日公布的一项新研究项目不再需要中间文本,只使用音频,便可以直接将一种语言翻译成另一种目标语言。这也使得采用一种语言的口语句子,并在另一种语言中输出口语,但与大多数翻译技术不同,它不使用中间文本,只使用音频。这也使得翻译过程快,但更重要的是让它更容易反映出说话人的声音节奏和音调。该项目名为Translatotron,尽管其目前仍然只是一个大型实验,但谷歌研究人员一直在研究语音直接到语音翻译的可能性,直到最近才有突破。

    翻译语音通常是通过将问题分解为较小的连续语音来完成的:将源语音转换为文本(语音到文本或STT),将一种语言的文本转换为另一种语言的文本(机器翻译),然后转换结果文本并回到语音(文本到语音,或TTS)。但这一过程并不完美,每一步转换都有易于发生的错误类型,而且错误之间还可能相互复合。

    来源:机器之心
  • 05月10日 10:47
    谷歌推表格数据端到端AutoML解决方案

    5月10日消息,谷歌AutoML近日将一种基于机器学习的方法应用于表格数据,创建了一个可扩展的端到端AutoML解决方案。该解决方案满足完全自动化,广泛覆盖以及高品质三个关键标准。用户只需输入数据和计算资源就可获得可维护的TensorFlow模型。整个过程不需要人为干预。据了解,该解决方案适用于表格数据域中的大多数任务。据称,AutoML所生成的模型质量堪比顶级机器学习专家手动制作的模型。

    来源:智东西
  • 05月09日 21:06
    谷歌员工推垃圾收集加速器 功耗降15%

    5月9日消息,近日,谷歌员工Martin Maas在IEEE Micro发表了一篇论文,描述了其设计的一种加速器单元,帮助CPU完成垃圾收集任务,预计可将功耗减小15%。除正常运行工作外,CPU还必须执行一些称为“垃圾收集”的任务,即从应用程序中识别和删除冗余或无关的数据,以释放额外的内存空间,这消耗了计算机大量的计算能力。

    垃圾收集消耗了CPU花在应用程序上的总时间的10%甚至更多。当Martin Maas将加速器与小型CPU核心进行比较时,他们发现,根据每个设备各自的尺寸,他们的加速器性能提高了18倍,能够将CPU从垃圾收集任务中分离出来,减轻计算机的运算负担。

    来源:智东西
  • 05月09日 11:52
    谷歌公布大型图像数据集Image V5

    5月9日消息,谷歌在其AI博客公布大型图像数据集Image V5并宣布将于ICCV 2019开展开放图像挑战赛。据了解,Image V5建立在谷歌2016年推出的涵盖9百万张标注图片的图像数据集Open Image基础之上,新数据集涵盖了350个类别中280万个对象实例的分段掩码。与仅识别对象所在区域的边界框不同,分割掩模不仅标记对象的轮廓,还将其空间范围表征为更高级别的细节。在宣布该数据集的同时,谷歌也宣布将在ICCV 2019开展第二届开放图片挑战赛,此挑战将基于上述数据来创建新的实例分段轨道,与上一届挑战赛相同,本届挑战赛也将具有大型物体检测轨道以及用于检测特定关系中的物体对的视觉关系检测轨迹。

    来源:智东西
  • 05月08日 06:52
    谷歌I/O大会昨夜召开 抛出8大AI更新

    5月8日报道,今日凌晨(美国时间5月7日上午),第11届Google I/O 2019开发者大会如期而至。在本届大会,谷歌的两大硬件阵容Pixel、Nest组团更新,另外,谷歌带来了最新的安卓系统Android Q,AI更是本次大会上当之无愧的主角 。

    其推出了新一代Google Assistant,将其语音识别模式从数百GB减少到半千兆字节,使其小到足以适合手机;推出Live Caption功能,为手机上的音频或视频实时自动生成字幕,还可以实时转录电话;公布Euphonia项目,研究如何改进其AI语音算法,帮助有语言障碍的患者进行高效沟通等。

    来源:智东西
  • 05月07日 15:17
    谷歌I/O大会召开在即 将发系列新品

    5月7日消息,据国外媒体报道称,2019年度谷歌I/O开发者大会即将加州海岸线圆形剧场(ShorelineAmphitheater)举行。该大会将于当地时间本周二开幕,为期三天。届时,包括谷歌CEO桑达尔·皮查伊(Sundar Pichai)在内的公司高管都将登台发表演讲,并发布一系列新品。外媒认为,全新智能手机、手机操作系统以及宣布更多有关进军游戏领域的消息将成为今年谷歌I/O开发者大会的焦点。

    来源:腾讯科技
  • 05月05日 11:17
    谷歌开放地标识别系统Landmarks-v2

    5月5日消息,日前,谷歌开放了地标识别系统Landmarks-v2,较此前最大的地标识别系统Landmarks而言,该系统包含了两倍的照片和7倍的地标识别数据。据称,Landmarks-v2包含超过500万张来自世界各地摄影师拍摄的20多万个不同地标的照片。此外,谷歌还在其机器学习社区Kaggle发起了两项新挑战(2019年地标识别赛和2019年地标检索赛) ,并发布了用于区域图像检索的框架源代码和模型。两项比赛现金奖励总额均为5万美元。

    来源:智东西
  • 05月04日 23:58
    谷歌2019开发者大会将在本周开幕

    5月4日消息,谷歌公司的年度I/O开发者大会将在美国当地时间5月7日开幕,谷歌CEO桑达尔·皮查伊(Sundar Pichai)和其他高管将进行主题演讲。

    谷歌将在主题演讲环节概述接下来一年为Android、谷歌助理(Google Assistant)以及其他众多应用和服务推出的大量功能和改进。值得注意的是,今年谷歌极有可能会在主题演讲中发布两款新Pixel智能机,其中一款可能为低配机型。此外,谷歌还会在这个主题演讲过程中公布大量AI改进、机器学习甚至出色的搜索技术。

    来源:IT之家
加载更多 ···