Microsoft的Azure通过机器学习变得非常感性

2018-06-21 30

想象一下,如果你的房子周围的东西能够响应你的声音,即使你在烟雾报警器上大喊大叫,跟踪每一个在房子里游荡的人,仅仅通过识别你的声音就打开你的前门,甚至识别你的情绪。这些都是微软准备在牛津项目中增加的功能,牛津项目是去年5月在微软的构建会议上推出的一套基于云的机器学习服务。

Ars去年深入研究了牛津项目的第一波基于机器学习的服务。这些服务执行许多图像处理和识别任务,提供文本到语音和语音识别服务,甚至将自然语言转换为基于意图的应用命令。这些服务与Microsoft s Cortana个人助理和Skype翻译服务中使用的技术相同,Skype翻译服务实时翻译六种语言的语音呼叫(以及50种语言的短信)。周一,微软针对Movember Foundation 11月不刮胡子筹款活动推出了面部识别API升级版:一款能够识别小胡子和胡须生长并为其指定评级的面部毛发识别API (以及在面部发型师的脸上添加小胡子贴纸)。

新浪潮建立在与这些基于Web请求的RESTful界面相同的方法上,以添加额外的语音、文本和图像服务,包括一组将人工智能应用于处理视频内容的新服务。微软剑桥研究主管克里斯毕肖普今天在伦敦举行的微软未来解码会议上介绍了新界面,这是他主旨发言的一部分。微软技术与研究部高级项目经理瑞安·加尔贡周二晚间向Ars介绍了这些服务。新的宣传短片的详情亦已于今天上午在一篇博文中公布。它们包括:

情感识别:这种基于Azure的服务,今天作为一组新的公共测试服务的一部分提供,可以像牛津项目中的其他面部APIs一样处理图像。这项服务接受描绘不同人类情感的面部图像集的训练,可以对图像中可见的任何人的情感进行分类。该服务可用于将元数据应用于图像,以识别它们是由快乐还是悲伤的人组成,或者收集关于人们对特定事件、显示或营销消息的反应的数据。

拼写检查:一种基于Web API的拼写检查器,可以集成到任何移动或云应用程序中,不仅可以识别单词拼写错误,还可以识别大小写、上下文拼写错误以及文本中的其他问题。高刚说,因为它在云中,所以从来不需要更新,也可以跟随拼写或用法的变化,改进拼写建议。例如,直到最近,拼写检查人员才会发现 Lyft 是 lift '的拼写错误, Galgon解释说。牛津拼写检查服务项目可以根据上下文确定拼写是否正确,并适当地将Lyft大写。

视频处理:基于为微软的高延时视频处理工具开发的技术,新的牛津视频API项目将在年底前在beta中推出。它可以处理视频块以识别视频中的独特面部并跟踪它们。它还可以检测视频本身中的人或物体的移动。使用这些检测功能,服务背后的机器学习算法可以根据一组参数编辑视频,包括对视频剪辑执行图像稳定以消除相机过度移动,Galgon为Ars演示了这一点。

说话人识别:牛津项目已经相当熟练地将语音转换为文本,但是新的说话人识别功能(今年年底也在beta中)将允许应用程序对谁说话进行身份检查。高刚说,这种说话人识别并不是为了取代更强大的认证工具。但他说,它可以用来检测谁在使用应用程序,并强制执行额外的身份验证措施。对于安全性要求较低的应用程序,它可以用于识别用户,例如识别在电话会议上或在演示或视频的隐藏式字幕中发言的人。

自定义识别智能服务( CRIS ) :目前在私有测试版中提供的一种工具,CRIS允许开发人员为要求更高的应用程序构建语音识别服务,无论这些应用程序是在哪里使用的,还是由谁使用的。高更说,举例来说,一项基于CRIS的服务可能会被用来处理体育场大厅中一个亭子的语音识别,那里有一个巨大的混凝土墙空间的回声和背景编号欢呼的粉丝等的ise可能会使标准的语音到文本引擎变得困难。向Ars演示的另一个示例应用程序是在课堂环境中识别一个5岁儿童的语音,并将其正确转换为无错误的文本。

除了面部毛发功能,微软还对牛津面部APIs项目进行了额外的调整。性别和年龄检测能力得到提高,微软还在面部图像应用程序界面中添加了微笑预测工具。

Ars将对最新的牛津项目功能进行更完整的深入研究。

Microsoft

列出图像