微软AI大会：人工智能可“眼观六路，耳听八方”

智东西（公众号：zhidxcom）
文|Rinchy

5月21日，微软在中国召开首届人工智能大会，上午的大会主要介绍了微软与中国有关的技术进展、企业合作和产品落地方面的信息。下午则以分会场的形式，具体在视觉和语音两个方面的应用上，作以介绍。

视觉，指的是图片识别。在应用层面，主要围绕的是对图片中的物体进行分类和物体检测。语音，指的是翻译和与人工智能的对话。从论坛中的演讲来看，微软对图片识别技术的发展，使得图片中的细节更多的被识别；语音识别则使得我们可以从与Bot的对话中获得更多信息，并且通过语音翻译不用学外语，也可出游各国，与外国友人对话无障碍。

论坛中，微软在大中华区的研究员们分别阐述了图片识别在企业工作环境及员工安全的维护、视频网站的运营和车损鉴定方面的应用，还有语音识别在人工智能对话，以及语音翻译两个领域的具体运用。

一、图像识别，解读图片中的各种细节

视觉方面，微软大中华区创新合作事业部的技术顾问分享了基于机器学习和深度学习的计算机视觉在行业中的应用经验。

微软在视觉方面的研究并不是近两年才开始的，早在2010年，他们就开展了图片识别的工作。工作主要从两方面展开：一是图片的分类；二是物体检测。基于这个层面，再开始研究物体和图像该如何进行分割。

微软AI大会：人工智能可“眼观六路，耳听八方”

目前为止，他们研发出的图片识别的应用模式有六种，分别为：Computer Vision API；Face API；Bing Visual Search；Content Moderator；Customer Vision Service；Video Indexer。

他们详细介绍了其中两种应用模式的落地场景：在Computer Vision Service模式中，可以对图片进行多种语言的更详细的描述。通过这个服务，对海量的图片进行标签和分类，并且为每张图片自动取名字，也可以对视频进行分类。视频网站也能使用这个技术，自动对视频进行解读，生成弹幕，作为推广视频的一种方式，增强视频的热度，促发观众们也加入评论中，增加观众的粘度。

在Custom Vision Service模式中，他们提升了对物体的检测功能，现在能够对图片中更丰富的物体种类进行识别。

在展示的Demo中，他们在自己的网站中进行示范。在这个网站中上传图片，内嵌的图片识别程序便可以马上识别出图中的物体。当鼠标移动到物体上时，会出现自动识别分类好的标签。之后上传的图片中如果还有相同标签的物体，程序会自动将它们进行对比，并检测。这款应用可以在建筑工地或者车间里应用，在这些场景里安上摄像头，并在摄像头中内嵌这套程序，可以通过摄像头拍照后开始图片识别，发现有哪些员工的安全帽没有带好，立马去提醒他们带好安全帽，保障工作的安全。

这个方面的应用相较而言，十分广泛。工作人员基于九十张车祸后受损的汽车的图片，就训练出一款能够从图片中自动检测车损的程序。通过图片识别，图片中车辆的受损部件的名称和受损程度自动呈现出来。

微软AI大会：人工智能可“眼观六路，耳听八方”

日本的一个停车场还将这个程序用于检测停车场中的异常情况，比如零件生锈、电开关未关及保险是否安全等，以便及时进行维护；通过The Vision AI deverloper Kit，他们还把训练好的模型安装到智能家居上进行应用。

二、语音识别，使交流不再变得无奈

在语音识别方面，应用分为Bot Service和语音翻译。Bot Service中有两个典型的应用软件，一个是Dynamics365,另一个是Office 365。

Dynaimic365主要应用在商务领域中，比如在客服对话中，通过机器学习，训练出固定模型的对话，可以让智能化的客服与客户进行对话的场景中。

微软AI大会：人工智能可“眼观六路，耳听八方”

Office365中的应用则偏于个人层面，使用者可以通过在微信、Skype等社交平台中插入这种程序，便能实现与Bot的对话。比如，当你在企业微信中运行这款程序，当问到Bot你今天的工作任务时，它便会自动分析你的企业微信中的所有聊天记录，将你今天的工作任务进行汇总并发送给你；当把它加入到群聊中，当你所设定的语言与群里其他人的语言不同时，Bot会自动将语言翻译为对方的语言模式。

语音翻译的应用场景则更为广泛，目前，已经在八个领域内落地发展。分别为：社交与游戏；客服；实时远程对话；电子商务；商业数据分析；跨国多语言交流；阅读；同声翻译。

微软AI大会：人工智能可“眼观六路，耳听八方”