語音作為人機交互的重要方式,要能夠形成一個閉環
——信息搜索,服務獲取,任務達成。
賀文/文
除了調侃解悶,語音作為人與智能設備的交互方式之一,現在能做什麼?
思必馳創始人、CEO高始興拿起手機,沒有直接解鎖屏幕,而是按下一個語音鍵說,“給浩然發短信”,一秒鐘左右,手機裡傳來溫柔女聲“短信内容寫什麼”,“告訴他我已經到北京了,明天會到深圳,我們見個面,幫我訂機票”。
原本我們發短信或者打電話,都得先解屏手機,再點擊“短信”或撥号,數個步驟後才能完成,而思必馳提供的這個針對智能硬件的解屏語音産品,即便設備沒有可觸摸的屏,發短信/打電話也相當便捷。
“你再想想,未來搜索會怎麼‘搜’?”高始興很有興趣采訪先從這個話題開始。在他看來,會影響到未來搜索的主要因素有幾個:
一是整個硬件時代的疊代,從PC互聯網到智能手機移動互聯網,再到智能硬件的物聯網,硬件端已經發生了翻天覆地的變化;相應地,人機交互的媒介也變化巨大,從鍵盤、鼠标,到觸屏,再到語音、手勢、虹膜等;在這樣的大背景下,未來用戶的搜索會越發的場景化,搜索的目的從傳統的信息查詢,轉變為服務的獲取、任務的完成。
思必馳希望能夠實現的是,語音作為人機交互的重要方式,要能夠形成一個閉環——信息搜索,服務獲取,任務達成。
裝上“大腦”
高始興相信,搜索再往下走,特别在智能硬件端、在物聯網上,語音交互一定是核心人機交互手段之一。“語音是唯一能傳遞複雜信息的交互手段,人臉、虹膜、手勢,現在來看還隻能夠作為身份驗證,或者做一個簡單的搜索,要輸入複雜的信息一定是通過語音。”
在感知智能時代,語音交互更多的是簡單的語音識别,加自然語言理解,能夠實現簡單的搜索和控制;在認知智能時代,人機交互時機器更懂用戶,懂用戶的曆史、懂用戶的上下文,而且機器聽不懂可以去問,允許用戶打斷,允許用戶糾正,機器既有耳朵又有嘴巴更有大腦。這些是在感知智能時代做不到的。高始興和思必馳團隊認為,在垂直領域裡面,機器的認知智能應該能做到,聽不懂會問、知道怎麼問、問什麼,核心目的是幫用戶快速地完成任務,這是人機對話的下一個階段,也是思必馳要做到的事情。
高始興介紹,思必馳現在主要做兩款産品:一是AIOS(AISpeechOperatingSystem)人機對話的智能操作系統,把思必馳全面的語音技術整合到操作系統裡,把人機對話邏輯整合進去,把後端服務比如高德導航、音樂、天氣、聊天等服務整合進去,基于現在主流的操作系統,開發者(智能硬件方向上的合作夥伴)基于思必馳AIOS的标準化接口再做相應開發,讓智能硬件産品能說會道,擁有了人機交互的能力;
一是核心硬件模組的研發,比如智能芯片、麥克風陣列,這樣能配合思必馳的AIOS軟件,因為有些場景裡的語音交互需要硬件的配合,才能讓交互的體驗、交互的效率更好。比如聲源定位,就需要環形麥克風陣列這樣的硬件支持。
去年10月,蘋果收購了一家英國軟件創業公司VocalIQ,加強Siri語音助手服務。高始興稱其為“全球做人機對話最棒的公司”。而該創業公司的創始人之一俞凱,就是高始興創業思必馳的搭檔。
“蘋果為什麼要收購它,為了加強對話。未來通過語音和智能硬件物聯網之間進行人機交互的體驗,就應該像在智能手機上一樣。”高始興說,不恰當地把智能硬件物聯網的爆發類比做智能手機,手機在功能機時隻是通信的工具,打電話發短信,交互非常難,但是在智能機時代,觸摸交互非常爽,在智能手機上可以聽音樂看視頻可以購物,能夠承載豐富的場景,更多的服務涉及到生活的方方面面,“人機能夠對話起來,是實現這種美妙體驗的第一步”。