巨靈鳥

    電話   4000156919
    當前位置:首頁 > 網絡和服務器管理_ERP百科

    語音識別技術簡史(三)

    來源:巨靈鳥軟件  作者:進銷存軟件  發布:2017/5/11  瀏覽次數:4792

    語音識別的產業歷程
    語音識別這半個多世紀的產業歷程中,其中共有三個關鍵節點,兩個和技術有關,一個和應用有關。第一個關鍵節點是 1988 年的一篇博士論文,開發了第一個基于隱馬爾科夫模型(HMM)的語音識別系統—— Sphinx,當時實現這一系統的正是現在的著名投資人李開復。

    從 1986 年到 2010 年,雖然混合高斯模型效果得到持續改善,而被應用到語音識別中,并且確實提升了語音識別的效果,但實際上語音識別已經遭遇了技術天花板,識別的準確率很難超過 90%。很多人可能還記得,在 1998 年前后 IBM、微軟都曾經推出和語音識別相關的軟件,但最終并未取得成功。

    第二個關鍵節點是 2009 年深度學習被系統應用到語音識別領域中。這導致識別的精度再次大幅提升,最終突破 90%,并且在標準環境下逼近 98%。有意思的是,盡管技術取得了突破,也涌現出了一些與此相關的產品,比如 Siri、Google Assistant 等,但與其引起的關注度相比,這些產品實際取得的成績則要遜色得多。Siri 剛一面世的時候,時任 Google CEO 的施密特就高呼,這會對 Google 的搜索業務產生根本性威脅,但事實上直到 Amazon Echo 的面世,這種根本性威脅才真的有了具體的載體。

    第三個關鍵點正是 Amazon Echo 的出現,純粹從語音識別和自然語言理解的技術乃至功能的視角看這款產品,相對于 Siri 等并未有什么本質性改變,核心變化只是把近場語音交互變成了遠場語音交互。Echo 正式面世于2015年6月,到 2017 年銷量已經超過千萬,同時在 Echo 上扮演類似 Siri 角色的 Alexa 漸成生態,其后臺的第三方技能已經突破 10000 項。借助落地時從近場到遠場的突破,亞馬遜一舉從這個賽道的落后者變為行業領導者。

    但自從遠場語音技術規模落地以后,語音識別領域的產業競爭已經開始從研發轉為應用。研發比的是標準環境下純粹的算法誰更有優勢,而應用比較的是在真實場景下誰的技術更能產生優異的用戶體驗,而一旦比拼真實場景下的體驗,語音識別便失去獨立存在的價值,更多作為產品體驗的一個環節而存在。

    所以到 2019 年,語音識別似乎進入了一個相對平靜期,全球產業界的主要參與者們,包括亞馬遜、谷歌、微軟、蘋果、百度、科大訊飛、阿里、騰訊、云知聲、思必馳、聲智等公司,在一路狂奔過后紛紛開始反思自己的定位和下一步的打法。

    語音賽道里的標志產品——智能音箱,以一種大躍進的姿態出現在大眾面前。2016 年以前,智能音箱玩家們對這款產品的認識還都停留在:亞馬遜出了一款叫 Echo 的產品,功能和 Siri 類似。先行者科大訊飛叮咚音箱的出師不利,更是加重了其它人的觀望心態。真正讓眾多玩家從觀望轉為積極參與的轉折點是逐步曝光的 Echo 銷量,2016 年底,Echo 近千萬的美國銷量讓整個世界震驚。這是智能設備從未達到過的高點,在 Echo 以前除了 Apple Watch 與手環,像恒溫器、攝像頭這樣的產品突破百萬銷量已是驚人表現。這種銷量以及智能音箱的 AI 屬性促使 2016 年下半年,國內各大巨頭幾乎是同時轉變態度,積極打造自己的智能音箱。

    未來,回看整個發展歷程,2019 年是一個明確的分界點。在此之前,全行業是突飛猛進,但 2019 年之后則開始進入對細節領域滲透和打磨的階段,人們關注的焦點也不再是單純的技術指標,而是回歸到體驗,回歸到一種“新的交互方式到底能給我們帶來什么價值”這樣更為一般的、純粹的商業視角。技術到產品再到是否需要與具體的形象進行交互結合,比如人物形象;流程自動化是否要與語音結合;酒店場景應該如何使用這種技術來提升體驗,諸如此類最終都會一一呈現在從業者面前。而此時行業的主角也會從原來的產品方過渡到平臺提供方,AIoT 縱深過大,沒有任何一個公司可以全線打造所有的產品。

    語音識別的產業趨勢
    當語音產業需求四處開花的同時,行業的發展速度反過來會受限于平臺服務商的供給能力。跳出具體案例來看,行業下一步發展的本質邏輯是:在具體每個點的投入產出是否達到一個普遍接受的界限。

    離這個界限越近,行業就越會接近滾雪球式發展的臨界點,否則整體增速就會相對平緩。不管是家居、酒店、金融、教育或者其他場景,如果解決問題都是非常高投入并且長周期的事情,那對此承擔成本的一方就會猶豫,這相當于試錯成本過高。如果投入后,沒有可感知的新體驗或者銷量促進,那對此承擔成本的一方也會猶豫,顯然這會影響值不值得上的判斷。而這兩個事情,歸根結底都必須由平臺方解決,產品方或者解決方案方對此無能為力,這是由智能語音交互的基礎技術特征所決定。

    從核心技術來看,整個語音交互鏈條有五項單點技術:喚醒、麥克風陣列、語音識別、自然語言處理、語音合成,其它技術點比如聲紋識別、哭聲檢測等數十項技術通用性略弱,但分別出現在不同的場景下,并會在特定場景下成為關鍵。看起來關聯的技術已經相對龐雜,但切換到商業視角我們就會發現,找到這些技術距離打造一款體驗上佳的產品仍然有絕大距離。

    所有語音交互產品都是端到端打通的產品,如果每家廠商都從這些基礎技術來打造產品,那就每家都要建立自己云服務穩定,確保響應速度,適配自己所選擇的硬件平臺,逐項整合具體的內容(比如音樂、有聲讀物)。這從產品方或者解決方案商的視角來看是不可接受的。這時候就會催生相應的平臺服務商,它要同時解決技術、內容接入和工程細節等問題,最終達成試錯成本低、體驗卻足夠好的目標。

    平臺服務并不需要閉門造車,平臺服務的前提是要有能屏蔽產品差異的操作系統,這是 AI+IOT 的特征,也是有所參照的,亞馬遜過去近 10 年里是同步著手做兩件事:一個是持續推出面向終端用戶的產品,比如 Echo,Echo Show等;一個是把所有產品所內置的系統 Alexa 進行平臺化,面向設備端和技能端同步開放SDK和調試發布平臺。雖然 Google Assistant 號稱單點技術更為領先,但從各方面的結果來看 Alexa 是當之無愧的最為領先的系統平臺,可惜的是 Alexa 并不支持中文以及相應的后臺服務。

    國內則缺乏亞馬遜這種統治力的系統平臺提供商,當前的平臺提供商分為兩個陣營:一類是以百度、阿里、訊飛、小米、騰訊為代表的傳統互聯網或者上市公司;一類是以聲智等為代表的新興人工智能公司。新興的人工智能公司相比傳統公司產品和服務上的歷史包袱更輕,因此在平臺服務上反倒是可以主推一些更為面向未來、有特色的基礎服務,比如兼容性方面新興公司做的會更加徹底,這種兼容性對于一套產品同時覆蓋國內國外市場是相當有利的。

    類比過去的 Android,語音交互的平臺提供商們其實面臨更大的挑戰,發展過程可能會更加的曲折。過去經常被提到的操作系統的概念在智能語音交互背景下事實上正被賦予新的內涵,它日益被分成兩個不同但必須緊密結合的部分。

    過去的 Linux 以及各種變種承擔的是功能型操作系統的角色,而以 Alexa 為代表的新型系統則承擔的則是智能型系統的角色。前者完成完整的硬件和資源的抽象和管理,后者則讓這些硬件以及資源得到具體的應用,兩者相結合才能輸出最終用戶可感知的體驗。功能型操作系統和智能型操作系統注定是一種一對多的關系,不同的 AIoT 硬件產品在傳感器(深度攝像頭、雷達等)、顯示器上(有屏、無屏、小屏、大屏等)具有巨大差異,這會導致功能型系統的持續分化(可以和 Linux 的分化相對應)。這反過來也就意味著一套智能型系統,必須同時解決與功能型系統的適配以及對不同后端內容以及場景進行支撐的雙重責任。

    這兩邊在操作上,屬性具有巨大差異。解決前者需要參與到傳統的產品生產制造鏈條中去,而解決后者則更像應用商店的開發者。這里面蘊含著巨大的挑戰和機遇。在過去功能型操作系統的打造過程中,國內的程序員們更多的是使用者的角色,但智能型操作系統雖然也可以參照其他,但這次必須自己來從頭打造完整的系統。(國外巨頭不管在中文相關的技術上還是內容整合上事實上都非常薄弱,不存在侵略國內市場的可能性)

    隨著平臺服務商兩邊的問題解決的越來越好,基礎的計算模式則會逐漸發生改變,人們的數據消費模式會與今天不同。個人的計算設備(當前主要是手機、筆記本、Pad)會根據不同場景進一步分化。比如在車上、家里、酒店、工作場景、路上、業務辦理等會根據地點和業務進行分化。但分化的同時背后的服務則是統一的,每個人可以自由的根據場景做設備的遷移,背后的服務雖然會針對不同的場景進行優化,但在個人偏好這樣的點上則是統一的。

    人與數字世界的接口,在現在越來越統一于具體的產品形態(比如手機),但隨著智能型系統的出現,這種統一則會越來越統一于系統本身。作為結果這會帶來數據化程度的持續加深,我們越來越接近一個百分百數據化的世界。

    總結
    從技術進展和產業發展來看,語音識別雖然還不能解決無限制場景、無限制人群的通用識別問題,但是已經能夠在各個真實場景中普遍應用并且得到規模驗證。更進一步的是,技術和產業之間形成了比較好的正向迭代效應,落地場景越多,得到的真實數據越多,挖掘的用戶需求也更準確,這幫助了語音識別技術快速進步,也基本滿足了產業需求,解決了很多實際問題,這也是語音識別相對其他 AI 技術最為明顯的優勢。

    不過,我們也要看到,語音識別的內涵必須不斷擴展,狹義語音識別必須走向廣義語音識別,致力于讓機器聽懂人類語言,這才能將語音識別研究帶到更高維度。我們相信,多技術、多學科、多傳感的融合化將是未來人工智能發展的主流趨勢。在這種趨勢下,我們還有很多未來的問題需要探討,比如鍵盤、鼠標、觸摸屏和語音交互的關系怎么變化?搜索、電商、社交是否再次重構?硬件是否逆襲變得比軟件更加重要?產業鏈中的傳感、芯片、操作系統、產品和內容廠商之間的關系又該如何變化?

    本文得到眾多語音識別領域專家的指導,并引用了一些參考資料的配圖,在此表示感謝,本文中的不足之處還請批評指正。

    來源:巨靈鳥 歡迎分享本文

    • 點擊這里給我發消息
    • 點擊這里給我發消息
    主站蜘蛛池模板: 日本成人一区二区| 久久精品视频一区二区三区| 亚洲国产一区二区视频网站| 一区二区三区在线播放| 亚洲AV无码一区二区三区国产| 国产精品一区二区三区99| 中文字幕精品亚洲无线码一区| 色欲精品国产一区二区三区AV | 日韩精品人妻一区二区三区四区 | 麻豆视传媒一区二区三区| 国产成人精品久久一区二区三区av| 久久福利一区二区| 91精品福利一区二区| 免费无码一区二区| 亚洲av午夜福利精品一区人妖| 中文字幕在线不卡一区二区| 丰满岳妇乱一区二区三区| 秋霞午夜一区二区| 免费精品一区二区三区在线观看| 国产精品 一区 在线| 亚洲高清美女一区二区三区 | 精品国产不卡一区二区三区| 亚洲欧洲一区二区| 波多野结衣一区在线| 亚洲AV成人一区二区三区AV| 免费精品一区二区三区在线观看| 国产乱码精品一区二区三区中| 在线精品一区二区三区电影| 国产一区二区三区内射高清| 无码乱人伦一区二区亚洲| 精品国产福利在线观看一区| 国产婷婷色一区二区三区| 亚洲AV无码一区二区三区鸳鸯影院 | 国产综合一区二区| 日韩精品福利视频一区二区三区| 夜夜嗨AV一区二区三区| 国产精品久久久久一区二区 | 91一区二区三区| 一区二区免费视频| 国产在线精品一区二区在线观看| 青娱乐国产官网极品一区|