人工智能正走進日常生活

  人工智能獲得廣泛關注,多國將其上升到國家戰略。專業從事智能語音及語言技術研究、軟件及芯片產品開發、語音信息服務及電子政務系統集成的科大訊飛公司認為,從語音入手是突破人工智能認知智能的一個切入點。在近期召開的科大訊飛2015年年度發布會上,訊飛發佈人工智能用戶交互頁面AIUI,與開發者共享智能能力,以及實時語音自動轉寫文字產品——訊飛聽見。

人工智能不斷突破

  “深度學習”的進展,以及大數據的積累,帶來了人工智能的突破。 1956年人工智能的概念第一次被提出,引起計算機、數學的專家以及產業界的熱議,但是由於算法、計算能力的製約,在之後經歷了兩次低潮。直至2006年“深度學習”的概念被首次提出,並且證明了人工智能可以進行深度神經網絡學習。通過深度學習,結合互聯網、移動互聯網時代產生的大數據,人工智能已經在語音、視覺領域取得突破進展。人工智能將會像水電煤一樣,成為當代人類日常生活的重要組成部分。

人工智能獲得廣泛關注,凱文•凱利認為未來20年最重要的技術就是人工智能,霍金認為接下來100年人類將被取而代之,孫正義提出了孫正義公式:未來決定一個國家GDP排名的高低取決於這個國家國際機器人的數量以及智能化的程度。與此同時,多國將人工智能提升到國家戰略,美國提出大腦活動圖譜計劃,歐盟在進行人類大腦項目,而中國也在啟動中國腦計劃。

  人工智能包括三個層面:1)運算智能,目前已經超越人類,如1997年計算機下象棋超越人類象棋大師。 2)感知智能,包括聽說以及辨別,機器在聽覺、視覺的範圍超絕人類,包括可見光、紅外、紫外、超聲波以及次聲波等等。語音合成、識別能力也已達到人類水平。 3)認知智能,是區分人與動物的本質區別,包括對事物的理解以及思考的能力,而認知智能最核心的能力是人機交互、知識管理及推理學習,從聽說入手,深入到理解、思考,再延伸到推理學習的過程,是人工智能的最核心要素。

  科大訊飛認為,從語音識別入手,是突破人工智能認知智能的一個切入點。從人類發展的歷史可以看出,語言的出現帶來了認知革命,人類通過語言反饋環境信息、社會信息,進而帶來虛構概念,帶來組織、主意以及思想。以語音為入口實現認知智能,需要建立在自然的人機交互基礎上,並且對獲取的知識進行結構化處理。

這涵蓋兩方面內容:一是自然的人機語音交互,包括遠距離語音降噪處理、方言識別等技術,以及多輪交互的能力,如主動提問、接受插話打斷、擁有背景知識長時記憶、上下文理解、自動糾錯等;二是通過人機交互,以語音為入口,機器獲取了海量知識,但是需要快速、準確地將語音轉換為文字,便於結構化分析及處理。語音自動轉換文字需要克服混響、噪音等技術難點,並且基於口語化建模、篇章語義理解,實現知識的快速整理,以進一步進行推理、學習的訓練。

科大訊飛探索認知計算的突破

訊飛超腦於2014年8月提出,涵蓋三方面:一是提出漣漪效應,將互聯網思維引入認知領域的研究,通過引入用戶使用的數據對機器進行後台訓練,以積累經驗及不斷提高用戶體驗;二是引入訊飛構型(FSMN模型),通過遞歸神經網絡,對深度神經網絡在短時記憶處理的薄弱處進行改進,將前一時刻的信息輸入到當前時刻以提高記憶能力。同時新模型在縮短系統響應時間的能力提升,進一步帶來了訓練效果的進步;三是提出CRDNN-HMM文檔識別處理系統,把捲積神經網絡、遞歸神經網絡統一在一起,將圖片、文字分割、分析與處理集中起來,通過圖文任務的具體情況具體分析,以提升識別效果。

科大訊飛在訊飛超腦神經網絡技術的基礎上,發布三項內容,一是人工智能用戶交互頁面AIUI,與開發者共享智能能力;二是實時語音自動轉寫文字產品——訊飛聽見;三是全學科閱卷&智學網,提升老師教學效率。

  科大訊飛2015年度發布會全程通過訊飛聽見實時語音自動轉寫文字。訊飛聽見建立在處理混響、降噪方面的技術成果之上,並且通過對口語化建模、篇章理解、文本後處理(標點預測、內容梳理以及文本摘要),可以用於多場景轉寫,包括演講(即興發言、自由討論)、視頻字幕同步轉寫及匹配等,通過同步語音自動轉寫迅速整理、編輯內容,以便用戶及時獲取、分享相關內容。消費級產品包括錄音寶、錄音筆及訊飛聽見網。

  值得一提的是,訊飛超腦的另一大應用,是應用於教育產業當中。目前已有31個省市的8,000萬K12師生使用訊飛超腦支持的教學與考評產品,智學網與E聽說實現全學科閱卷,能很好地提高老師評卷效率,清楚了解學生知識盲點等,為個性化教學提供基礎。據介紹,機器閱卷技術已在2015年合肥、安慶中學會考上使用,並取得比人工閱卷更準確高效的結果。

(作者係交銀國際分析師)