北京2020年9月2日 /美通社/ -- 在中國科學院語言聲學與內容理解重點實驗室,浪潮AGX-5支撐著數十項以音頻為核心的人工智能重大項目研究。相比原AI集群方案,AGX-5以強大的單機訓練性能,將人工智能模型的整體訓練速度提升了2-3倍。
語音是人類進行信息交互的一種重要方式,但對計算機或者機器人來說,理解語音并不是一件容易的事情。讓機器“能聽會說”是人工智能科學家期望實現的一大重要目標。如今很多語音技術已經走出實驗室,在現實中應用落地,如智能音箱、迎賓機器人、智能語音導航、語音輸入……讓人們的生產生活更加便利。這些成果離不開眾多科研機構的努力,其中就包括中國科學院語言聲學與內容理解重點實驗室(以下簡稱實驗室)。
該實驗室是我國語言聲學領域最大的國立研究機構。經過近20年發展,實驗室從最初的6人發展成為包含51名固定人員、總人數200余人的科研力量,被譽為“中國智能語音人才的搖籃”。
語言聲學研究改變中國
實驗室布局于音頻聽感知、語音識別和面向聲學應用的大數據分析等研究方向,全方位覆蓋了以音頻為核心的媒體內容理解研究內容。目前,實驗室承擔著多項國家級和國際合作研究項目,如中科院戰略性先導專項“面向感知中國的新一代信息技術”媒體內容項目、中日韓前瞻計劃A3項目“面向下一代互聯網的超臨場感聲通信應用研究”、自然科學基金杰青項目“面向語音處理的言語聲學數字化建模”、基金重大研究計劃重點支持項目“多人多方對話中的語音分離、內容分析與理解”、聲學所率先行動計劃項目“以音頻驅動的媒體深度理解關鍵技術研究“等等,科研任務十分繁重。
實驗室的研究項目對于社會生產、生活的發展有著十分重要的價值和意義。以語音聽覺感知研究方向為例,通過深入研究多種復雜因素對語音聽覺感知的影響機理,探索復雜聲學環境下的語音感知機制及其建模方法,可能會使聽力障礙患者過上正常人的生活。據2016年3月公布的《全國聽力障礙與耳病調查結果》,我國有15.84%的人患有聽力障礙,其中中度以上聽力障礙的人占到總人口數的5.17%。伴隨著我國老齡化趨勢加劇,聽力障礙總現患率仍在進一步升高,以語音技術為核心的助聽器具能夠直接為聽障患者帶來福音。此外,該研究方向所包含的三維音頻技術,通過研究人對真實三維聲學環境的感知機理,能夠將虛擬現實技術的用戶體驗提高約50%,進一步促進真正的”沉浸式”用戶體驗實現。
目前,實驗室的部分研究成果已在多個領域得到應用:在智能終端領域,推出了智能電視交互系統;在互聯網領域,先后跟百度、騰訊和阿里巴巴進行了卓有成效的合作,推出了語音輸入、語音和音樂檢索、語音客服等應用;在廣電領域,實驗室的連續語音識別引擎成為該行業主流企業的標配,被索貝、大洋集成到各自的媒資管理系統和多媒體信息檢索系統,同時也被天脈聚源在其為電視臺提供新聞素材整理服務的云平臺中采用。
AGX-5助力語言聲學研究突破AI算力瓶頸
為了支撐重大項目的科研工作,實驗室在音頻內容分析核心技術方面建立了全面的、具有國際水平的開發工具和處理平臺,主要包括非特定人大詞表連續語音識別系統、語種識別系統、說話人識別/確認系統、識別置信度評價關鍵詞檢測系統、發音評估系統、固定音頻檢測系統、口語理解和對話系統、噪聲消除系統、音頻水印編解碼系統、基于Hadoop的信息安全大數據分析系統等。同時,在基礎資源數據庫方面,實驗室建立了大規模的漢語、英語、朝鮮語、維語、日語等語種的語音基礎資源數據庫和音樂數據庫。
隨著研究項目的增多以及數據量的快速增加,實驗室的人工智能相關研究出現了AI計算資源緊張的局面,很多研究項目不得不“排隊”等待,科研進度與成果產出均受到重大影響。如自動語音識別的部分研究項目,每次需要訓練的語音數據樣本規模高達數萬小時,使用原有的分布式集群進行訓練,單次耗時就長達2周左右,AI算力已成為科研的“瓶頸”之一。
實驗室希望在短時間內完成海量非結構數據的高速吞吐與并行訓練,需要計算平臺具備強大的模型優化處理能力和高可擴展性,能夠支持更大規模設備間的分布式組網聯合訓練。為此,浪潮為實驗室設計并構建了一套以AGX-5為核心的AI計算平臺,其單機訓練效率相比以往訓練集群實現了2-3倍的提升。
AGX-5是浪潮自研的新一代AI服務器,專為解決現代AI和深度學習需求的擴展難題而設計,單機計算性能高達2 PetaFLOPS。AGX-5采用業界最先進的AI計算芯片高速互聯架構,可提供近乎線性的AI計算性能加速比。
實驗室主任顏永紅表示:“在以前,我們的研究人員經常需要花費很多時間去等待計算資源,嚴重影響項目進度。使用浪潮AGX-5計算平臺后,模型訓練效率得到了很大的提升,開發周期大幅縮短。科研人員可以將更多精力放在項目本身,推動了語言聲學研究和應用落地的進程。”