谷歌語義理解框架SyntaxNet升級 開啟無數可能性
2017/03/18 10:03 | 來源 / 雷鋒網

  在AI語義理解領域,谷歌一直不遺餘力地進行研發投入。

  對於普通用戶而言,2015年發布的基於深度神經網絡的谷歌智能郵件回复,2016年上線的神經機器翻譯系統(GNMT),便源自於谷歌在該領域的研究成果。在消費級產品之外,谷歌還持續為AI開發者提供技術支持,不斷推出新的開源工具。

  去年夏天,針對語句的語法結構分析,谷歌開源了SyntaxNet神經網絡框架,以及與之搭配英語分析預訓練模型Parsey McParseface。緊隨其後,谷歌發布了針對其他40門語言的語法分析模型。並將它們命名為Parsey's Cousins(即“Parsey的表兄妹們”)。對英語國家開發者而言,為英語之外的語言開發機器學習系統是一件相當不容易的事。現在,經過將近一年的努力,谷歌推出了SyntaxNet框架以及Parsey相關模型的升級版。

  SyntaxNet升級

  就雷鋒網所知,這是SyntaxNet自誕生以來的最重大升級。這建立在谷歌對各語言的語義理解研究基礎之上。此次升級的核心是一項新技術:能對輸入語句的多層表示進行很好的學習。具體來講,它延伸了TensorFlow,能對多層語言結構進行合成建模,還能夠在語句或文件處理過程中,動態地生成神經網絡架構。

  舉個例子,該升級使創建基於字母的模型(能學習把單獨字母組合成詞語),變得更加簡單。該模型還能夠學習到,不同詞語在共同組成部分(共享的字母)方面存在聯繫。在另一方面,Parsey和Parsey's Cousins通過詞語排序而運行。因此它們必須要對訓練中的詞語進行記憶,並依賴語境來決定“生詞”(此前未記憶過的詞語)的語法函數。

  ParseySaurus

  為了展示新版本SyntaxNet 的強大之處,谷歌同時發布了新的預訓練過的模型ParseySaurus。ParseySaurus 模型,使用了上文提到的基於字母的輸入表示。因此,它極大提升了預測新詞語含義的能力。這是基於兩個方面來實現:詞彙的拼寫和在語境中的使用方式。雷鋒網了解到,ParseySaurus 的準確率遠遠超出Parsey's Cousins,錯誤率降低了25%。由於語言的形態特性和其他屬性,新模型在俄語、土耳其語、匈牙利語上的效果尤其好——這些語言中,同一個詞彙有多種不同形態,其中許多形態從未在訓練階段出現過(即便是大型語料庫)。

  競賽

  你或許會對“基於字母的模型是不是語義識別的最佳選擇”感到好奇。或者,是否有其他更好的技術。谷歌表示,新版本的谷歌SyntaxNet 提供了許多全新可能性,比如beam search 和不同的訓練目標;但新SyntaxNet 的能力不止於此。雷鋒網(公眾號:雷鋒網)消息,谷歌與布拉格大學(Charles University)合作,將在今年的CoNLL 大會上舉辦多語言分解競賽(multilingual parsing competition)。競賽目標是為45種語言,開發出在現實環境下有良好表現的語義分解系統。