景觀工程
用聲音創造“形象”,智能語音如何加速商業應用落地?_樂魚買球官網
對于多數人來說,最經常認識到語音合成技術(TTS,Text-To-Speech)的運用就是高德地圖里志玲姐姐路況主播的聲音了。在將基本的相同語句展開原聲音樂錄音后,機器要仿真人對自然語言的解讀過程,然后為制備語音規劃出有音段特征,使制備語音需要準確傳達語意,最后展開語音輸入,整個流程類似于“編碼、信息給定、解碼”。
除車載語音導航系統外,朗誦這類近于必須反映聲音表現力的場景如今也運用到了語音合成技術。今年1月,央視就播映了首部利用TTS技術仿真人聲配音的紀錄片《創意中國》。聲音的主人則是我國胞弟知名播音員、配音演員、語言藝術家李易。
他曾給《再說長江》、《大明宮詞》、《美麗中國》、《人類星球》、《遷徙的鳥》等多部紀錄片展開配音。通過語音合成技術,AI順利地模擬出了李易的聲音,已完成了紀錄片的配音講解。由此可見,掙脫機器原本機械化的講話,像真人一樣享有極具情感表現力、抑揚頓挫的聲音,不僅是語音合成技術的發展方向,也是難題之一——某種程度,也考驗著各家語音合成技術數據服務提供商。
對于智能語音交互而言,場景的重要性不言而喻。誰能彰顯聲音更好的表現力和個性化,誰就能將技術兼容到非標準化的場景中,奪得智能語音市場的未來。
近年來,科技巨頭們都相繼發售了自己的語音合成“自定義化”方案。2017年4月,谷歌在加拿大蒙特利爾大學創建的人工智能實驗室(MILA)正式成立了Lyerbird公司,Lyerbird正式成立之初就發售了一套“只需一分鐘的聲音樣本,就能仿效任何人說出”的系統;今年5月的Build2018大會上,微軟公司在其公有云平臺上發售了語音合成自定義服務產品CustomVoice,可對聲音展開仿真,并可在線測試仿真效果。
在國內,科大訊飛也于去年11月發售了取名為“訊飛來留聲”的測試版本。據報,訊飛來留聲只必須10句的聲音收集,才可已完成個人聲音的重制,收集量只有行業平均值的百分之一(近高于微軟公司的500句與行業的千句)。將近千小時語音數據文化底蘊,打造出多元的“聲音餐館”部分創業公司也在TTS領域也有所布局,例如正式成立于2016年2月的標貝科技。
在整個語音產業鏈條當中,標貝科技獲取語音合成技術以及語音數據,其中技術含量較高的語音合成又還包括發音人自由選擇、語料設計、語音收集、數據處理、語音深度加工等步驟。標貝科技牽頭創始人CTO李秀林在拒絕接受獵云網專訪時回應,“科技巨頭們具備落后技術的探尋能力,我們十分認同他們的成果,也很尊重他們的學術生產量。
但從學術到工業還有很長距離,有些東西不會總有一天逗留在論文上,創業公司的優勢就在于工程化的能力、產品的經營上,通過我們的技術改造在明確應用于層面不斷完善”。讓我們再行聽得一段智能客服與用戶的對話:這是2018年5月標貝科技針對智能客服發售的語音合成技術方案。李秀林指出,客服領域不具備的痛點十分顯著,“比如很多大公司往往有上萬名人工客服,有的甚至每天要招待來自全國各地上百萬通電話。一方面公司的成本大大減少,另一方面,由于本身的工作性質,客服人員往往忍受著極大的情緒壓力”。
這也使得客服人員往往必須很長的培訓周期,且營銷效果劣、人員流動性大等問題時有發生。根據中國企業數據報告的統計資料,我國中小企業家數量近年來按照每月30萬家的速度快速增長。
預計到2019年,全國中小企業家數將超過3940萬家。預示著國內中小企業家數的較慢發展,國內客服市場依然呈圓形一個快速增長的發展態勢,其中,呼叫中心和在線客服的市場規模2019年將分別超過1327億和788億。面臨如此極大的市場規模,李秀林顯然,對企業來說,利用智能客服替換人工,經濟報酬是清晰可見的——如果語音合成技術需要“勝任”這項工作的核心內容,那么大量重復性標準化的語音對話內容通過智能客服就能已完成,很大增加企業的人力成本。此外,客服作為當今信息社會商家與用戶展開交流的重要一環,直接影響了企業的整體形象。
從這方面來說,商家也更加推崇客服中心的搭起和培育?!疤貏e是在是通報型的內容,或者企業通過在線客服推展展開產品推展的這種場景是較為具體的,也就是‘說道’、‘聽得’、‘問’,給語音合成技術落地獲取了很好的機會”,李秀林告訴他獵云網。在技術相差無幾的情況下,TTS最后效果的優劣必不可少精確、非常豐富、優質的語音訓練數據。
一般來說,從前期的打算、去找人、去找錄音場地、錄音、數據檢驗、標示,最后淪為“可以用的數據”,有可能最少必須3個月。為了打造出優質的語音,讓用戶討厭從而構成對聲音的“粘性”,標貝科技前期必須設計非常豐富的語料、認識大量的聲優,指導他們已完成聲音的收集,之后再對語音展開深度加工。傳統語料數據處理方式為手工精標,必須花費大量人力,標貝科技則利用深度自學技術,通過計算機程序展開預處理,之后再行由人工展開校正,大大提高了工作效率,并確保了數據處理的準確性。在正式成立近兩年的時間里,標貝科技早已累積了還包括文本、語音等多類型的語料數據,并為多家互聯網巨頭的AI產品獲取了大量的數據服務。
而在這套語音合成制備技術方案里,標貝的團隊還專門挖出了優質的聲優資源,優化之后再行制成demo,“相等于我們給客服系統自定義了一套符合客戶風格的制備語音解決方案”,李秀林說道,客戶可根據自身市場需求自由選擇標準化或自定義化產品及場景,標貝將通過專業語料制作客服制備語音庫,為客戶獲取API模塊等技術接入方式,接入企業系統后可自動外呼來自多渠道的用戶。根據有所不同的用于場景,標貝科技的智能客服系統在還包括商業服務、金融保險、教育培訓、電商物流、互聯網通訊、房地產物業等行業的售后、答疑、錄音、主動外呼、催款、營銷推展等固話、移動設備上的服務上,都有針對性的解決方案?!拔胰匀惶貏e強調語音合成技術是有表現力和人性化一面的,每個聲音都有一個屬于自己的形象,它能讓用戶產生粘性”,李秀林談及,“因此,我們也發售了‘AI聲音餐館’,通過我們非常豐富的語料庫,為有所不同的企業解決問題有所不同的自定義市場需求”。根據獵云網取得的數據,在自定義型音庫方面,標貝科技已順利為用戶獲取了150小時的中文女聲情感音庫、350小時的中文女聲音庫、100小時的男生音庫、80小時粵語語音庫、50小時美語女聲語音庫、40小時的ToBI語音庫、40小時仿效兒童語音庫、30小時兒童語音庫、20小時葡萄牙語音庫、20小時臺灣普通話語音庫、10小時日語、10小時韓語以及20小時明星語音庫等,音庫還在不斷豐富和累積中。
同時,標貝科技還獲取自有音庫,中文男女聲,美語男女聲,兒童,粵語,臺普、日語、韓語等及個性話音庫,廣大客戶現能必要用于整體解決方案。2015年,李秀林在百度任職期間,曾率領團隊積極開展了一個關于情感制備的項目,專攻百度小說頻道,僅有用半年左右的時間,就在語音合成加工效率、制備效果上獲得了重大突破。2016年,他重新加入滴滴,供職滴滴研究院語音團隊負責人兼任首席算法工程師,協助滴滴拓展其上下班領域涉及的語音業務。
融合自身在語音合成技術領域十余年的經驗,這位行業從業者也坦言,當前的智能客服,“滋擾”這部分內容是較為無法通過人工智能所替代的?!耙话闱闆r下,客戶滋擾都帶著情緒,語言表達也是恐慌零散的,機器辨識一起還有一定可玩性”,但李秀林指出,“核心并不是TTS的容許,而是NLP的制約”。NLP即自然語言處置(NaturalLanguageProcess,NLP),是會用計算機對自然語言的形、音、義等信息展開處置,即對字、詞、句、篇章的輸出、輸入、辨識、分析、解讀、分解等的操作者和加工過程。
一套原始的語音交互過程牽涉到了非常復雜的技術鏈條,還包括了聲學處置、語音辨識、語義解讀和語音合成等核心技術?;A聲學和語音辨識解決問題的是計算機“聽得見”的問題,而NLP是要解決問題計算機“聽不懂”的問題。李秀林提及的客服“滋擾”中語言表達零散恐慌的問題,還必不可少NLP技術中的“詞義消歧”。機器在切詞、標示詞性、并辨識完了后,必須對各個詞語展開解讀。
由于語言中往往一詞多義,人在解讀時會基于有數科學知識儲備和上下文環境,但機器很難做。雖然系統不會對句子做到句法分析,可以在一定程度上協助機器解讀詞義和語義,但實際情況并不理想。
這也是為什么,對于必須多輪交互的簡單問題和情緒安撫方面,智能客服當前還無法替代人工客服的原因。此外,智能音箱類產品也是標貝科技牽涉到的業務方向之一。今年8月,狗尾草智能科技發售了基于Gowild人工智能虛擬世界生命引擎(GAVE)及全息投影技術的HE琥珀智能音箱,其中能演唱能跳躍能閑談的“琥珀小姐姐”的聲音就是由標貝TTS技術所獲取的。
“我指出個性化的語音是一個十分有價值的方向,每個聲音都是有特點的,有所不同的品牌、公司和服務商不會根據有所不同的情景和產品特點使用有所不同的聲音,而這個聲音則能‘建構’出有一個獨有的形象”,為了打造出優質的語音,讓用戶討厭從而構成對聲音的“粘性”,標貝科技對數據標示的每一步流程都嚴苛把觸,李秀林指出,“人工智能不僅能把非常簡單的標示處置好,還可以把后期的制備,通過技術手段提高準確度,最后相似真人傾聽的狀態”。發售“今日慢聽得”,用“聲音”探尋多場景語音交互體驗隨著科學知識收費的蓬勃發展,有聲讀物發展轉入快車道,用戶可以不不受地理位置的容許隨時隨地通過手機、智能音箱等收看各類新聞資訊、有聲內容。因此,除了語音合成服務外,為了能讓用戶盡早體驗到語音合成技術,標貝科技還研發了一款基于語音合成技術小程序——用作主播科技新聞的“今日慢聽得”。
目前,今日慢聽得小程序,早已動態接入了國內多家科技媒體。每天早上6:30起,將動態改版當天最前沿的科技、財經、社會熱點等新聞動態。下班通勤時間,用戶可以充分利用碎片時間收看熱點資訊。隨著科學知識收費的蓬勃發展,有聲讀物發展轉入快車道,用戶可以不不受地理位置的容許隨時隨地通過手機、智能音箱等收看各類新聞資訊、有聲內容。
因此,除了語音合成服務外,為了能讓用戶盡早體驗到語音合成技術,標貝科技還研發了一款基于語音合成技術小程序——用作主播科技新聞的“今日慢聽得”。目前,今日慢聽得小程序,早已動態接入了國內多家科技媒體。每天早上6:30起,將動態改版當天最前沿的科技、財經、社會熱點等新聞動態。
下班通勤時間,用戶可以充分利用碎片時間收看熱點資訊。這款小程序的界面以黑色居多、紫紅色交錯做到裝飾色,主界面上紫紅色交錯的大圓和底部的小圓圈在中軸線上下排序,底部5個按鈕平面產于,簡練輕盈、充滿著科技風的同時,又融合了中國的美學元素。
其主界面底部有提意見、共享、選聲音三個按鈕,左右排序可滿足用戶單手操作。其中,“提意見”按鈕可以根據小程序的流暢度、聲音、內容、界面等方面明確提出意見或建議;通過“共享”,則可以將小程序引薦給微信好友或以圖片形式留存展開傳播;“選聲音”按鈕滿足用戶對男聲、女聲主播聲音的習慣?!罢Z音行業仍然是AI典型的技術領域,我們工作十幾年了,大家都還是自稱為是‘做到語音技術的’。做到企業必須扎扎實實地做到自己擅長于的領域,不去平熱點,因為熱點也不會逆,自己夸獎的話,也能喚起出有很多新的熱點”,李秀林告訴他獵云網,團隊還將在語音合成技術的場景方面展開更加多探尋,“創業公司的技術遞歸迅速,或許幾個月時間我們就把行業的解決方案做到得很好了。
接下來就必須銷售去拓展商業市場,技術團隊不會跑到下一個環節,比如內容生產方面正在做到一些打算”。
本文關鍵詞:樂魚app,樂魚買球官網
本文來源:樂魚app-www.summitsexyshoes.com