“AI合成主播”到底是什么?主播長什么樣?在發(fā)布會現(xiàn)場的體驗中,觀眾只要輸入一句既有的新聞文本,屏幕上就會出現(xiàn)一位合成的新華社新聞主播,他不僅會用和真人一樣的聲音進行播報,連唇形、面部表情也能完全吻合。這樣的視頻效果,無論看上去還是聽起來,都與現(xiàn)實中的新華社主播的本人播報沒有太大差別。
11月7日,第五屆世界互聯(lián)網(wǎng)大會在浙江烏鎮(zhèn)拉開帷幕,在開幕當(dāng)天,搜狗與新華社合作開發(fā)、全球第一個全仿真智能合成主持人——“AI合成主播”正式亮相。而隨著“AI合成主播”的發(fā)布,搜狗未來人工智能的核心技術(shù)“搜狗分身”也終于浮出水面,成為大會開幕日的最大亮點之一,該項技術(shù)也入圍了今年世界互聯(lián)網(wǎng)領(lǐng)先科技成果。
據(jù)了解,在合成主播的開發(fā)過程中,技術(shù)人員同新聞主播一同進行了各種探索嘗試,在“搜狗分身”技術(shù)的支持下,通過人臉關(guān)鍵點檢測、人臉特征提取、人臉重構(gòu)、唇語識別、情感遷移等多項前沿技術(shù),并結(jié)合語音、圖像等多模態(tài)信息進行聯(lián)合建模訓(xùn)練后,“AI合成主播”正式誕生。
隨著“AI合成主播”系統(tǒng)的成功上線,支撐其正常運轉(zhuǎn)的核心技術(shù)也引起了大家的廣泛關(guān)注。據(jù)搜狗公司智能語音事業(yè)部總經(jīng)理王硯峰介紹,這項技術(shù)是搜狗人工智能的核心技術(shù)之一,誕生于“自然交互+知識計算”這一人工智能理念之下。該技術(shù)能夠從圖像表情,聲音語言習(xí)慣,邏輯思維等層面對AI進行擬人化訓(xùn)練,然后克隆制造人類的AI分身,進而幫助人類提高信息表達(dá)和傳遞的效率。
以“AI合成主播”為例,該產(chǎn)品就創(chuàng)造性的使用新華社中、英文主播的真人形象,配合“搜狗分身”的語音、合成等技術(shù)模擬真人播報畫面,使大眾享受到逼真度極高的圖像效果。這種播報形式,突破了以往語音圖像合成領(lǐng)域中,只能單純創(chuàng)造合成形象,并配合語音輸出唇部效果的約束,極大地提高了觀眾信息獲取的真實度。同時,利用該項技術(shù),“AI合成主播”還能實時高效地輸出音視頻合成效果。在該技術(shù)的支持下,使用者通過文字鍵入、語音輸入、機器翻譯等多種方式輸入文本后,將獲得實時的播報視頻。這種操作方式將極大減少新聞媒體在后期制作的各項成本,讓新聞視頻的制作效率有了極大的提高。
據(jù)介紹,制作AI合成主播的技術(shù)團隊,曾多次在機器視覺國際頂級賽事IEEE CVPR WAD、Pascal VOC、Mega Face以及語音合成領(lǐng)域最具權(quán)威性的Blizzard Challenge賽事上斬獲冠軍。
此次“AI合成主播”這一創(chuàng)新的信息傳播形式,幫助媒體在融媒體轉(zhuǎn)型、新聞時效性和跨語種傳播能力等方面再上臺階,增強中國傳媒業(yè)的國際影響力和全球競爭力。除了在媒體融合領(lǐng)域的應(yīng)用外,這項技術(shù)未來還將在娛樂、醫(yī)療健康、教育、法律等多個領(lǐng)域提供個性化的內(nèi)容。運用人工智能技術(shù),中國的主流聲音將更有效地傳播到世界各地,為構(gòu)建“人類命運共同體”,推進“一帶一路”倡議下的國際合作發(fā)揮成效。
(看看新聞Knews記者 王琳琳 呂心泉 金普慶 編輯:陳佳雯)
劍網(wǎng)行動舉報電話:12318(市文化執(zhí)法總隊)、021-64334547(市版權(quán)局)
Copyright ? 2016 Kankanews.com Inc. All Rights Reserved. 看東方(上海)傳媒有限公司 版權(quán)所有
全部評論
暫無評論,快來發(fā)表你的評論吧