原文出自《互聯(lián)網(wǎng)周刊》
不僅僅是歌曲
同樣是小琦,這次當(dāng)他想通過在節(jié)目里聽到的字句來搜索一段相聲的時候卻出了問題,搜索答案五花八門,卻找不到他想要的。
除了那些本身已有歌詞文字可考的歌曲文件,更多的聲音文件需要有一個后臺將他們的內(nèi)容轉(zhuǎn)化為文字,方便用戶的搜索操作。于是日本的這個名為Podcastle的網(wǎng)站經(jīng)過多年探索,終于在6月上線,真正實現(xiàn)了通過內(nèi)容文字進行音頻搜索。這項服務(wù)采用聲音識別技術(shù),將聲音數(shù)據(jù)全部自動轉(zhuǎn)換成文字,收集到數(shù)據(jù)庫中,使人們方便地進行音頻檢索。比如在網(wǎng)站搜索欄中輸入日文“”,就能搜索到出現(xiàn)“”這個字的音頻資料。
前人的腳印
之前《互聯(lián)網(wǎng)視頻革命的第一槍》這篇文章曾對PodZinger的強大功能作過闡述,Podzinger可以在網(wǎng)絡(luò)上抓取視頻、音頻文件,利用語音識別技術(shù)深入分析其文件內(nèi)容,根據(jù)用戶搜索需求提交相應(yīng)結(jié)果。它有一種軟件能夠“聽”視頻文件中的語音,并轉(zhuǎn)換成可供搜索引擎使用的文本。搜索結(jié)果中的每個詞語都可以點開并載入音頻剪輯,在指定的詞匯點上開始播放。這無疑是一種革命性的突破。Podzinger的文本記錄對于搜索者而言遠比傳統(tǒng)搜索引擎根據(jù)“元數(shù)據(jù)(Metadata)”搜索結(jié)果所顯示的音頻和視頻剪輯更具有相關(guān)性。
語音識別的難題
語音識別這個概念,我們并不陌生,從孤立詞到大詞匯量連續(xù)語音的識別(LVCSR),再到語音庫檢索,語音識別技術(shù)一直在向前發(fā)展,只是語音識別似乎離我們還有些遙遠?!敖窈?年內(nèi),互聯(lián)網(wǎng)搜索將更多地通過語音來完成?!苯衲甑?月23日,比爾·蓋茨在美國卡內(nèi)基·梅隆大學(xué)發(fā)表演講說道,這已數(shù)不清是他第幾次在公開場合提及語音識別了。
對于中文而言,語音識別技術(shù)的實現(xiàn)較之英語面臨著更多的困難。當(dāng)南方人把“牛奶”念成“留來”的時候,究竟是機器識別錯了,還是人錯了?微軟中國研發(fā)集團下屬微軟亞洲研究院語音識別組組長宋言哥平提出過這樣一個問題。而不僅僅是南北口音的偏差,每個人都有獨有的發(fā)音習(xí)慣。這就造成了語音輸入很難規(guī)范的問題。其次,噪聲也是一種不可抗的難題?!斑@很好理解,機器無法像人那樣分辨出人聲和噪聲。”宋言哥平解釋道,“同時,不同場景有不同噪聲,訓(xùn)練的情況也不能匹配真實環(huán)境,這使語音識別在噪聲中比在安靜的環(huán)境下難得多?!?
克服這些難題尚需時日,這也是為何中文音頻搜索進展緩慢的一個關(guān)鍵原因。如今日本的音頻搜索網(wǎng)站已經(jīng)上線,中國的用戶也期待著可以更快享受到這種先進搜索技術(shù)帶來的更多便捷。
告別簡單搜索時代
在信息瘋狂膨脹的年代,對于浩瀚信息中的有效資源搜索毫無疑問是相當(dāng)重要的。如今娛樂化風(fēng)潮的涌起,使信息的需求早已不是以往單純的純文本而已,而是更大規(guī)模地擴展到音頻、視頻領(lǐng)域。以往單純通過音頻、視頻文件的文本標(biāo)簽來搜索音頻、視頻文件已經(jīng)不足以滿足用戶的需求。
于是出現(xiàn)了這種通過將音視頻內(nèi)容轉(zhuǎn)換成文字的搜索方式。
在早些時候,《互聯(lián)網(wǎng)周刊》上也報道過這樣的消息:新一代圖片搜索技術(shù)已經(jīng)可以像人一樣,“看”到一幅圖片的興趣中心,判別它是人物肖像照或是風(fēng)景照、攝于室內(nèi)還是戶外。甚至,在人的協(xié)助下,計算機還能夠在許多張合影中找尋到同一張人臉。這些聽起來不可思議的事情,已經(jīng)在微軟的實驗室里變成了現(xiàn)實,甚至有些技術(shù)已應(yīng)用到部分產(chǎn)品當(dāng)中。