蝴蝶视频在线无限观看,国产日韩欧美一区二区三区乱码,国产黄色免费在线观看网站

干貨分享

web2.0時代告開啟音頻搜索新紀(jì)元

發(fā)布于：2008/7/12 8:27:32 點擊率：2437

原文出自《互聯(lián)網(wǎng)周刊》

web2.0時代告別簡單搜索時代

娛樂化生活、web2.0時代，簡單的搜索早已不能滿足我們的需求，我們正急于迎接一場搜索理念的變革，一個全新搜索時代的到來。

小琦在收音機里偶然聽到一首動人的歌曲，但是主持人并沒有報出這首歌的名字，于是他馬上抄筆記下歌詞，希望通過網(wǎng)絡(luò)搜索獲得這首歌的信息，在百度(企業(yè)庫論壇)的歌詞搜索里輸入這句歌詞后，他很快得到了想要的結(jié)果。

關(guān)于通過音頻內(nèi)容文字來搜索音頻的概念，我們很快會聯(lián)想(企業(yè)庫論壇)到如小琦一樣的搜索經(jīng)驗，似乎將音頻與文字掛鉤的技術(shù)早已不算是什么新鮮玩意，那么為什么日本產(chǎn)業(yè)技術(shù)綜合研究所日前發(fā)布的一個音頻搜索網(wǎng)站會得到業(yè)界如此廣泛的關(guān)注呢？

不僅僅是歌曲

同樣是小琦，這次當(dāng)他想通過在節(jié)目里聽到的字句來搜索一段相聲的時候卻出了問題，搜索答案五花八門，卻找不到他想要的。

通常，我們使用最多的音頻搜索都是針對于某一首歌曲的搜索，而它的歌詞與歌曲的發(fā)布往往是同步的，整合這些數(shù)據(jù)并不需要多大的技術(shù)支持，因為這些內(nèi)容都已經(jīng)是現(xiàn)成的。然而除了歌曲，官方的一些朗誦、彩鈴、評書、對白等作品，以及隨著web2.0時代的到來，網(wǎng)絡(luò)上涌現(xiàn)的大量草根族作品，如一段用錄音筆隨手錄下的講話、自我娛樂的博客音頻等等，各種以聲音為載體的信息也都通過網(wǎng)絡(luò)這種渠道傳播開來。如何在這樣浩繁的數(shù)據(jù)庫里查找所需的片斷，成為困擾互聯(lián)網(wǎng)搜索的難題。我們會通過其他的渠道如電視、廣播等獲得相關(guān)的信息，當(dāng)我們被某一個信息吸引的時候，我們就有了獲得它本身甚至更多邊緣信息的需要。如果我們手里只掌握這個音頻本身內(nèi)容中的若干字句，沒有它的名字、作者，乃至更多的信息，怎么搜到我們想要的？于是我們發(fā)現(xiàn)，尋常意義上的簡單音頻搜索已很難滿足我們的需求了。

除了那些本身已有歌詞文字可考的歌曲文件，更多的聲音文件需要有一個后臺將他們的內(nèi)容轉(zhuǎn)化為文字，方便用戶的搜索操作。于是日本的這個名為Podcastle的網(wǎng)站經(jīng)過多年探索，終于在6月上線，真正實現(xiàn)了通過內(nèi)容文字進行音頻搜索。這項服務(wù)采用聲音識別技術(shù)，將聲音數(shù)據(jù)全部自動轉(zhuǎn)換成文字，收集到數(shù)據(jù)庫中，使人們方便地進行音頻檢索。比如在網(wǎng)站搜索欄中輸入日文“”，就能搜索到出現(xiàn)“”這個字的音頻資料。

前人的腳印

其實早在一年前，波士頓初創(chuàng)公司EveryZing便推出了一款與前者設(shè)計原理異曲同工的視頻和音頻搜索引擎——PodZinger，這是一款播客搜索引擎，它采用了BBN技術(shù)公司開發(fā)的一種語言系統(tǒng)，可將音頻內(nèi)容轉(zhuǎn)換成文本，而且準(zhǔn)確率在80％以上，足以體現(xiàn)音頻的主要內(nèi)容，能指導(dǎo)用戶迅速在文件中找到某個搜索目標(biāo)詞出現(xiàn)的地方，并總結(jié)出音頻內(nèi)容的核心意思。

之前《互聯(lián)網(wǎng)視頻革命的第一槍》這篇文章曾對PodZinger的強大功能作過闡述，Podzinger可以在網(wǎng)絡(luò)上抓取視頻、音頻文件，利用語音識別技術(shù)深入分析其文件內(nèi)容，根據(jù)用戶搜索需求提交相應(yīng)結(jié)果。它有一種軟件能夠“聽”視頻文件中的語音，并轉(zhuǎn)換成可供搜索引擎使用的文本。搜索結(jié)果中的每個詞語都可以點開并載入音頻剪輯，在指定的詞匯點上開始播放。這無疑是一種革命性的突破。Podzinger的文本記錄對于搜索者而言遠比傳統(tǒng)搜索引擎根據(jù)“元數(shù)據(jù)（Metadata）”搜索結(jié)果所顯示的音頻和視頻剪輯更具有相關(guān)性。

EveryZing公司首席執(zhí)行官Tom Wilde當(dāng)年也曾如此驕傲地介紹這款產(chǎn)品：這么高的準(zhǔn)確度可以帶來許多新搜索功能，比如提供視頻和音頻的完整文本，以及直接跳到話語中某個詞或者詞組被說出的位置。這項技術(shù)還可以讓公司提供與特定內(nèi)容有關(guān)的有針對性廣告，就好像Google推出的基于網(wǎng)頁中文本的廣告一樣。

語音識別的難題

語音識別這個概念，我們并不陌生，從孤立詞到大詞匯量連續(xù)語音的識別（LVCSR），再到語音庫檢索，語音識別技術(shù)一直在向前發(fā)展，只是語音識別似乎離我們還有些遙遠?！敖窈?年內(nèi)，互聯(lián)網(wǎng)搜索將更多地通過語音來完成?！苯衲甑?月23日，比爾·蓋茨在美國卡內(nèi)基·梅隆大學(xué)發(fā)表演講說道，這已數(shù)不清是他第幾次在公開場合提及語音識別了。

對于中文而言，語音識別技術(shù)的實現(xiàn)較之英語面臨著更多的困難。當(dāng)南方人把“牛奶”念成“留來”的時候，究竟是機器識別錯了，還是人錯了？微軟中國研發(fā)集團下屬微軟亞洲研究院語音識別組組長宋言哥平提出過這樣一個問題。而不僅僅是南北口音的偏差，每個人都有獨有的發(fā)音習(xí)慣。這就造成了語音輸入很難規(guī)范的問題。其次，噪聲也是一種不可抗的難題?！斑@很好理解，機器無法像人那樣分辨出人聲和噪聲。”宋言哥平解釋道，“同時，不同場景有不同噪聲，訓(xùn)練的情況也不能匹配真實環(huán)境，這使語音識別在噪聲中比在安靜的環(huán)境下難得多?！?

克服這些難題尚需時日，這也是為何中文音頻搜索進展緩慢的一個關(guān)鍵原因。如今日本的音頻搜索網(wǎng)站已經(jīng)上線，中國的用戶也期待著可以更快享受到這種先進搜索技術(shù)帶來的更多便捷。

告別簡單搜索時代

在信息瘋狂膨脹的年代，對于浩瀚信息中的有效資源搜索毫無疑問是相當(dāng)重要的。如今娛樂化風(fēng)潮的涌起，使信息的需求早已不是以往單純的純文本而已，而是更大規(guī)模地擴展到音頻、視頻領(lǐng)域。以往單純通過音頻、視頻文件的文本標(biāo)簽來搜索音頻、視頻文件已經(jīng)不足以滿足用戶的需求。

于是出現(xiàn)了這種通過將音視頻內(nèi)容轉(zhuǎn)換成文字的搜索方式。

然而在簡單搜索之外，還不僅僅是這種運用語音識別系統(tǒng)完成的搜索服務(wù)技術(shù)正在流行。當(dāng)文字搜索已經(jīng)發(fā)展到幾乎沒有上升空間的時候，微軟、Google這些技術(shù)巨頭也開始瞄準(zhǔn)未來的新一代搜索市場。今年的4月份，在北京舉行的國際萬維網(wǎng)大會上，兩位Google的工程師展示了下一代的圖片搜索。新的圖片搜索不再只是由圖片相關(guān)的文字來判斷圖片的內(nèi)容。Google將使用計算機分析圖片中的內(nèi)容，并關(guān)聯(lián)關(guān)鍵字的排名。實際上，這就相當(dāng)于圖片搜索中PageRank。

在早些時候，《互聯(lián)網(wǎng)周刊》上也報道過這樣的消息：新一代圖片搜索技術(shù)已經(jīng)可以像人一樣，“看”到一幅圖片的興趣中心，判別它是人物肖像照或是風(fēng)景照、攝于室內(nèi)還是戶外。甚至，在人的協(xié)助下，計算機還能夠在許多張合影中找尋到同一張人臉。這些聽起來不可思議的事情，已經(jīng)在微軟的實驗室里變成了現(xiàn)實，甚至有些技術(shù)已應(yīng)用到部分產(chǎn)品當(dāng)中。

搜索技術(shù)已經(jīng)迎來了一個新的時代，在各種新型搜索服務(wù)的幫助下，我們的各種需求都將慢慢得到滿足?？萍?，正在向著更加人性化的一面發(fā)展，一切，都在為人類生活得更好而努力著。

上一篇：互聯(lián)網(wǎng)域名分配引入拍賣機制
下一篇：北京啟動網(wǎng)絡(luò)視頻公益性法律服務(wù)

技術(shù)支持-張先生

營銷推廣-郭先生

客服投訴-郭先生