免费人成动漫在线播放r18-免费人成观看在线网-免费人成黄页在线观看日本-免费人成激情视频在线观看冫-jlzzjlzz亚洲大全-jlzzjlzz亚洲日本

二維碼
企資網(wǎng)

掃一掃關(guān)注

當(dāng)前位置: 首頁 » 企資頭條 » 文化 » 正文

語音識別基礎(chǔ)_(一)語音是什么

放大字體  縮小字體 發(fā)布日期:2021-09-10 05:08:27    作者:企資小編    瀏覽次數(shù):66
導(dǎo)讀

從最起初的一聲巨響,到梵音天籟,到耳旁的竊竊私語,到媽媽喊我回家吃飯,總離不開聲音。聲音是這個世界存在并運動著的證據(jù)。1.1大音希聲假設(shè)我們已經(jīng)知道了聲音是什么。我們可以找到很多描述聲音的詞語,如“抑揚

從最起初的一聲巨響,到梵音天籟,到耳旁的竊竊私語,到媽媽喊我回家吃飯,總離不開聲音。聲音是這個世界存在并運動著的證據(jù)。

1.1大音希聲

假設(shè)我們已經(jīng)知道了聲音是什么。

我們可以找到很多描述聲音的詞語,如“抑揚頓挫”、“余音繞梁”。當(dāng)我們在腦海中搜刮這類詞語時,描述對象總繞不過這兩個:人的聲音和物的聲音。人的聲音,就是語音;物的聲音,多數(shù)想到的是音樂。這樣的選擇源于人的先驗預(yù)期:語音和音樂才最可能有意義,有意義的才去關(guān)注。估計不會有人樂于用豐富的辭藻來描述毫無意義的聲音。所以,語音研究的意義在于語音本身所傳遞的意義是什么,以及語音為什么能夠傳遞意義。

聲音有很多,每時每刻每次振動都能產(chǎn)生聲音,可是有意義的聲音實在不多。我們可以使用機(jī)器隨機(jī)生成一段聲音,心想著也許這段聲音可以產(chǎn)生一些文字內(nèi)涵。這個想法與很多年前就開始忙不迭地敲打莎士比亞巨著的大猩猩沒有差別。不管重復(fù)多少次,這些隨機(jī)的聲音聽起來都是雜音,沒意思。很顯然,在這樣一個龐大的聲音空間中,有意義的語音和音樂只是其中極微小的一點,這也是“大音希聲”的一種解釋吧。偏偏人類就能毫不費力找到那個點,并且能說會道,這種搜索能力也是千百年來才積攢下來的。不過就算是這么一個小點,古往今來的文學(xué)和音樂經(jīng)典也并未占據(jù)多少地盤,這也使得語音語言的研究、文學(xué)音樂的創(chuàng)作有著廣闊的發(fā)揮空間。

從大音希聲中,我們可以得到以下一些啟示:語言是高度概括和規(guī)范化的產(chǎn)物,它的熵值(簡單理解為系統(tǒng)的混亂程度)極低,所以語言本身反映了一種思維方式,比如不同語言對“過去時”、“現(xiàn)在時”、“將來時”的處理方式體現(xiàn)了對時間的不同感受,不同語言對主謂賓的排序體現(xiàn)了對空間層次的不同感知;還有,語音在聲音空間中是高度集中的,這使得我們在解析一段語音時不用搜索整個聲音空間,少了一些盲目性(不過語言本身的博大精深已讓人嘆為觀止了)。

聲音以波的形式傳播,即聲波(Sound Wave)。當(dāng)我們以波的視角來理解聲音時,卻又大繁若簡起來:僅憑頻率(Frequency)、幅度(Magnitude)、相位(Phase)便構(gòu)成了波及其疊加的所有,聲音的不同音高(Pitch)、音量(Loudness)、音色(Timbre)也由這些基本“粒子”組合而來。圖1.1展示了幾種簡單的波形,世上形形色色的聲波都可以“降解”到基本波身上,這也是傅里葉變換(Fourier Transform)的基本思想。不同的聲波有不同的頻率和幅度(決定音量),人耳也有自己的接受范圍。人耳對頻率的接受范圍大致為 20 Hz至20 kHz,于是以人為本地將更高頻率的聲波定義為超聲波(Ultrasound Wave)、更低頻率的聲波定義為次聲波(Infrasound Wave),雖然其他動物可以聽到不同范圍的聲音;人耳對音量的接受范圍已經(jīng)進(jìn)化得適應(yīng)了地球上的常規(guī)聲音,小到呼吸聲、飛蟲聲, 大到飛機(jī)起飛、火箭發(fā)射的聲音(已經(jīng)不是地球默認(rèn)配置),再往上,人的身心就越來越承受不住了,為了衡量音量的大小,再一次以人為本地將人耳所能聽到的1kHz純音的音量下限定義為0dB。

1.2產(chǎn)生語音

語言是人類的標(biāo)志性能力,是一項發(fā)明,只不過這個發(fā)明是人類群體在長遠(yuǎn)的歷史當(dāng)中不斷打磨而成,趨近于穩(wěn)定而不得穩(wěn)定,因為新的人和新的思想總是不斷涌現(xiàn),語言隨之而進(jìn)化,根據(jù)社會的需要不斷做出改變,比如小到每年產(chǎn)生的新詞(對于漢語來說,常用的字基本已經(jīng)固定不變,是所有詞句的基本單元,新加的詞也不過是對已有單字進(jìn)行組合,再賦予新的意義,這與利用字母組裝成新詞有所區(qū)別),大到一種語言的消亡和另一種語言的誕生(計算機(jī)語言也是一種情形)。當(dāng)語言通過聲音的形式表達(dá)出來,即為“語音”,是指由人類發(fā)出的、承載特定語義的聲音,其中語義不僅可以借助文字本身來傳遞,也可以借助聲音的音高、音強(qiáng)、音長、音色及其組合來表示不同的情感、態(tài)度等信息。

圖1.2展示了人體的發(fā)音器官及其對聲音的影響區(qū)域。簡而言之,肺部產(chǎn)生氣流動力,經(jīng)過氣管引起聲帶振動形成聲源(通常稱為激勵,圖中激勵區(qū)也叫聲源區(qū)),最后經(jīng)過聲道(咽腔、口腔、鼻腔等區(qū)域)調(diào)制后由口唇輻射出來,產(chǎn)生了我們所聽到的語音。當(dāng)我們說話、唱歌時,基本上所有的發(fā)聲器官都被調(diào)用了;當(dāng)我們哼著小曲時,口腔可以不動,而只通過調(diào)動鼻腔來調(diào)節(jié)音調(diào);當(dāng)我們捂著口鼻時,氣流停止,沒了動力,漸漸就發(fā)不出聲音了。

已知了人體發(fā)音器官的結(jié)構(gòu)圖,便可以仿生復(fù)制出語音發(fā)生器,然而僅僅只是功能上復(fù)制出這些發(fā)音器官以及將它們聯(lián)系在一起的神經(jīng)系統(tǒng)已是很難,而模擬產(chǎn)生讓各個器官能夠聯(lián)動協(xié)作的神經(jīng)信號就更難了。

1.3看見語音

語音是用來聽的,看不見,摸不著,但是我們可以看看語音的保存形式。自然存在的語音是連續(xù)的波動,具有波的所有屬性。聲波可以保存成離散的數(shù)字,即模數(shù)轉(zhuǎn)換(Analog to Digital Conversion,ADC),所以,我們之后所研究的語音并不是聲音的最原始形態(tài),甚至都不叫聲音,一串?dāng)?shù)字而已,但這些數(shù)字卻達(dá)到了它的目的:再現(xiàn)聲音,且原始聲音所要傳遞的信息不丟失。音樂可以做得更徹底,直接將聲音記錄在一紙沒有動靜的樂譜上。除了聲音,光線也是自然存在的現(xiàn)象,同樣地,我們也可以將它數(shù)字化,保存成圖片或視頻。機(jī)器學(xué)習(xí)中注重表征學(xué)習(xí)(Representation Learning),不管是聲音還是光影,它們的數(shù)字化保存形式已經(jīng)是一種表征方法了。對文本的處理顯得直來直去一些,因為文字是人類發(fā)明出來的,發(fā)明文字的目的就是為了保存和傳承,如音符一樣,它也是一種離散的可記錄、傳播的符號,它的形態(tài)就是它的保存形式,所以文字本身就是文本處理的原始表征方法。

語音的基本保存形式可用波形圖(Waveform)展現(xiàn)出來,如圖1.3所示,可以簡單地看作是一串上下擺動的數(shù)字序列,比如,每1秒的音頻可以用16000個電壓數(shù)值表示,即采樣率為16kHz。進(jìn)一步聚焦放大波形圖,可以清晰地看到每個采樣點,如圖1.4所示。真正的語音不需要額外的注解,但對于數(shù)字化的語音來說,還需要額外的信息對文件格式進(jìn)行說明,如信道、采樣率、精度、時長等,并有文件大小=格式信息+信道數(shù)*采樣率*精度*時長。可以用soxi查看文件信息,如圖1.5所示。

語音,是包含時序信息的序列,是時域上的一維信號。離散傅里葉變換(Discrete Fourier Transform,DFT)使得語音的頻域分析成為可能,圖 1.3的語音可以變成圖1.6的頻譜圖(Spectrogram)模樣,圖中可以清楚地看到“層巒疊嶂”,原始音頻里的信息又以另一種表征方法釋放出來了,顏色明暗表示頻帶能量大小,較亮的條紋即是共振峰(Formant)。整個過程就好比一雙好耳朵聽到了一首隨時間流動的曲子,隨即寫出了它的譜子,看著譜,曲子又隨即可以復(fù)現(xiàn)出來。傅里葉變換適宜具有平穩(wěn)性(Stationarity)的波,而表意豐富的語音顯然不具有長時平穩(wěn)性,為了適用傅里葉變換,則需要假設(shè)語音的短時平穩(wěn)性,所以語音的傅里葉變換是一小段一小段(一幀)進(jìn)行的,而“短時”有多短也有不同影響,較短的窗口有較高的時域分辨率、較低的頻域分辨率,較長的窗口有較高的頻域分辨率、較低的時域分辨率,語音識別中常取25毫秒。時域與頻域之間是一一對應(yīng)的,可以代表彼此。從一種表征到另一種表征,包含的意義都在,只是有些藏得深,挖掘不到,有些露得淺,一目了然,后者才更利于機(jī)器學(xué)習(xí),所以機(jī)器學(xué)習(xí)領(lǐng)域常常撇不開表征學(xué)習(xí),而深度學(xué)習(xí)的優(yōu)勢就在于表征學(xué)習(xí)。

1.4小結(jié)

研究一個事物之前,先去觀察它、了解它,看它的來歷,看它的形態(tài)、結(jié)構(gòu)。語音識別的研究對象就是“語音”,本章簡介了語音的物理產(chǎn)生原理及其大繁若簡的呈現(xiàn)形式。

文章來源:清語賦

 
(文/企資小編)
打賞
免責(zé)聲明
本文為企資小編推薦作品?作者: 企資小編。歡迎轉(zhuǎn)載,轉(zhuǎn)載請注明原文出處:http://m.bangpiao.com.cn/news/show-175042.html 。本文僅代表作者個人觀點,本站未對其內(nèi)容進(jìn)行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內(nèi)容,一經(jīng)發(fā)現(xiàn),立即刪除,作者需自行承擔(dān)相應(yīng)責(zé)任。涉及到版權(quán)或其他問題,請及時聯(lián)系我們郵件:weilaitui@qq.com。
 

Copyright ? 2016 - 2023 - 企資網(wǎng) 48903.COM All Rights Reserved 粵公網(wǎng)安備 44030702000589號

粵ICP備16078936號

微信

關(guān)注
微信

微信二維碼

WAP二維碼

客服

聯(lián)系
客服

聯(lián)系客服:

在線QQ: 303377504

客服電話: 020-82301567

E_mail郵箱: weilaitui@qq.com

微信公眾號: weishitui

客服001 客服002 客服003

工作時間:

周一至周五: 09:00 - 18:00

反饋

用戶
反饋

主站蜘蛛池模板: 日本香蕉视频在线观看 | 一个人的视频www片免费 | 亚洲视频高清 | 亚洲日本va午夜中文字幕一区 | 国产自产视频 | 欧美综合色 | 永久黄网站色视频免费 | 亚洲欧美日韩专区一 | 91短视频在线观看 | 午夜丁香影院 | 成年人网站在线观看免费 | 男女在线 | 日韩永久免费视频 | 午夜看一级特黄a大片黑 | 久久成人免费视频 | 欧美一级片手机在线观看 | 亚洲欧美视频网站 | 国产成人19禁在线观看 | 国产亚洲欧美另类一区二区三区 | 免费v片在线观看视频网站 免费不卡中文字幕在线 | 国产香蕉一本大道 | 一个人看的www日本视频 | 亚洲一级毛片免费在线观看 | 亚洲一区二区影院 | 亚洲大香伊人蕉在人依线 | 男女羞羞视频免费观看 | 欧美成人激情视频 | 免费视频成人 | 五月天狠狠干 | 中文字幕日韩欧美 | 禁网站在线观看免费视频 | 欧美les视频xxxx在线观看 | 久久99国产亚洲精品观看 | 亚洲动漫精品 | 色视网| 中文字幕在线视频不卡 | 午夜嘿嘿 | 亚洲一级影院 | 午夜黄网 | 伦理片中文字幕2019在线 | 日韩成人综合网 |