性感美女跳舞视频,男女动态xb美女视频

語言對于人類文明的重要性不言而喻，但是語言的起源卻是個(gè)高度爭議的話題，我們對此幾乎一無所知。我們不了解人類，也不了解動(dòng)物，更是不懂宇宙，甚至我們都不能完全搞清楚一些看似簡單的問題，比如人類的耳朵為何要有這么奇怪的耳廓？

一、讓機(jī)器聽懂世界承載了人類千年夢想

語言承載了人類文化，人類需要通過語言學(xué)習(xí)知識和傳遞信息，這是人類區(qū)別于動(dòng)物界最重要的特性之一。而且，人類語言超過了五千多種，人類將大部分時(shí)間花費(fèi)在學(xué)習(xí)各種語言上似乎也不是一個(gè)更有效的途徑。因此，未來的機(jī)器智能時(shí)代，機(jī)器也必然需要通過語言實(shí)現(xiàn)與人類之間的交互，似乎最近的科幻片都已經(jīng)暗示了這個(gè)問題。現(xiàn)在的科幻就是未來的現(xiàn)實(shí)，因此，讓機(jī)器聽懂世界，這是未來機(jī)器智能時(shí)代的關(guān)鍵問題，也是人類一個(gè)更大的夢想，但是，我們距離人類的這個(gè)夢想還有多遠(yuǎn)呢？

首先明確一個(gè)概念，讓機(jī)器聽懂世界，這里面其實(shí)蘊(yùn)含了多個(gè)歷程，包括聽懂人類語言，進(jìn)而聽懂動(dòng)物叫聲，甚至聽懂自然聲音，亦或類似地球的耳朵LIGO那樣聆聽宇宙的“聲音”。所有這些都是極其復(fù)雜的過程，因?yàn)槲覀內(nèi)祟悓?shí)際上也沒有達(dá)到這種能力，但是我們期望機(jī)器能夠延伸人類的能力，從而實(shí)現(xiàn)人類的夢想。這是一個(gè)簡單的道理，有時(shí)候我們做不到的事情，總期望別人能夠做到，所以語音智能事實(shí)上承載的是幾千年來人類的偉大夢想。

再看第一個(gè)歷程，既讓機(jī)器聽懂人類語言，這已經(jīng)是最近技術(shù)和市場上非?；馃岬氖虑?，也是全世界科學(xué)家為止奮斗了六十多年的事業(yè)。這其中最為典型的，就是以亞馬遜Echo所引領(lǐng)的智能音箱，迄今為止，占據(jù)全球市值排名榜的全球巨頭，包括國內(nèi)的阿里、京東、騰訊、百度、小米、科大訊飛等，國外的蘋果、微軟、亞馬遜、谷歌、臉書、三星等，創(chuàng)歷史的同時(shí)發(fā)力爭奪未來智能時(shí)代的語音入口，甚至亞馬遜和阿里率先不惜代價(jià)開啟了補(bǔ)貼大戰(zhàn)。這些全球巨頭的激烈競爭，將對未來十年甚至二十年產(chǎn)生極其重要的影響。

那么，如何才能讓機(jī)器聽懂人類語言呢？這需要解決三個(gè)核心關(guān)鍵問題：聽見、聽準(zhǔn)和聽懂，從技術(shù)角度來看，就是拾音、識別和理解三個(gè)關(guān)鍵技術(shù)環(huán)節(jié)。拾音是最為基礎(chǔ)的環(huán)節(jié)，必須保證讓機(jī)器聽得見聲音，這部分主要是聲學(xué)問題；識別是將符合要求的聲音轉(zhuǎn)化成文字，這部分主要是語音識別的問題；理解則是根據(jù)識別出來的文字，準(zhǔn)確理解人類的指令甚或情感。鑒于語音智能設(shè)備已經(jīng)大量出現(xiàn)在我們生活場景之中，當(dāng)前技術(shù)的核心關(guān)鍵就是聲學(xué)問題和語義理解。

二、近場語音是機(jī)器聽懂人類的率先嘗試

近場語音交互主要是指人類距離機(jī)器不超過30厘米范圍的語音識別技術(shù)，這項(xiàng)技術(shù)利用距離巧妙回避了真實(shí)場景下復(fù)雜的聲學(xué)問題，可以理解為一種實(shí)驗(yàn)室理想環(huán)境下的語音交互技術(shù)。近場語音識別從上世紀(jì)五十年代就開始研究，但是長期沒有實(shí)質(zhì)性進(jìn)展，直到蘋果在2010年推出Siri的應(yīng)用，這才引起了全球的關(guān)注。到現(xiàn)在為止，近場語音交互技術(shù)已經(jīng)比較成熟，平均識別率可以達(dá)到95%以上，主流的手機(jī)和平板等設(shè)備都已經(jīng)普遍支持近場語音應(yīng)用。這里提醒一下，很多人工智能大會(huì)或者電視演播廳所展示的實(shí)時(shí)語音識別或者翻譯技術(shù)，其實(shí)都是近場語音交互技術(shù)，這些聲音都是從近場麥克風(fēng)采集的高質(zhì)量數(shù)據(jù)，與會(huì)場的嘈雜環(huán)境并沒有實(shí)際關(guān)聯(lián)。

但是近場語音交互受到了真實(shí)場景的巨大制約，并沒有展現(xiàn)出來語音交互可以解放雙手的先進(jìn)性，因此在很多場景中，事實(shí)上近場語音交互都是雞肋一般的存在，并沒有發(fā)揮出真正的威力，也就說，這個(gè)技術(shù)其實(shí)被嚴(yán)重低估了。直到遠(yuǎn)場語音交互技術(shù)的出現(xiàn)，成功解決了真實(shí)場景下的復(fù)雜聲學(xué)問題以后，至少技術(shù)達(dá)到了用戶認(rèn)可的門檻，語音交互才真正出現(xiàn)了替代鍵盤鼠標(biāo)和觸摸屏的可能性。

三、遠(yuǎn)場語音將語音智能落地到真實(shí)場景

遠(yuǎn)場語音交互主要解決30厘米到5米范圍內(nèi)的語音交互問題，這個(gè)范圍事實(shí)上就是人類之間溝通交流的最佳距離，距離太近容易觸發(fā)自我保護(hù)意識，而距離太遠(yuǎn)則會(huì)增大交流難度。注意語音交互并非只是語音問題，人類的交互其實(shí)是一個(gè)綜合的過程，包括了表情、眼神、肢體動(dòng)作等等一系列影響因素，太遠(yuǎn)距離的語音交互事實(shí)上意義不大，比如隔墻的語音交互事實(shí)上只要做好語音控制就可以了，真實(shí)場景下并不需要復(fù)雜的交互設(shè)計(jì)，因?yàn)槿祟愐埠茈y隔墻與人聊太多事情。

遠(yuǎn)場語音交互的歷史是比較短暫的，這項(xiàng)技術(shù)以前長期沒有實(shí)質(zhì)性突破，2014年是個(gè)重要的轉(zhuǎn)折點(diǎn)，亞馬遜的Echo最早開始探索這個(gè)市場，但是直到2016年末，全球才真正開始重視這項(xiàng)技術(shù)，并且短短一年時(shí)間，引領(lǐng)全球市場都進(jìn)入了激烈博弈的階段。聲智科技是遠(yuǎn)場語音交互的代表企業(yè)之一，其成長歷史就是這一年多技術(shù)和市場變遷的見證。

遠(yuǎn)場語音交互的代表產(chǎn)品自然就是智能音箱，盤點(diǎn)一下全球巨頭在智能音箱的布局就可窺得一二。亞馬遜的Echo發(fā)布四年已然影響深遠(yuǎn)，谷歌的Home劍走偏鋒以技術(shù)做博弈，微軟的Invoke則仍然堅(jiān)持工程師定義產(chǎn)品的文化，蘋果的HomePod更是剛剛跳票低估了高端智能音箱的難度，而臉書和三星仍然在緊鑼密鼓的研發(fā)；反觀國內(nèi)甚為熱鬧，小米的小愛同學(xué)以299元的低價(jià)撬開市場，阿里的天貓精靈則以99元的低價(jià)率先補(bǔ)貼，就在騰訊、華為還在猶豫的時(shí)候，百度剛剛發(fā)布了渡鴉智能音箱和DuerOS開發(fā)板SoundPi。雖然國內(nèi)的智能音箱起步很晚，但是國內(nèi)市場經(jīng)常演繹奮起直追甚至超越的故事。

這里還有兩個(gè)重要的數(shù)據(jù)最具說服力，一個(gè)就是亞馬遜Echo的銷量已經(jīng)超過千萬，另外一個(gè)就是阿里的天貓精靈雙十一超過了百萬臺。也就說，智能音箱作為語音智能的突破口已經(jīng)成立，這是遠(yuǎn)場語音交互的一大進(jìn)步，只有落地真實(shí)場景并且經(jīng)過驗(yàn)證的技術(shù)才具有生命力。注意，這里還是特別強(qiáng)調(diào)智能音箱只是遠(yuǎn)場語音交互的突破口，并非什么語音的唯一入口，因?yàn)槲磥淼臋C(jī)器智能時(shí)代，語音入口不僅僅只有智能音箱，比如電視、冰箱、汽車和機(jī)器人都有可能成為重要入口。但是智能音箱又是非常重要的，因?yàn)椴还墚a(chǎn)品形態(tài)怎樣變化，其本質(zhì)的核心其實(shí)還是智能音箱的技術(shù)架構(gòu)。

四、聽懂世界還有哪些必須解決的問題？

若讓機(jī)器聽懂世界，遠(yuǎn)場語音交互技術(shù)也僅是個(gè)嘗試而已，事實(shí)上遠(yuǎn)場語音技術(shù)本身也只是剛剛起步，即便5米以內(nèi)，其噪聲抑制、回聲抵消、混響去除、遠(yuǎn)場喚醒和遠(yuǎn)場識別等核心技術(shù)還存在諸多缺陷。但是技術(shù)一直在迭代發(fā)展，特別是當(dāng)技術(shù)落地場景以后，源源不斷的真實(shí)數(shù)據(jù)和客戶需求將帶動(dòng)技術(shù)更加快速的發(fā)展。

從技術(shù)層面來看，讓機(jī)器聽懂世界涉及了數(shù)學(xué)、物理學(xué)、語言學(xué)、醫(yī)學(xué)、計(jì)算機(jī)學(xué)等各學(xué)科的知識，很難一一枚舉出來，但是若從應(yīng)用場景來看，則相對比較簡單，讓機(jī)器聽懂世界包括了人類語言、人類情感、動(dòng)物聲音和自然聲音。

1、聽懂人類語言

前面提到了近場和遠(yuǎn)場語音交互的技術(shù)，這可以解決5米以內(nèi)的語音交互問題，基本囊括了人機(jī)交互的主要問題，但是還有更多復(fù)雜場景的問題需要解決，比如：

遠(yuǎn)場語音交互：主要解決5米以內(nèi)的喚醒、識別和理解問題，雖然這項(xiàng)技術(shù)已經(jīng)落地實(shí)際的場景和產(chǎn)品，但是對于諸如雞尾酒會(huì)效應(yīng)等難題仍然還沒有實(shí)質(zhì)性進(jìn)展，而且從人類相互交流的過程來看，當(dāng)前的遠(yuǎn)場語音交互技術(shù)還遠(yuǎn)遠(yuǎn)沒有達(dá)到非常準(zhǔn)確、非常順暢的程度。

超遠(yuǎn)場交互：主要是指5米、10米、20米甚至500米以外的超遠(yuǎn)距離拾音和交互，這種技術(shù)的難度就是解決在遠(yuǎn)距離聲音傳播過程中能量衰減的約束下獲取高質(zhì)量聲音數(shù)據(jù)的問題，因?yàn)闆]有高質(zhì)量的聲音數(shù)據(jù)，再厲害的機(jī)器學(xué)習(xí)也沒有任何價(jià)值。這種技術(shù)主要應(yīng)用在智能安防場景，比如交通監(jiān)控，搭配遠(yuǎn)距離聲發(fā)射技術(shù)可以實(shí)現(xiàn)遠(yuǎn)程指揮的自動(dòng)交通處理。

局部場交互：主要是指針對某個(gè)局部范圍內(nèi)的語音識別和理解，主要適應(yīng)于智能醫(yī)療、智慧法庭、智能教育、智能會(huì)議等特殊場景，比如實(shí)時(shí)記錄和識別法官、醫(yī)生或者教師說過的話。這種場景的需求比較單一，僅僅針對特定目標(biāo)進(jìn)行拾音和識別即可，但是對于識別的速度和精度要求非常高，一般也要達(dá)到98%以上。

分布場交互：主要是指狹小空間內(nèi)多人識別和響應(yīng)的問題，最常見的就是汽車場景，現(xiàn)在的汽車智能交互僅僅照顧了駕駛員的需求，但實(shí)際應(yīng)用中可能需要照顧汽車其他乘客的交互需求，這就涉及了多人識別和交互的問題。事實(shí)上，隨著智能音箱等一系列智能設(shè)備的普及，未來我們的家庭就是典型的分布場交互場景。

多語種交互：主要適應(yīng)跨語言時(shí)候的自由交互場景，當(dāng)前Google、百度和科大訊飛推出的翻譯機(jī)部分解決了一些問題，但是這些翻譯機(jī)主要還是近場語音，過渡到遠(yuǎn)場語音交互的難度很大，因?yàn)榉g的場景確實(shí)太復(fù)雜多變了，在數(shù)據(jù)積累還沒形成規(guī)模之前，這類技術(shù)還很難有實(shí)質(zhì)性突破。

大詞匯交互：思考一個(gè)問題，能不能將語音識別應(yīng)用到話劇的場景？似乎這是一個(gè)更加頭疼的問題，因?yàn)閺穆晫W(xué)、識別到理解都是巨大的挑戰(zhàn)。話劇演員一般不會(huì)佩戴麥克風(fēng)，這就要求遠(yuǎn)場多人識別，而且話劇演員常會(huì)自白一大段，如何進(jìn)行端點(diǎn)識別和語音識別？這樣發(fā)散來想，當(dāng)前的智能語音技術(shù)真的是才剛剛開始。

2、聽懂人類情感

至于聽懂人類情感，則是一個(gè)更加復(fù)雜的過程，人類至今也沒搞清楚情感的來源，所以即便熱戀中的情侶，也無法搞清楚對方的真實(shí)需求。但是至少有幾個(gè)技術(shù)點(diǎn)是和人類情感有關(guān)系的，這里簡單闡述一下。

聲紋識別，聲紋識別的理論基礎(chǔ)是每一個(gè)聲音都具有獨(dú)特的特征，通過該特征能將不同人的聲音進(jìn)行有效的區(qū)分。聲紋的特征主要由兩個(gè)因素決定，第一個(gè)是聲腔的尺寸，具體包括咽喉、鼻腔和口腔等，這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的范圍。第二個(gè)決定聲紋特征的因素是發(fā)聲器官被操縱的方式，發(fā)聲器官包括唇、齒、舌、軟腭及腭肌肉等，他們之間相互作用就會(huì)產(chǎn)生清晰的語音。而他們之間的協(xié)作方式是人通過后天與周圍人的交流中隨機(jī)學(xué)習(xí)到的。

情感識別，主要是從采集到的語音信號中提取表達(dá)情感的聲學(xué)特征，并找出這些聲學(xué)特征與人類情感的映射關(guān)系。情感識別當(dāng)前也主要采用深度學(xué)習(xí)的方法，這就需要建立對情感空間的描述以及形成足夠多的情感語料庫。情感識別是人機(jī)交互中體現(xiàn)智能的應(yīng)用，但是到目前為止，技術(shù)水平還沒有達(dá)到產(chǎn)品應(yīng)用的程度。

哼唱識別，主要是通過用戶哼唱歌曲的曲調(diào)，然后通過其中的旋律同音樂庫中的數(shù)據(jù)進(jìn)行詳細(xì)分析和比對，最后將符合這個(gè)旋律的歌曲信息提供給用戶。目前這項(xiàng)技術(shù)在音樂搜索中已經(jīng)使用，識別率可以達(dá)到80%左右。

聲光融合，聲學(xué)和光學(xué)總是相伴相生，人類的情感也是通過聽覺和視覺同時(shí)接受分析的，因此機(jī)器也必然將語音和圖像結(jié)合在一起分析，才能更好的理解人類的情感，但是語音和圖像在各自領(lǐng)域并沒有發(fā)展成熟，因此聲光融合的研究一直處于被輕視的尷尬地位。

3、聽懂動(dòng)物聲音

讓機(jī)器聽懂動(dòng)物的聲音，或許是一個(gè)苛刻的要求，因?yàn)槿祟愔两褚矝]有聽懂動(dòng)物的聲音，甚至嬰兒的哭聲，我們只能大概的去猜測。但是這不影響機(jī)器的進(jìn)步，因?yàn)樵诤芏囝I(lǐng)域，機(jī)器遲早是超越人類的。事實(shí)上，這類研究一直在進(jìn)行，比如海豚、蝙蝠、鯨魚、猩猩、老虎、獅子、貓狗、蚊子、蜂鳥等等動(dòng)物的聲音特征，當(dāng)數(shù)據(jù)積累足夠多的時(shí)候，根據(jù)聲音推斷這些動(dòng)物的行為不是不可能，而人類的進(jìn)步很大程度也得益于這種仿生。

4、聽懂自然聲音

當(dāng)然，機(jī)器也必須聽懂大自然的聲音，比如雷聲、雨聲、地震、海浪、風(fēng)聲等聲音，通過這些聲音則可以辨別機(jī)器所處的環(huán)境，并且根據(jù)環(huán)境做出判斷。其實(shí)，這些技術(shù)也正在落地，比如聲智科技正在研究的小樣本學(xué)習(xí)技術(shù)，就是根據(jù)噪聲來判斷場景的變化，顯然廚房的噪聲和客廳、臥室不會(huì)相同，同樣地，咖啡廳、火車站、機(jī)場、辦公室、汽車等場景的噪聲也有很大區(qū)別，通過區(qū)分這些噪音則可以快速匹配出場景，這將非常有利于后端智能的處理，比如自然語言理解增加了場景信息以后就會(huì)更加準(zhǔn)確。

五、聽懂世界還需要更多硬科技的嘗試

讓機(jī)器聽懂世界，不能僅僅依賴算法和數(shù)據(jù)，更重要的還是底層硬科技的突破，下面列舉了聲智科技正在參與研發(fā)的一些基礎(chǔ)技術(shù)，期望能有更多的學(xué)子參與到這些令人興奮的研發(fā)過程之中。

智能麥克風(fēng)，可以簡單理解為將當(dāng)前的MEMS麥克風(fēng)與低功耗芯片融合在一起，主要是解決低功耗語音喚醒和識別的問題。

矢量麥克風(fēng)，當(dāng)前的麥克風(fēng)都是標(biāo)量麥克風(fēng)，只能獲取單一的物理信息，也就是能量值，根據(jù)時(shí)間信息和陣列配置才能獲取頻域和相位信息。若將標(biāo)量麥克風(fēng)升級成為矢量麥克風(fēng)，則增加了一個(gè)維度的特征信息，這對于機(jī)器學(xué)習(xí)的提升將會(huì)非常明顯。

薄膜麥克風(fēng)，這是一種柔性的技術(shù)，可以想象把整個(gè)電視屏幕當(dāng)作麥克風(fēng)的場景，通過特殊的納米材料技術(shù)，甚至可以把任何界面都當(dāng)作聲音的接收裝置，通常來說這種換能器裝置也可以把聲音轉(zhuǎn)變成電能。

柔性揚(yáng)聲器，這實(shí)際上和薄膜麥克風(fēng)的原理類似，只是將換能的方向換了一下，柔性揚(yáng)聲器目前多種方案，目前來看其難點(diǎn)主要還是發(fā)聲的帶寬和失真問題。

激光拾聲，這是主動(dòng)拾聲的一種方式，可以通過激光的反射等方法拾取遠(yuǎn)處的振動(dòng)信息，從而還原成為聲音，這種方法以前主要應(yīng)用在竊聽領(lǐng)域，但是目前來看這種方法應(yīng)用到語音識別還比較困難。

微波拾聲，微波是指波長介于紅外線和無線電波之間的電磁波，頻率范圍大約在 300MHz至300GHz之間，同激光拾聲的原理類似，只是微波對于玻璃、塑料和瓷器幾乎是穿越而不被吸收。

高速攝像頭拾聲，這是利用高速攝像機(jī)來拾取振動(dòng)從而還原聲音，這種方式需要可視范圍和高速攝像機(jī)，只在一些特定場景里面應(yīng)用。

小結(jié)

小結(jié)一下，讓機(jī)器聽懂世界的技術(shù)正在全球快速的演化，相信不久的將來，我們肯定能看到更加智能的機(jī)器，因此，既不要抨擊當(dāng)前的人工智能技術(shù)，也不要盛贊現(xiàn)在的基礎(chǔ)科技技術(shù)，保持一顆平靜的心，正確給予科技界和產(chǎn)業(yè)界的支持才是對于未來最大的投資。不管外界怎樣評論，一個(gè)技術(shù)公司的價(jià)值最終還是體現(xiàn)在這個(gè)公司為社會(huì)創(chuàng)造了多大的價(jià)值。

但是，我們也應(yīng)該看到，國內(nèi)產(chǎn)業(yè)界長期不重視基礎(chǔ)技術(shù)的投入，甚至資本界也常常不看好技術(shù)類型公司，國內(nèi)更看重的還是模式創(chuàng)新，這和美國形成了很大的反差。這其中的深層次原因，應(yīng)該還是取決于當(dāng)前國內(nèi)主流的追求依然是個(gè)人名望和經(jīng)濟(jì)回報(bào)，這嚴(yán)重束縛了我們對于未來的夢想和渴望，當(dāng)然，這也是經(jīng)濟(jì)發(fā)展的必經(jīng)階段，只有解決了經(jīng)濟(jì)問題，我們才能真正對于知識產(chǎn)生自由的渴望，才能看的更遠(yuǎn)，追求的夢想更大。

當(dāng)夢想越近的時(shí)候難度其實(shí)越大，誰都會(huì)有夢想，關(guān)鍵在于你愿不愿意為此付出，并且能夠咬牙堅(jiān)持下來。未來，讓機(jī)器聽懂世界，更加期待年輕人的參與，當(dāng)然，從我個(gè)人來說，我更期待有理想的學(xué)子們能來聲智科技，因?yàn)檫@不是一家談情懷的公司，而是一家談理想的公司！

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频