吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌宣布開源Android語音識(shí)別轉(zhuǎn)錄工具 —— Live Transcribe的語音引擎

SwM2_ChinaAET ? 來源:lq ? 2019-10-01 17:03 ? 次閱讀

谷歌在其開源博客中宣布開源 Android 語音識(shí)別轉(zhuǎn)錄工具 —— Live Transcribe 的語音引擎(Live Transcribe Speech Engine),它旨在將語音或?qū)υ拰?shí)時(shí)轉(zhuǎn)錄為文字,還能夠?yàn)槁犝先耸刻峁椭?/p>

Live Transcribe 是谷歌于今年 2 月推出的一款 Android 應(yīng)用程序,它的語音識(shí)別由谷歌最先進(jìn)的 Cloud Speech API 提供。但是,依賴于云引入了一些復(fù)雜性,不斷變化的網(wǎng)絡(luò)連接、數(shù)據(jù)成本和延遲的魯棒性等等都帶來一些考驗(yàn)。因此,谷歌把它開源出來, 希望開發(fā)人員在已有的基礎(chǔ)上進(jìn)一步構(gòu)建和開發(fā)。

Cloud Speech API 目前無法支持無限的音頻流,團(tuán)隊(duì)目前采取了一些措施來解決這一難題,例如在達(dá)到超時(shí)之前關(guān)閉并重新啟動(dòng)流式傳輸請(qǐng)求,這將有效減少會(huì)話中丟失的文本量。

無限流媒體音頻帶來了一大挑戰(zhàn)。在許多國(guó)家,網(wǎng)絡(luò)數(shù)據(jù)非常昂貴,并且在互聯(lián)網(wǎng)較差的地方,帶寬可能有限。Live Transcribe Speech Engine 的團(tuán)隊(duì)對(duì)音頻編解碼器進(jìn)行了大量實(shí)驗(yàn),并最終在不影響精度的情況下將數(shù)據(jù)使用量減少了 10 倍。

另外,由于是提供實(shí)時(shí)語音轉(zhuǎn)錄,轉(zhuǎn)錄出來的文本會(huì)隨著語音的輸入不斷發(fā)生變化,降低延遲自然十分必要。該引擎能夠大大降低延遲率,這都要?dú)w功于它的自定義 Opus 編碼器

此外,值得一提的是,Live Transcribe 支持超過 70 種語言,并能夠根據(jù)語音自動(dòng)識(shí)別語種,其中也包括中文。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 解碼器
    +關(guān)注

    關(guān)注

    9

    文章

    1148

    瀏覽量

    40936
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6195

    瀏覽量

    106016
  • 語音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1742

    瀏覽量

    112927

原文標(biāo)題:【業(yè)內(nèi)熱點(diǎn)】谷歌開源實(shí)時(shí)語音轉(zhuǎn)錄引擎 Live Transcribe Speech Engine

文章出處:【微信號(hào):ChinaAET,微信公眾號(hào):電子技術(shù)應(yīng)用ChinaAET】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    語音識(shí)別與自然語言處理的關(guān)系

    在人工智能的快速發(fā)展中,語音識(shí)別和自然語言處理(NLP)成為了兩個(gè)重要的技術(shù)支柱。語音識(shí)別技術(shù)使得機(jī)器能夠理解人類的語音,而自然語言處理則讓
    的頭像 發(fā)表于 11-26 09:21 ?585次閱讀

    語音識(shí)別技術(shù)的應(yīng)用與發(fā)展

    語音識(shí)別技術(shù)的發(fā)展可以追溯到20世紀(jì)50年代,但直到近年來,隨著計(jì)算能力的提升和機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,這項(xiàng)技術(shù)才真正成熟并廣泛應(yīng)用于各個(gè)領(lǐng)域。語音識(shí)別技術(shù)的應(yīng)用不僅提高了工作效率,也極大
    的頭像 發(fā)表于 11-26 09:20 ?743次閱讀

    ASR與傳統(tǒng)語音識(shí)別的區(qū)別

    ASR(Automatic Speech Recognition,自動(dòng)語音識(shí)別)與傳統(tǒng)語音識(shí)別在多個(gè)方面存在顯著的區(qū)別。以下是對(duì)這兩者的對(duì)比: 一、技術(shù)基礎(chǔ) ASR : 基于深度學(xué)習(xí)算
    的頭像 發(fā)表于 11-18 15:22 ?643次閱讀

    ASR語音識(shí)別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語音識(shí)別技術(shù),是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語音轉(zhuǎn)換為文本,廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個(gè)領(lǐng)域。以下是對(duì)ASR
    的頭像 發(fā)表于 11-18 15:12 ?1029次閱讀

    基于Arm Neoverse N2實(shí)現(xiàn)自動(dòng)語音識(shí)別技術(shù)

    自動(dòng)語音識(shí)別 (Automatic Speech Recognition) 技術(shù)已經(jīng)深入到現(xiàn)代生活的方方面面,廣泛應(yīng)用于從語音助手、轉(zhuǎn)錄服務(wù),到呼叫中心分析和
    的頭像 發(fā)表于 11-15 11:35 ?445次閱讀
    基于Arm Neoverse N2實(shí)現(xiàn)自動(dòng)<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>技術(shù)

    物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語音識(shí)別方案_離線語音識(shí)別芯片分析

    01 物聯(lián)網(wǎng)系統(tǒng)中為什么要使用離線語音識(shí)別芯片 物聯(lián)網(wǎng)系統(tǒng)中使用離線語音識(shí)別芯片的原因主要基于以下幾個(gè)方面: 1、實(shí)時(shí)性與可靠性 實(shí)時(shí)性好:離線語音
    的頭像 發(fā)表于 09-26 17:56 ?788次閱讀
    物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>方案_離線<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>芯片分析

    WTK6900FC語音識(shí)別模塊

    語音識(shí)別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月25日 17:35:07

    唯創(chuàng)知音WT2605C用在離在線語音識(shí)別方案# #語音芯片 #語音識(shí)別 #唯創(chuàng)知音

    語音識(shí)別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月12日 17:24:28

    谷歌推出Gemini Live,開啟AI語音聊天新紀(jì)元

    在萬眾矚目的Pixel 9系列手機(jī)發(fā)布會(huì)上,谷歌震撼宣布了一項(xiàng)創(chuàng)新服務(wù)——Gemini Live,該服務(wù)自今日起,率先向使用英語的Gemini Advanced訂閱用戶敞開大門。這一舉措標(biāo)志著
    的頭像 發(fā)表于 08-15 17:29 ?769次閱讀

    什么是離線語音識(shí)別芯片?與在線語音識(shí)別的區(qū)別

    離線語音識(shí)別芯片適用于智能家電等,特點(diǎn)為小詞匯量、低成本、安全性高、響應(yīng)快,無需聯(lián)網(wǎng)。在線語音識(shí)別功能更廣泛、識(shí)別準(zhǔn)確率高,但依賴穩(wěn)定網(wǎng)絡(luò)。
    的頭像 發(fā)表于 07-22 11:33 ?479次閱讀

    Transformer模型在語音識(shí)別語音生成中的應(yīng)用優(yōu)勢(shì)

    隨著人工智能技術(shù)的飛速發(fā)展,語音識(shí)別語音生成作為人機(jī)交互的重要組成部分,正逐漸滲透到我們生活的各個(gè)方面。而Transformer模型,自其誕生以來,憑借其獨(dú)特的自注意力機(jī)制和并行計(jì)算能力,在
    的頭像 發(fā)表于 07-03 18:24 ?1309次閱讀

    車載語音識(shí)別系統(tǒng)語音數(shù)據(jù)采集標(biāo)注案例

    車載語音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一種自然語言處理技術(shù),載語音識(shí)別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量,將所聽到的語音轉(zhuǎn)化成可讀取的語
    的頭像 發(fā)表于 06-19 15:52 ?409次閱讀
    車載<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>系統(tǒng)<b class='flag-5'>語音</b>數(shù)據(jù)采集標(biāo)注案例

    車載語音識(shí)別系統(tǒng)語音數(shù)據(jù)采集標(biāo)注案例

    車載語音識(shí)別系統(tǒng)是指利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)的一種自然語言處理技術(shù),載語音識(shí)別系統(tǒng)通過辨別聲音的語調(diào)、語速和音量,將所聽到的語音轉(zhuǎn)化成可讀取的語
    的頭像 發(fā)表于 06-19 15:49 ?573次閱讀

    語音識(shí)別的技術(shù)歷程及工作原理

    語音識(shí)別的本質(zhì)是一種基于語音特征參數(shù)的模式識(shí)別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
    的頭像 發(fā)表于 03-22 16:58 ?3859次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>的技術(shù)歷程及工作原理

    澎湃微離線語音識(shí)別應(yīng)用實(shí)例

    隨著科技的飛速發(fā)展,人機(jī)交互的方式也在不斷演變。在鍵盤、觸摸屏之后,語音識(shí)別技術(shù)正逐漸成為人機(jī)交互的新寵。從技術(shù)路線上來講語音識(shí)別又分為在線語音
    發(fā)表于 03-15 14:11 ?484次閱讀
    澎湃微離線<b class='flag-5'>語音</b><b class='flag-5'>識(shí)別</b>應(yīng)用實(shí)例
    大发888真人| 百家乐里什么叫洗码| 百家乐官网稳赢投资法| 夹江县| 蜀都棋牌下载| 百家乐平台| 赌博百家乐游戏| 百家乐娱乐城优惠| 百家乐官网博赌城| 民宅24方位| 百家乐官网现场新全讯网| 新全讯网3| 百家乐怎么刷反水| 百家乐官网打闲赢机会多| 青鹏棋牌游戏大厅v3.0| 金牌娱乐城官网| 百家乐扫瞄光纤洗牌机扑克洗牌机扑克洗牌机 | 百家乐官网视频游戏双扣| 大发888ios版| 大发888官方正版网| 新太阳城工业区| 大发888娱乐城怎么玩| 大西洋百家乐的玩法技巧和规则| 百家乐道具扫描| 百家乐赌场娱乐城| 巴宝莉百家乐的玩法技巧和规则| 土豪百家乐的玩法技巧和规则 | 大发888娱乐客户端| 新皇冠现金网怎么样| 现金棋牌游戏| 优博网站| 百家乐官网转盘技巧| 百家乐官网怎样投注好| 百家乐官网百胜注码法| 百家乐官网多少钱| 百家乐官网资深 | 澳门百家乐官网有限公司| 娱乐论坛| 大发娱乐城888| 百家乐十佳投庄闲法| 百家乐如何必胜|