摘要:?對國際化企業(yè)來說語言問題是亟待突破的重要關(guān)口。面對海量的文本翻譯任務(wù),昂貴低效的人工翻譯顯然不能滿足需求,利用計算機(jī)自動進(jìn)行文本翻譯的機(jī)器翻譯才是解決這個問題的關(guān)鍵。阿里翻譯團(tuán)隊在機(jī)器翻譯領(lǐng)域做了大量技術(shù)儲備,并針對我們所處的電子商務(wù)領(lǐng)域進(jìn)行算法優(yōu)化,進(jìn)而打造阿里巴巴自己的機(jī)器翻譯平臺。
對國際化企業(yè)來說語言問題是亟待突破的重要關(guān)口。面對海量的文本翻譯任務(wù),昂貴低效的人工翻譯顯然不能滿足需求,利用計算機(jī)自動進(jìn)行文本翻譯的機(jī)器翻譯才是解決這個問題的關(guān)鍵。阿里翻譯團(tuán)隊在機(jī)器翻譯領(lǐng)域做了大量技術(shù)儲備,并針對我們所處的電子商務(wù)領(lǐng)域進(jìn)行算法優(yōu)化,進(jìn)而打造阿里巴巴自己的機(jī)器翻譯平臺。
目前阿里翻譯API已經(jīng)正式上線阿里云平臺,讓所有的阿里云用戶可以申請使用阿里翻譯的最新技術(shù)成果啦,今天就讓我們一起進(jìn)入機(jī)翻黑科技時間-解密阿里翻譯。
1、阿里翻譯支持的業(yè)務(wù)場景
阿里翻譯積極助力集團(tuán)國際化、全球化業(yè)務(wù),不僅在電商業(yè)務(wù)場景有著扎實的積累和優(yōu)質(zhì)的服務(wù)能力,同時也在不斷拓展創(chuàng)新業(yè)務(wù)場景,借助AI技術(shù)賦能產(chǎn)品和服務(wù)。
目前已為集團(tuán)內(nèi)十幾條業(yè)務(wù)線提供機(jī)器翻譯和本地化支持,覆蓋了Alibaba.com 、 AliExpress 、 Lazada 、釘釘、阿里云、優(yōu)酷、支付寶、菜鳥、天貓精靈、高德、飛豬等眾多產(chǎn)品。
1.1跨境電商解決方案
阿里機(jī)器翻譯深入剖析“網(wǎng)站/APP本地化”、“引流拉新”、“到站搜索”、“用戶轉(zhuǎn)化”、“支付物流”、“留存復(fù)購”等全鏈路環(huán)節(jié),提供多類的翻譯和語言服務(wù),積極提升業(yè)務(wù)價值。
以下是部分鏈路環(huán)節(jié)介紹:
1.1.1搜索翻譯
跨境電商中目前搜索引擎主要基于英文做索引,需要將本地用戶輸入的搜索詞進(jìn)行語種識別然后再翻譯成英文,通過英文進(jìn)行索引匹配,返回搜索結(jié)果,這是保障多語言流量轉(zhuǎn)化率的關(guān)鍵環(huán)節(jié),直接影響多語言電商GMV。
除跨語言搜索翻譯外,目前阿里翻譯在搜索自動化上支持完整的人工解決方案,能夠針對電商平臺高流量top search query快速提供人工語種識別&翻譯結(jié)果,干預(yù)生效,同時挖掘搜索業(yè)務(wù)低轉(zhuǎn)化的badcase search query并快速人工修正翻譯結(jié)果的能力,快速提升轉(zhuǎn)化指標(biāo)。
1.1.2商品翻譯
跨境電商中需要對全站商品信息進(jìn)行多語言化,包括商品標(biāo)題、商品詳情、商品評論等內(nèi)容進(jìn)行翻譯。其中商品標(biāo)題是用戶獲取商品信息的重要途徑,在商品標(biāo)題翻譯場景上,通過對源語言是中文或者英文的標(biāo)題進(jìn)行NER識別,并根據(jù)不同業(yè)務(wù)方的業(yè)務(wù)規(guī)則對識別后的標(biāo)題根據(jù)成分進(jìn)行重新改寫生成,改寫后再翻譯成目標(biāo)語種。對商品的購買轉(zhuǎn)換率有非常重要的影響。
商品詳情是用戶閱讀商品信息的主要內(nèi)容,包括商品屬性、商品描述等信息,商品屬性是商品的關(guān)鍵信息,機(jī)器翻譯系統(tǒng)會通過翻譯記憶將關(guān)鍵信息進(jìn)行高質(zhì)量存儲提高翻譯準(zhǔn)確率,這部分內(nèi)容能夠幫助用戶更好的了解商品各種規(guī)格材質(zhì),有效幫助用戶進(jìn)行購買決策。
由于網(wǎng)站買家來自全球各地,所以用戶對商品的評價信息也是來自多國多語言,網(wǎng)站提供選項將多語言評論信息勾選統(tǒng)一翻譯成英文的功能,幫助買家更好了解其他買家對商品的評價反饋信息。
1.1.3溝通翻譯:
網(wǎng)站買賣家都是來自世界各地,所以對商品的基本信息,售前咨詢,售后服務(wù)都需要進(jìn)行基本的語言溝通,這是翻譯最基本的應(yīng)用場景,通過提供實時機(jī)器翻譯同時能夠?qū)Ψg結(jié)果進(jìn)行后編輯,提升翻譯后譯文的質(zhì)量。可以幫助電商網(wǎng)站大大提升購買轉(zhuǎn)化和售后投訴等等問題。
1.2網(wǎng)站國際化解決方案
阿里翻譯目前服務(wù)集團(tuán)內(nèi)數(shù)十個業(yè)務(wù)方的產(chǎn)品國際化及本地化需求,支持?jǐn)?shù)十種語言的人工精翻,實現(xiàn)網(wǎng)站本地化的標(biāo)準(zhǔn)化、自動化、中臺化。
1.3 人機(jī)結(jié)合翻譯解決方案
目前現(xiàn)有機(jī)器翻譯質(zhì)量還不完美的前提下,對于一些對質(zhì)量要求極高的內(nèi)容通過適當(dāng)加入人工翻譯的力量可以快速達(dá)成業(yè)務(wù)目標(biāo),目前阿里翻譯擁有上百家語言供應(yīng)商和數(shù)十萬個人譯者的龐大翻譯資源,可以針對重點商品進(jìn)行高效快速的低成本人工翻譯,對快速啟動新業(yè)務(wù)起到了不可或缺的作用。
1.4創(chuàng)新服務(wù)場景解決方案
阿里翻譯沉淀了優(yōu)質(zhì)的跨境語料數(shù)據(jù)庫,充分利用先進(jìn)的機(jī)器翻譯算法技術(shù)和海量的數(shù)據(jù)資源,深度打磨機(jī)器翻譯質(zhì)量和產(chǎn)品體驗,并積極拓展機(jī)器翻譯業(yè)務(wù)的產(chǎn)品形態(tài),將各項機(jī)器翻譯技術(shù)產(chǎn)品化,如語音翻譯、會場同傳、實時溝通等新產(chǎn)品和服務(wù)形態(tài)。
阿里巴巴實時語音翻譯,于18年初隨阿里AI軍團(tuán)一同出征美國CES(國際消費電子展),在拉斯維加斯精彩亮相,成功吸引了國內(nèi)外眾多媒體和觀眾的目光。
2、阿里機(jī)器翻譯技術(shù)體系的特點
在線上快速發(fā)展以及隨著集團(tuán)開始全面國際化的背景下,阿里機(jī)器翻譯平臺經(jīng)過多年的打磨逐漸形成自己的體系。
2.1高性能高并發(fā)服務(wù)能力
當(dāng)前在線機(jī)器翻譯系統(tǒng)提供SMT和NMT兩種翻譯模型,近兩年來由于硬件計算能力的大幅提升和深度機(jī)器學(xué)習(xí)的廣泛使用,在翻譯質(zhì)量上NMT翻譯質(zhì)量已經(jīng)遠(yuǎn)超傳統(tǒng)的SMT模型,不過NMT在計算上的復(fù)雜使得NMT在速度上也遠(yuǎn)慢于SMT。NMT解碼速度的提升是系統(tǒng)提供高吞吐,低延遲服務(wù)的關(guān)鍵。
2.1.1 分布式并行翻譯
當(dāng)前機(jī)翻平臺承接的業(yè)務(wù)相當(dāng)大的一部分翻譯需求為大本文和網(wǎng)頁,將這些請求按照對應(yīng)的格式進(jìn)行結(jié)構(gòu)化的解析,然后通過分句模型把篇章級的請求分隔為句子級別,然后再分布式批量調(diào)用解碼服務(wù),這樣不僅能大幅提高分布式緩存的命中率,環(huán)節(jié)性能壓力同時也能大幅降低長文本的翻譯延遲。
2.1.2 Inference優(yōu)化
今年NMT已經(jīng)成了翻譯行業(yè)的一個標(biāo)配,隨著這種技術(shù)的普及也給系統(tǒng)性能帶來了新的挑戰(zhàn)。這一年多基于GPU的NMT優(yōu)化極大的提高了系統(tǒng)的解碼速度,對系統(tǒng)的解碼速度有數(shù)倍的提升。
2.1.3 SMT和NMT混合解碼
根據(jù)實際業(yè)務(wù)場景,我們發(fā)現(xiàn)在處理商品頁的時候會出現(xiàn)大量短句,而且這些短句的NMT翻譯結(jié)果還不如SMT的翻譯結(jié)果,所以在調(diào)用decoder前通過一個策略模塊來決策調(diào)用SMT或者NMT,從而減少NMT的吞吐量,極大的減少了GPU資源的消耗同時也提升了翻譯質(zhì)量。
2.2 服務(wù)全球化以及高可用的保障
2.2.1 全球多機(jī)房部署
阿里集團(tuán)的涉及到的多語言翻譯業(yè)務(wù)需求遍布全球,為了更好的支持不同地域的翻譯需求同時能盡量減小由于地域帶來的訪問延遲,翻譯平臺實現(xiàn)了全球中國、俄羅斯、美國、新加坡多機(jī)房部署。 不僅實現(xiàn)了單地域的多機(jī)房容災(zāi)同時還支持跨地域全球容災(zāi)。
2.2.2 多場景差異化支持
阿里翻譯接入的場景比較多情況也比較復(fù)雜,不同的應(yīng)用場景對系統(tǒng)的要求也不盡相同,所以針對不同的應(yīng)用場景實現(xiàn)了同步和異步兩套處理機(jī)制,架構(gòu)上實現(xiàn)兩種不同的對外接口,但是機(jī)翻引擎保持同一套代碼同一套服務(wù),
同步:
接收到請求后實時的調(diào)用后端引擎,能夠做到實時返回,用于對rt要求高的場景,另外通過多級緩存進(jìn)一步的提高吞吐量和降低rt。
異步:
大文本商品翻譯和離線翻譯場景。通過metaq消息隊列實現(xiàn)異步化,通過不同的消息隊列來對應(yīng)用設(shè)置不同的優(yōu)先級,使用信號量來控制不同隊列消費的線程數(shù),動態(tài)的解決翻譯熱點時消息堆積問題。
2.3 Transformer 新型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
阿里機(jī)器翻譯基于業(yè)界最新的Transformer結(jié)構(gòu)進(jìn)行了網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)和對詞語位置信息的充分利用,全面改進(jìn)了機(jī)器翻譯的性能。
2.4 多模態(tài)服務(wù)能力
現(xiàn)階段的機(jī)器翻譯已不僅僅局限于文字到文字的翻譯, 多模態(tài)的翻譯已成為發(fā)展趨勢。將多模態(tài)的信息如語音、圖像、類目等通過神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,并利用Attention機(jī)制將信息加以聚焦,可以獲得良好的效果。阿里翻譯實時語音翻譯demo在云棲大會、CES展會上都有亮眼的表現(xiàn)。
3、阿里云機(jī)器翻譯API接入流程
介紹了技術(shù)能力和如此廣闊的應(yīng)用場景,接下來詳細(xì)介紹下我們到底應(yīng)該如何接入使用?
1、打開阿里云主頁(https://www.aliyun.com),在導(dǎo)航欄選擇產(chǎn)品-人工智能-機(jī)器翻譯,進(jìn)入自然語言處理頁面選擇開通服務(wù)
2、勾選閱讀并同意協(xié)議,單擊立即開通
3、進(jìn)入自然語言處理控制臺,選擇購買資源包
4、購買對應(yīng)的資源包,購買量越大單價越便宜。
5、購買完成后就可以進(jìn)行調(diào)用了。可在API調(diào)試界面進(jìn)行調(diào)試
6、機(jī)器翻譯調(diào)用說明文檔
7、代碼調(diào)用示例
8、代碼調(diào)用失敗示例,查看錯誤信息
4、未來展望
為了更好地迎接國際化帶來的挑戰(zhàn), 阿里翻譯團(tuán)隊在未來還有著很大的想象空間,在翻譯模型上會向“統(tǒng)一化,多任務(wù)化,多模態(tài)化”方向發(fā)展,產(chǎn)品形態(tài)上除了目前基于文本的翻譯外,會擴(kuò)展跟多模態(tài)的翻譯產(chǎn)品,例如語音翻譯、圖像翻譯等領(lǐng)域,同時還是針對具體應(yīng)用場景例如搜索、實時溝通、旅游推出相關(guān)接口服務(wù),在服務(wù)部署上也會針對客戶需求推出定制化私有化部署的能力,助力企業(yè)解決國際化過程中的語言問題。
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
評論
查看更多