2月22日,小米龍年第一場重磅發(fā)布會,正式發(fā)布專業(yè)影像旗艦小米14 Ultra。
此前小米發(fā)布的兩代 Ultra,在不同維度,引領(lǐng)了移動影像行業(yè)的走向。最新的小米14 Ultra 在定義的時候,我們反復(fù)在思考:怎么才能把移動影像推向一個全新的層次?
為此,小米跟徠卡、用戶、攝影師、專家學(xué)者做了大量的交流,最終確定小米14 Ultra 影像追求的目標(biāo):讓真實有層次,要細節(jié)豐富,過渡細膩;要主次明確,遠近分明,通過好的技術(shù)和審美,還原生活的豐富、從而直指人心。
當(dāng) AI 大模型與手機影像結(jié)合,會碰撞出什么火花?
為了讓基于 AI 大模型實現(xiàn)的手機影像系統(tǒng)更符合小米的“光學(xué)味”,在結(jié)合小米14 Ultra 的設(shè)計理念下,我們層次性地去釋放大模型的能力,給用戶帶來突破性的效果和使用體驗。
這里,要和大家重點介紹小米首個 AI 大模型計算攝影平臺 Xiaomi AISP,也是小米影像大腦的全新升級。Xiaomi AISP 是計算攝影的強力之作,它有哪些革命性升級?我們一起來看。
01
Xiaomi AISP
首個 AI 大模型計算攝影平臺
AI 大模型一經(jīng)問世,便展現(xiàn)了其驚人的技術(shù)能力,各行各業(yè)都相繼涌現(xiàn)出了利用 AI 大模型來推動技術(shù)變革的不同思路。小米相機團隊也一直在思考,AI 大模型會給手機影像帶來哪些變革?又如何將 AI 大模型技術(shù)更好地引入到手機影像系統(tǒng)里來?
經(jīng)過不斷地技術(shù)驗證及效果評估,小米確定了開發(fā)基于 AI 大模型的 Xiaomi AISP 影像處理系統(tǒng)的目標(biāo),并在效果、算力、生成三個方面有了獨家的見解和想法創(chuàng)新。
效果:在圖像領(lǐng)域,AI 大模型最初被用來生成描述包含各式內(nèi)容、具有指定風(fēng)格的圖像。但隨著技術(shù)的迭代,生成圖像的質(zhì)量、真實性、分辨率越來越高,甚至達到了影棚級的效果。
若將大模型用到相機影像系統(tǒng)的任務(wù)中,處理噪聲、影調(diào)、人像等問題,效果是不是會更好?團隊帶著問題開始嘗試和探索,認(rèn)為在具備一定質(zhì)量的圖像輸入的前提下,經(jīng)過合適的調(diào)整和匹配,AI 大模型會得到相較于傳統(tǒng)方法或者第一代 AI 技術(shù)更好的效果。
算力:算力,是將大模型應(yīng)用到手機上、拍照影像系統(tǒng)里最大的問題。團隊為了能將 AI 大模型應(yīng)用到實時性要求非常高的手機相機影像系統(tǒng)中,在模型重構(gòu)設(shè)計、模型求解優(yōu)化(推理迭代)以及系統(tǒng)級管線管理及多硬件算法分配方面,投入了非常多的資源,也攻克了許多關(guān)鍵性的問題。
通過重新設(shè)計、訓(xùn)練適合相機影像任務(wù)的小型化 AI 大模型,并基于小米澎湃 OS 和自研的異構(gòu)加速平臺,全面整合了 CPU、GPU、NPU 和 ISP 的平臺算力(計算能力達到 60 TOPS),最終成功地實現(xiàn)了基于 AI 大模型的 ISP 系統(tǒng)解決了端側(cè)、拍照模型運行的速度、功耗等問題。
生成:為了讓基于 AI 大模型實現(xiàn)的相機影像系統(tǒng)更符合小米的“光學(xué)味”,在結(jié)合小米14 Ultra 的設(shè)計理念下,我們層次性地去釋放大模型的能力。在基礎(chǔ)的影像功能任務(wù)和場景,從多個維度相對保守的使用了 AI 大模型的生成能力,以保持大模型原有的優(yōu)勢;相反的,在超出光學(xué)和傳感器物理極限的場景,我們會適當(dāng)釋放大模型的生成能力,以帶來不一樣的效果體驗。
本次推出的14 Ultra 所使用的 Xiaomi AISP 平臺便是通過對效果、算力、生成的創(chuàng)新思考,基于 Stable Diffusion 模型(圖像處理領(lǐng)域的基礎(chǔ) AI 大模型)開發(fā)。
依據(jù)相機影像功能間的耦合程度以及相機功能特點,小米將 Xiaomi AISP 拆分成四類大模型,即融合光學(xué)大模型、影調(diào)大模型、色彩大模型及人像大模型,并且各個模型都經(jīng)過了小型化、異構(gòu)并行等加速處理,以符合手機端側(cè)、拍照功能客觀需求特點。
經(jīng)過這四類大模型不同的組合方式并結(jié)合影像處理流程的其他模塊,實現(xiàn)了基于 Xiaomi AISP 的全新的相機功能,接下來讓我們展開介紹。
02
AI 超級變焦
恢復(fù)超高清遠景瞬間
清晰地捕捉動人瞬間,不受拍攝距離遠近的影響,留住想要記錄的真實。小米首次將 AIGC 技術(shù)應(yīng)用到計算攝影領(lǐng)域,帶來了能精準(zhǔn)預(yù)測“看到什么”、“想要呈現(xiàn)什么樣”的影像,解決相機中長焦功能拍攝距離遠,成片效果模糊不清,缺少真實性的問題,并利用先進的 Stable Diffusion 大模型將其生成為圖片的 AI 超級變焦(Ultra Zoom)功能。
以往 AIGC 往往使用在如魔法消除等后處理功能中,而如今應(yīng)用在實時出圖的功能中,小米走在了前列。可以說,Ultra Zoom 是 AIGC 在影像領(lǐng)域應(yīng)用的革命性創(chuàng)新。
受硬件限制,長焦高倍率拍攝場景一直以來都是行業(yè)難題之一。相比于專業(yè)相機,手機相機的傳感器、光圈都更小,限制了最終拍攝圖像的空間分辨率和聚光能力。因此當(dāng)我們在拍攝遠景時,大氣擾動疊加鏡頭光學(xué)模糊、像素欠采樣等影響都會導(dǎo)致手機相機傳感器捕捉的照片出現(xiàn)清晰度不足、線條扭曲、細節(jié)丟失等現(xiàn)象。
由于 Zoom 倍率比較大,現(xiàn)有相機通常采用對圖像裁切并插值放大的方式來實現(xiàn)數(shù)字變焦,進一步導(dǎo)致圖像變得模糊,失真也更嚴(yán)重,影響最終拍攝出圖畫質(zhì)。
隨著大模型技術(shù)的出現(xiàn),我們在思考是否可以借助大模型的強大生成能力和泛化能力來提升移動端相機在長焦高倍率的拍攝效果。于是,展開了 Ultra Zoom 算法的研發(fā),利用超大參數(shù)量的新一代網(wǎng)絡(luò)架構(gòu),對精心清洗的大量(超過200w)超高清數(shù)據(jù)進行學(xué)習(xí),使得模型具備了對細節(jié)恢復(fù)任務(wù)的充分理解及知識遷移,實現(xiàn)對遠攝場景自適應(yīng)超清優(yōu)化效果。
Ultra Zoom 以 Stable Diffusion 大模型為基座,融合了場景分割、超分辨率等多項技術(shù),以低清圖像作為提示,結(jié)合大模型的先驗知識,“猜想”出物體的紋理和細節(jié),帶來真正可用的超高倍率變焦效果。
▍大模型輕量化升級,部署移動端側(cè)
Stable Diffusion 大模型雖然具有強大的理解能力和生成能力,但數(shù)十億的參數(shù)量對于算力和存儲都受限的手機移動端部署是巨大的挑戰(zhàn),很多特殊的計算操作是手機端側(cè)目前無法支持的。 即使部分算子能夠進行支持,推理時間也是達到了數(shù)十秒,盡管目前出現(xiàn)了很多關(guān)于 Diffusion 推理性能的優(yōu)化方案,但是想直接應(yīng)用到對實時性要求較高的手機拍照上,還有很大差距,大模型如何輕量化到可以進行端側(cè)部署是一大難題。
為了解決以上問題,我們對齊硬件平臺規(guī)格,對低效算子進行替換,同時結(jié)合量化、剪枝技術(shù),實現(xiàn)了硬件感知的性能優(yōu)化。同時從迭代推理部署入手,結(jié)合潛在一致性模型思想,將原本上千步的迭代優(yōu)化到了6步以內(nèi),降低推理迭代計算負(fù)擔(dān)。最后結(jié)合大模型蒸餾技術(shù),保證輕量化后的 Stable Diffusion 相比原來推理精度損失最小,達到秒級推理高清 4K 圖像的水平,可成功部署在移動端。
▍真實清晰雙向并行,提升畫面細節(jié)
基于大模型的圖像生成任務(wù)中,保真度和清晰度的平衡是一個非常重要的難點。保真度通常指的是生成的圖像與真實物理場景的相似度,而清晰度則指的是生成的圖像的細節(jié)和清晰程度。 例如拍攝一張遠處的大樓,如果擴散模型過于注重清晰度和細節(jié),那么可能會在大樓的墻面生成磚紋,但真實的大樓可能是沒有磚紋或者不同形狀的磚紋,這樣生成的圖像就會失去真實感和自然感。相反,如果擴散模型過于注重保真度,沒有生成磚紋,反而將墻面抹的很平,那么就不會帶來畫面清晰度和細節(jié)的提升。
為了在保真度和清晰度之間尋求最優(yōu)平衡點,團隊采用局部判別學(xué)習(xí)的方式,對細節(jié)信息和異常紋理進行區(qū)分處理,對細節(jié)進行信息增強和恢復(fù),對異常紋理進行抑制和去除。同時研發(fā)了特征控制模塊,對不同場景和不同圖像內(nèi)容進行生成信息強度的引導(dǎo),實現(xiàn)場景自適應(yīng)的保真度和清晰度平衡。
AI 超級變焦功能生成的照片雖然可觀性更強,但是它加入了 AI 算法的修飾,并非完全的真實。真實性,是小米在影像戰(zhàn)略道路上一直堅守的方向。因此,對于 Ultra Zoom 所生成的圖像,小米都給予了它們加密的 AI 標(biāo)簽,這是一個藏在畫面中的「AI 暗水印」,這個信息不會隨著修圖或者分享而消失,從而保持照片來源的客觀性和真實性。
03
Ultra Raw 超級底片
塑造移動攝影新基底
讓移動攝影再邁進一步,定義屬于這個時代的新層次。得益于 Xiaomi AISP,小米14 Ultra 擁有全新融合光學(xué)大模型(FusionLM)算法,打破了常規(guī)的先剪切再拼接邏輯,最大化的保留了完整的原始光強信息,做到原始光強線性校準(zhǔn),在合成一張圖片時,突破了舊有合成技術(shù)過渡不自然不順滑的問題。
誕生于 Xiaomi AISP 計算管線多幀融合光學(xué)數(shù)據(jù)的 Ultra Raw 超級底片,能在 HDR 照片拍攝時,把多幀不同亮度的圖片以“像素”為單位合而為一,保留多幀完整的原始光強信息,并且取材的顆粒度更細膩,亮度變化更順滑自然,不會有割裂的光強表現(xiàn),在動態(tài)范圍達到 16EV,線性色深可以達到16bit 的條件下,給后期處理無盡的發(fā)揮空間。
融合光學(xué)大模型是整個 Xiaomi AISP 影像處理系統(tǒng)的核心部分,RAW 文件即一種未經(jīng)加工的“原始圖像編碼數(shù)據(jù)”的文件格式,保留著圖像感應(yīng)器捕捉到的原始畫面數(shù)據(jù),也被稱為「數(shù)字底片」。 Ultra Raw 超級底片具備可進行風(fēng)格化調(diào)色創(chuàng)作的原始圖像信息,能帶來更多影像的可塑性、創(chuàng)造性。可以說 Ultra Raw 超級底片為專業(yè)攝影師帶來了移動端攝影驚喜。
▍高度適配豐富場景,多幀融合絲滑拼接
那究竟是如何讓光影、像素信息過渡自然,達到順滑效果的呢? 常規(guī)而言,用戶在 HDR 照片拍攝時,成像會根據(jù)多幀不同亮度圖片的非線性亮度分布和細節(jié)情況,在不同區(qū)域選擇不同源的輸入,即所謂的“剪切”。 比如原始光強比較暗的區(qū)域會選擇曝光量更高的圖片,來獲得更合適的亮度和更佳的信噪比;原始光強比較亮的區(qū)域會選擇曝光量更低的圖片,來盡可能地避免過曝和還原更多高光細節(jié)等。且在選擇不同輸入源的同時,算法還會根據(jù)畫面的亮度和細節(jié)等信息計算其相應(yīng)的融合比例,最后不同區(qū)域根據(jù)不同比例進行“拼接”來得到最終的融合結(jié)果。
但問題也隨之而來,由于 HDR 照片拍攝時后臺拍攝的多幀圖片的曝光量往往是離散的,這時來自不同區(qū)域、不同輸入源的特性,就會導(dǎo)致最終成圖時不同區(qū)域之間也存在一定亮度離散性,畫面亮度不連續(xù)。
雖然研究人員也會做各種各樣平滑和過渡處理來緩解以上離散問題,但這并不能從根源上解決,也導(dǎo)致了后續(xù)拍攝成像時亮度線性關(guān)系保持不好、比例控制不當(dāng)易出現(xiàn)“不自然不連續(xù)”“亮度反轉(zhuǎn)”的問題。 由此,我們首先要解決的問題就是:如何借助大模型的強大算力和學(xué)習(xí)能力,解決傳統(tǒng)融合方法的弊端,從更細顆粒度的像素上自動學(xué)習(xí)多幀信息融合和亮度線性自然過渡,并兼顧運動偽影處理。
融合光學(xué)大模型 FusionLM 由于有線性數(shù)據(jù)的輸入要求,能從公開渠道獲得的訓(xùn)練數(shù)據(jù)較少,特別是拍攝對象帶真實連續(xù)運動的數(shù)據(jù)更加不足,很難發(fā)揮大模型海量數(shù)據(jù)的優(yōu)勢。針對該問題,我們創(chuàng)新性地提出了一套基于 AIGC 的多幀融合光學(xué)數(shù)據(jù)生成方法,極大提高了訓(xùn)練數(shù)據(jù)的場景豐富度和數(shù)據(jù)量,保證了 FusionLM 大模型的融合效果和豐富場景的適配能力。
▍網(wǎng)絡(luò)模型消除運動偽影,動勢成像過渡自然
在動勢場景下要想成像過渡自然,就不得不提及由于運動直接導(dǎo)致的“運動偽影”。在拍攝過程中,攝像者常會面臨運動對象的速度或快或慢,如快速行駛的汽車、慢悠悠散步的行人;被攝主體或大或小,如龐大的建筑和精巧的小物件;拍攝距離或遠或近帶來的成像尺寸變化,如人物特寫與大全景的情況。這就帶來了用戶常規(guī)拍攝時拍攝對象突然移動或者姿態(tài)變化帶來的運動偽影問題,這對網(wǎng)絡(luò)的多尺寸特征提取能力和提取效率提出了很大的挑戰(zhàn)。
需要既能“看到更大范圍”來覆蓋快速運動物體的運動區(qū)間和大尺寸拍攝對象,又能“聚焦更小范圍”來識別局部精細運動和小尺寸對象。因此,團隊特別設(shè)計了專門的人/物運動和人體姿態(tài)變化的數(shù)據(jù)生成方法,為網(wǎng)絡(luò)訓(xùn)練提供了更多樣、更連續(xù)真實的運動樣本,模擬真實拍攝場景的情況,極大提高了模型運動偽影的處理能力。
同時,也從網(wǎng)絡(luò)模型優(yōu)化著手,對 Tranformer 的 attention block 和 window partition 進行專門改進,提高網(wǎng)絡(luò)多尺度、cross patch 的特征提取能力。去有效解決運動偽影問題,提高用戶在運動場景拍攝效果和拍攝成片率。
Ultra Raw 超級底片,能夠做到高動態(tài)范圍、高信噪比、無運動偽影的純線性域數(shù)據(jù),帶給專業(yè)攝影師更多的操作空間。這個突破性的想法得到了徠卡的認(rèn)可,小米作為移動影像領(lǐng)域的引領(lǐng)者,從認(rèn)知到技術(shù),都為行業(yè)帶來了全新的突破。他們認(rèn)為“ Ultra Raw 甚至超越了光學(xué)無損,每一張照片都寫滿了被自由修改的渴望”。除了徠卡,Ultra Raw 還通過了 Adobe 實驗室校準(zhǔn),也是目前國內(nèi)率先支持 Lightroom HDR 工作流的安卓設(shè)備。
04
構(gòu)建小米的色彩還原體系
每個顏色都有獨特的 RGB 信息,給人傳遞或溫柔、或強烈、或冷淡等視覺識別性的信息特征。每一張照片都記錄著當(dāng)時入畫的環(huán)境、主體物等,要想成像質(zhì)量足夠高,圖像信息更豐富,就必須得提及 HDR(高動態(tài)范圍成像)技術(shù)。 作為在大家拍攝自然風(fēng)景、人物肖像、市場街景、食物攝影、藝術(shù)品展覽等場景下的好搭檔,能夠更細節(jié)地留下圖像的色彩信息,呈現(xiàn)出最貼近人眼視覺感受的真實色彩,還原所見之景。
那么,人眼中的色彩世界和相機傳感器中的色彩世界是否一致呢?人眼只能看到380納米到780納米之間的光譜,且看不見短于380納米的紫外線光波和長于780納米的紅外線光波。而相機傳感器的設(shè)計是基于人眼成像的特性,采用相近的響應(yīng)光譜分布,但依舊與真實人眼所能看到的色彩光波信息存在差異,因此, CMOS 傳感器無法真實呈現(xiàn)貼近肉眼和心理期待的色彩還原。
且自然界的物體不僅會反射顏色,也會吸收顏色,更是增加了還原色彩的難度。例如成熟的櫻桃有著飽滿艷麗的鮮紅色,這是因為櫻桃表面吸收綠光和藍光,而只反射長波光,所以才會顯出紅色。因此,感知到哪些顏色,取決于藍色、綠色和紅色被吸收的比例和光線強度。這些因素都讓人感受到照片和真實世界中顏色具有差異。這就需要我們圖像色彩大模型具備高精度的色彩還原能力,以滿足拍攝的照片能還原出原始圖像中的細節(jié)和色彩信息。
▍色彩大模型,高精度還原自然真實色彩
色彩,是認(rèn)知世界的重要信息。原有的 HDR 算法中,高光處顏色無法得到正確還原,以及存在偏色、失真的問題。為了更好地把握色彩,小米與徠卡工程師進行了深度地交談,同時結(jié)合產(chǎn)品和評測多方專業(yè)意見,構(gòu)建出了一套屬于小米自己的色彩還原體系。
通過在標(biāo)準(zhǔn)的實驗室場景和真實的自然場景大量的采集和調(diào)試,逐步完善了我們的色彩數(shù)據(jù)庫,并結(jié)合大模型強大的學(xué)習(xí)和表達能力,做到哪怕是高動態(tài)的拍攝場景下,也能保證色彩還原的準(zhǔn)確性,做到準(zhǔn)確還原人眼所感知的內(nèi)容,讓用戶所見即所得。
同時,針對以往算法會遇到的色彩斷層、過渡不均勻等問題,我們結(jié)合了傳統(tǒng)算法中的 3D LUT 技術(shù),利用其本身良好的色彩過渡性和連續(xù)性,融入進色彩大模型之中,在準(zhǔn)確還原色彩的基礎(chǔ)上,保證了色彩是自然連續(xù)有層次感的。無論是拍攝自然景色、城市風(fēng)光,還是普通拍照或高動態(tài)場景,畫面都能還原出真實的自然色彩,展現(xiàn)出場景中豐富的色彩變化,得到身臨其境般的影像效果。
05
大師開拍
探索電影級光影之美
影調(diào),如同畫作中的色彩一樣,能賦予畫面生命和情感,更是一種視覺情境的表現(xiàn)形式。Xiaomi 14 Ultra 是目前唯一支持全焦段 8K 拍攝的影像旗艦,擁有全新的影調(diào)大模型( ToneLM) 大模型算法。借助于大模型的強大算力,真正讓小米影像做到了“讓真實有層次”、“過渡細膩”、“主次明確”的影調(diào)風(fēng)格。
▍影調(diào)大模型,直出電影級層次感視頻
小米14 Ultra 搭載全新的「大師開拍」視頻功能,視頻影調(diào)風(fēng)格也進行了全面的升級,具備電影級的高規(guī)格,擁有“直出電影級層次感”視頻的能力。 它具備電影級的高規(guī)格,4K,24或30幀的電影幀率,10bit 色深、HLG 高動態(tài)范圍、以及 BT2020 廣色域。充分利用了 LYT-900 的高動態(tài)能力,捕捉和記錄 14EV 的動態(tài)范圍,并通過高動態(tài)的影調(diào)和中性的色調(diào),呈現(xiàn)出電影級自然、細膩的畫質(zhì)。許多攝影師體驗之后也不禁感嘆“安卓的視頻也終于有了影調(diào)”。 讓畫面光影效果更真實,光比更接近人眼的效果。小米使用了 ToneLM 大模型來訓(xùn)練 Tone mapping 算法,該模型會在 Ultra Raw 超高動態(tài)范圍線性數(shù)據(jù)上,自動學(xué)習(xí)如何調(diào)整圖像的亮度和對比度,提高影調(diào)效果,比傳統(tǒng)的 Tone mapping 算法能處理復(fù)雜的場景。
在亮度上,拍攝高動態(tài)范圍畫面時可以更真實地還原環(huán)境的光比,既保持影像的明暗影調(diào)關(guān)系,又還原暗部和高光蘊涵的細節(jié)。例如金屬質(zhì)感、夕陽的光感,以及夜晚的霓虹燈效果。
在對比度上,既聚焦全局通透感提升,強化場景特點,又專注于局部層次和反差的捕捉,實現(xiàn)整體通透、局部反差自然結(jié)合。例如波光粼粼的河流、郁郁蔥蔥的樹林等,讓影像更加鮮明、有立體感。
同時,在將高動態(tài)的圖像轉(zhuǎn)換為低動態(tài)圖像的過程中。主要關(guān)注:
呈現(xiàn)圖像的完整動態(tài)范圍,充分恢復(fù)圖像內(nèi)容細節(jié),暗區(qū)不死黑,亮區(qū)不過曝;
影調(diào)真實自然,盡量避免亮度反轉(zhuǎn),貼近人眼觀感。現(xiàn)有的視覺大模型算法不能完全匹配 Tone mapping 任務(wù)的特性和需求。
因此在模型設(shè)計上,將 transformer block 和空間/通道注意力模塊結(jié)合,并采用多尺度的架構(gòu),更好地挖掘局部和全局信息,保持影像的明暗影調(diào)關(guān)系,又還原暗部和高光蘊涵的細節(jié)。
當(dāng)你啟用大師開拍,視頻畫面就擁有了電影級的立體光影、柔和的色彩過渡,充滿故事感。
06
大師人像
邁入人像攝影新境界
攝影,需要真實性與藝術(shù)性的并行描繪,是一種能觸動人心的藝術(shù)。Xiaomi 14 Ultra 此次推出的「大師人像」功能便做到了真實與美麗的極致融合,帶來更豐富的焦段選擇、更強的抓拍能力,以及全新的「大師人像」/「徠卡人像」雙畫質(zhì),展現(xiàn)了小米在人像攝影層面的技術(shù)突破與藝術(shù)理解。
▍人像大模型,主體與背景的深層融合
人像攝影技術(shù)的全面超越,離不開人像大模型(Portrait LM)的技術(shù)支持,人像大模型共包括“人像語義”,“人像虛化”和“高保真人像智能美顏”三個主要模塊。 它們超越了傳統(tǒng)人像算法的「功能導(dǎo)向」思路,提供了模仿攝影大師思維方式的算法模型。通過算法的藝術(shù)般處理,讓光影更加立體、景深層次更加自然、皮膚細節(jié)和膚質(zhì)更加真實,為用戶獲得真實美好的人像圖像提供了最穩(wěn)妥的技術(shù)依托。
“人像語義”對圖像進行解析,通過大模型分析返回人像和環(huán)境的解析結(jié)果,實現(xiàn)了人像的精細化調(diào)整。“精細分割”是實現(xiàn)人像精細化處理的必殺技。
“人像語義”通過對圖像不同區(qū)域進行精細化的分割,對不同分割區(qū)域應(yīng)用不同的算法處理,來呈現(xiàn)整圖最優(yōu)的人像效果。例如通過皮膚分割,實現(xiàn)對膚色的精確還原;五官分割,對五官進行微調(diào),讓五官更加立體飽滿;發(fā)絲分割,幫助還原發(fā)絲,做到“發(fā)絲級”虛化;天空和場景分割,讓人像背景影調(diào)更加通透,色彩還原更加準(zhǔn)確。
除了能對圖像精細分割外,“人像語義”還會輸出圖像屬性 ID ,將不同的人像屬性 ID 與不同的算法相結(jié)合,實現(xiàn)對不同類型的人像最優(yōu)處理。例如定制面部美顏效果功能并能夠針對不同光源、膚質(zhì)區(qū)別性地對膚色進行調(diào)試,讓膚色還原更加準(zhǔn)確。
“人像虛化”則包括深度計算與虛化渲染兩部分。
深度計算動態(tài)融合多種語義信息,對深度細節(jié)、穩(wěn)定性方面的技術(shù)進行了增強。由于不同語義處理圖像的不同區(qū)域,小米還引入了“門控網(wǎng)絡(luò)”實現(xiàn)語義的動態(tài)融合,讓語義信息能根據(jù)圖像內(nèi)容自適應(yīng)優(yōu)化深度準(zhǔn)確性,從而使人像虛化更加真實自然。
例如拍攝人像特寫時,模型專注提升人體發(fā)絲還原準(zhǔn)確性,做到發(fā)絲根根分明;拍攝多人合影時,模型專注提升多人景深關(guān)系的準(zhǔn)確性,告別「紙片人」式的“虛化摳圖”的生硬感。 虛化渲染則能夠使用光源,還原網(wǎng)絡(luò)估計場景光斑能量分布,以做到光斑的光學(xué)還原。同時使用網(wǎng)絡(luò)對光學(xué)景深進行建模,做到與同光圈條件下單反相機能夠呈現(xiàn)地同樣的景深效果。
“高保真人像智能美顏”模塊構(gòu)建大規(guī)模人像修復(fù)模型并整合 StyleGan 的人像生成能力,使得美顏算法在修復(fù)補全的同時具備輕度智能生成效果,祛除人臉瑕疵同時獲得超越自身的輕微美化。 此外,大模型還整合了大量人像語義信息讓美顏更智能,讓算法能夠根據(jù)人像屬性信息匹配合適的美化效果,一鍵實現(xiàn)“千人千面”的定制化美顏效果。
同時,為避免過度美化問題,人像大模型還引入了語義高保真模塊,促使在修復(fù)和生成過程中,更好地記憶并保持人臉身份信息。
- 真實是人文影像永恒的魅力,能透過照片傳遞出情感與藝術(shù)張力,而真實影像的靈魂就在于“層次感”。
Xiaomi AISP 影像處理平臺,在技術(shù)上賦予了小米影像更多的精巧呈現(xiàn),同時又增添了許多對攝影藝術(shù)的深刻理解,層次性地展示了真實的人物、真實的場景、真實的光影,讓手機攝影進入新的藝術(shù)階段。 在小米影像的全新篇章里,技術(shù)與人文的交融,締造出了真實有層次的影像。讓我們一起拿起小米14 Ultra,用影像的語言,體驗豐富“層次感”所帶來的真實感受吧!
審核編輯:劉清
-
傳感器
+關(guān)注
關(guān)注
2553文章
51388瀏覽量
756558 -
小米
+關(guān)注
關(guān)注
70文章
14386瀏覽量
144934 -
NPU
+關(guān)注
關(guān)注
2文章
292瀏覽量
18783 -
AI大模型
+關(guān)注
關(guān)注
0文章
320瀏覽量
349
原文標(biāo)題:AI 大模型賦能手機影像,小米14 Ultra 讓真實有層次
文章出處:【微信號:xiaomigongsi0406,微信公眾號:小米公司】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
企業(yè)AI模型托管怎么做的
小米加速布局AI大模型,搭建GPU萬卡集群
小米成立AI平臺部
自動化AI開發(fā)平臺功能介紹
AI高性能計算平臺是什么
AI即服務(wù)平臺介紹
阿里云推出首個域名AI大模型應(yīng)用
阿里云推出業(yè)內(nèi)首個域名AI大模型應(yīng)用
EyeEm平臺默認(rèn)使用用戶照片訓(xùn)練AI模型,用戶可自行刪除作品
大模型加持,華為、OPPO、小米等手機AI攝影功能升級!
【ALINX 技術(shù)分享】AMD Versal AI Edge 自適應(yīng)計算加速平臺之 Versal 介紹(2)
![【ALINX 技術(shù)分享】AMD Versal <b class='flag-5'>AI</b> Edge 自適應(yīng)<b class='flag-5'>計算</b>加速<b class='flag-5'>平臺</b>之 Versal <b class='flag-5'>介紹</b>(2)](https://file1.elecfans.com/web2/M00/C4/01/wKgaomXpc4CAdotmAAESc7mijLA820.png)
評論