在AI產業鏈中,算法、算力和數據共同構成技術發展的三大核心要素。在當前人工智能行業發展進程中,有監督的深度學習算法,是推動人工智能技術取得突破性發展的關鍵技術理論,而大量訓練數據的支撐則是有監督的深度學習算法實現的基礎,訓練數據早已成為算法模型發展和演進的燃料。
AI基礎數據服務市場快速增長
當前,全球基礎數據服務行業正處于快速成長期,市場規模具有較大的增長空間。從AI產業鏈的發展情況和未來發展趨勢來看,中國基礎數據服務行業的市場規模也將不斷擴大。
一方面,隨著算法模型、技術理論和應用場景的優化和創新,AI產業對訓練數據的拓展性需求和前瞻性需求均快速增長;另一方面,隨著行業內對訓練數據需求類型的增加以及對服務標準要求的提高,產業鏈的專業化分工將愈加清晰,專業化的訓練數據服務提供商將扮演更加重要的角色。
根據IDC預測,2025年中國人工智能市場規模有望達到184.3億美元(約1200億人民幣)。其中,關于基礎數據部分,預計中國AI基礎數據服務市場規模近5年來的復合年增長率達到47%,預期2025年將突破120億元,達到中國人工智能市場支出總額的約10%。
在當前技術發展進程中,深度學習算法是推動人工智能技術取得突破性發展的關鍵技術理論,而大量訓練數據的訓練支撐則是深度學習算法實現的基礎。訓練數據越多、越完整、質量越高,模型推斷的結論越可靠。因此,要使算法模型實現從技術理論到應用實踐的落地過程,就需要提供大量的訓練數據,對算法模型加以訓練。
2021年,全球人工智能和機器學習領域最權威的學者之一吳恩達教授提出二八定律:AI研究80%的工作應該放在數據準備上,確保數據質量是最重要的工作。
然而,從自然數據源簡單收集取得的原料數據并不能直接用于有監督的深度學習算法訓練, 必須經過專業化的采集、加工,形成相應的工程化訓練數據集后才能供深度學習算法等訓練使用。目前,應用有監督學習的算法對于訓練數據的需求遠大于現有的標注效率和投入預算,基礎數據服務將持續釋放其對于算法模型的基礎支撐價值。
海天瑞聲為全球科技企業提供數據服務
海天瑞聲主要從事AI訓練數據的研發設計、生產及銷售業務。公司通過設計數據集結構、組織數據采集、對取得的原料數據進行加工,最終形成可供AI算法模型訓練使用的專業數據集,通過軟件形式向客戶交付。
自2005年成立以來,該公司始終致力于為AI產業鏈上的各類機構提供算法模型開發訓練所需的專業數據集。經過多年發展,公司已成為人工智能基礎數據服務領域具有較強國際競爭力的國內頭部企業,并實現了標準化產品、定制化服務、相關應用服務全覆蓋。
海天瑞聲所提供的訓練數據涵蓋智能語音(語音識別、語音合成等)、計算機視覺、自然語言等多個核心領域,全面服務于人機交互、智能家居、智能駕駛、智慧金融、智能安防等多種創新應用場景。
其產品和服務已獲得字節跳動、阿里巴巴、騰訊、百度、科大訊飛、海康威視、微軟、 亞馬遜、三星、中國科學院、清華大學等國內外客戶的認可,應用于其研發的個人助手、智能音箱、語音導航、搜索服務、短視頻、虛擬人、智能駕駛、機器翻譯等多種產品相關的算法模型訓練過程中。
目前公司客戶累計數量 740 家,覆蓋了科技互聯網、社交、IoT、智能駕駛、智慧金融等領域的主流企業,教育科研機構以及部分政企機構。
最近由OpenAI推出的ChatGPT大火,微軟也宣布將ChatGPT功能集成到公司的產品中,包括必應。海天瑞聲日前表示,微軟是公司的重要客戶之一,公司向微軟提供智能語音-訓練數據定制服務及訓練數據產品、自然語言-訓練數據定制服務及訓練數據產品、計算機視覺-訓練數據定制服務及訓練數據產品、訓練數據相關的應用服務。
可以看到海天瑞聲的業務已經遍布國內外,除了國內字節跳動、阿里巴巴、騰訊、百度等之外,海天瑞聲也與多家海外知名科技企業合作,包括Microsoft、Meta、Samsung、Google等。
海天瑞聲表示,相比于境內,海外市場空間更加廣闊。根據IDC數據,全球AI投入約為中國AI投入的10倍以上,廣闊的市場空間意味著更多的市場參與者與更加激烈的競爭環境,過往多年公司憑借在語音方面的深厚積累,尤其是多語種方面的積累和能力,獲得眾多境外客戶認可,公司的多語種、以及OCR數據集幫助眾多海外公司進行其全球化擴張。
截至目前,公司已覆蓋超過190種語種/方言,不僅包括含英、法、德、意、西、日、韓等常見語種,還包括東南亞、一帶一路等國家地區的罕見多語種,尤其在亞洲多語種的服務上具備獨特的競爭優勢。
小結
隨著ChatGPT大火,預計大模型的訓練和部署將會加速,而數據作為AI產業鏈中的一環,重要作用不可忽視。在這個領域,國內已經有一批早早入局的企業,在技術上已經具備深厚積累,這對于國內在發展大模型技術方面來說,無疑是很好的基礎。
審核編輯 :李倩
-
算法
+關注
關注
23文章
4630瀏覽量
93356 -
AI
+關注
關注
87文章
31520瀏覽量
270339 -
人工智能
+關注
關注
1796文章
47674瀏覽量
240294
原文標題:算法模型發展的燃料,AI基礎數據服務市場規模快速增長!
文章出處:【微信號:elecfans,微信公眾號:電子發燒友網】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論