吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

聊聊小公司如何做大模型

深度學(xué)習(xí)自然語言處理 ? 來源:李文舉說@知乎 ? 2024-02-21 11:28 ? 次閱讀

在小公司做大模型,這個(gè)事情是可以的。

筆者在小公司,做了一年多的大模型。先列一下成績(jī)單:

開源了目前業(yè)界可能是分類較完整(50類)、數(shù)量較大(1100+萬)的SFT數(shù)據(jù)集:匠數(shù)科技大模型sft數(shù)據(jù)集[1]

通過SFT、DPO、RLHF等技術(shù)訓(xùn)練了領(lǐng)域?qū)懽髂P汀?shí)測(cè)下來,在該領(lǐng)域?qū)懽魃希瑥?qiáng)于國(guó)內(nèi)大多數(shù)的閉源模型。

如何在小公司做大模型,筆者總結(jié),有如下幾點(diǎn):

1、至少要有基礎(chǔ)的硬件條件。

如果雙卡3090都沒有,那是比較難的。實(shí)在沒有,可以說服老板,租機(jī)器訓(xùn)練。

2、要有選擇跟進(jìn)模型訓(xùn)練、部署的最新進(jìn)展,選主流、走大道。

技術(shù)迭代太快,人力有限的情況下,不可能什么都跟進(jìn)的。比如部署,市面上的部署方案很多了,但是主流的就是vllm,所以,集中精力將vllm搞懂用好,就夠了,其他的可以了解,但不用重點(diǎn)關(guān)注。

再比如各種訓(xùn)練技術(shù),經(jīng)過驗(yàn)證好用的也就是那么幾個(gè)。看起來過于旁門左道的論文,可以先放放,讓子彈飛一會(huì)兒再說。提一點(diǎn),DPO確實(shí)是小公司對(duì)齊訓(xùn)練的福音。

3、要堅(jiān)持開放交流,多加群。

圍繞llm,有很多社群,也有很多活動(dòng),可以選擇性參加,但是切記切記,不要過分沉溺其中,以為這樣就能緊跟時(shí)代前沿,掌握最新趨勢(shì)了。假裝學(xué)到很多,是很有害滴。記得前段時(shí)間不是有個(gè)什么架構(gòu),號(hào)稱取代transformer嗎?鋪天蓋地的宣傳,筆者當(dāng)時(shí)也聽了作者的線上分享。現(xiàn)在呢?自己連個(gè)像樣的模型都沒搞出來。純純浪費(fèi)太多精力。相信時(shí)間會(huì)證明一切。

4、要針對(duì)業(yè)務(wù)場(chǎng)景解決問題,不要陷入llm崇拜。

這種現(xiàn)象典型的就是不是llm的工作就提不起神,不想做。實(shí)話實(shí)說,這是病,得治。筆者根據(jù)業(yè)務(wù)問題需求,開源的cutword[2],就是為了替代jieba的新一代分詞工具,同時(shí),ner類型和效果都是目前開源中一流的,也收獲了大家的認(rèn)可。

解決問題才是關(guān)鍵。不能有了llm這個(gè)錘子,看什么都是釘子。具體問題具體分析的能力很重要。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2548

    瀏覽量

    3168

原文標(biāo)題:如何在小公司做大模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    中國(guó)2家AI公司連發(fā)新模型趕超OpenAI

    )本身就是國(guó)內(nèi)兩家備受關(guān)注的人工智能大模型創(chuàng)業(yè)公司;一些國(guó)外網(wǎng)友在貼吧留言表示中國(guó)AI追趕速度越來越快。 在技術(shù)社區(qū)Hacker News,有一位開發(fā)者感嘆“中國(guó)初創(chuàng)公司已展現(xiàn)出趕超美國(guó)人工智能
    的頭像 發(fā)表于 01-23 17:00 ?522次閱讀

    SAR ADC如何做好布線布局?

    SAR ADC如何做好布線布局?
    發(fā)表于 12-17 08:27

    聊聊std::move函數(shù)和std::forward函數(shù)

    今天我們聊聊Modern cpp的兩個(gè)非常重要的概念移動(dòng)語義和轉(zhuǎn)發(fā)引用。
    的頭像 發(fā)表于 11-05 16:58 ?385次閱讀

    華秋商城器件做EDA封裝

    EDA相樣封裝,尤其小公司及創(chuàng)業(yè)公司研發(fā)人員。 3: 華秋的PCB 及SMT業(yè)務(wù)是個(gè)亮點(diǎn)。比競(jìng)爭(zhēng)對(duì)手做得好。點(diǎn)贊!
    發(fā)表于 10-26 09:59

    谷景科普工字電感的電感量如何做大

    在電子制造領(lǐng)域,工字電感因其出色的性能而備受青睞,尤其是在需要高儲(chǔ)能和低阻抗的應(yīng)用中。隨著各行業(yè)的發(fā)展,大家對(duì)工字電感的電感量提出了更高的要求。為了滿足客戶對(duì)增大工字電感感量的需求,我們要從多個(gè)角度進(jìn)行考量和改進(jìn)。 1.優(yōu)化繞線方法:改進(jìn)線圈的纏繞方式可以增加電感量,例如通過更緊密的繞線來減小線圈的總長(zhǎng)度,從而增加電感量 。 2.選擇高磁導(dǎo)率的磁芯材料:使用導(dǎo)磁率更高的磁芯材料可以提高電感量。磁芯材料的選擇對(duì)
    的頭像 發(fā)表于 09-30 14:32 ?284次閱讀

    從“可用”到“好用”,百度智能云如何做大模型的“超級(jí)工廠”?

    如果說,過去兩三年大模型處于造錘子階段,那么今年,更多的則是考驗(yàn)釘釘子的能力,面對(duì)各類業(yè)務(wù)場(chǎng)景大模型是否能夠有的放矢、一擊必中,為千行百業(yè)深度賦能。 ? 當(dāng)前市場(chǎng)上,已經(jīng)有200多把這樣的錘子在瘋狂
    的頭像 發(fā)表于 09-26 18:18 ?350次閱讀
    從“可用”到“好用”,百度智能云<b class='flag-5'>如何做大</b><b class='flag-5'>模型</b>的“超級(jí)工廠”?

    用LM3886T做大功率輸出時(shí),發(fā)現(xiàn)輸出信號(hào)的波形不平滑,為什么?

    最近我用LM3886T做大功率輸出時(shí),發(fā)現(xiàn)輸出信號(hào)的波形不平滑,特別是在輸入信號(hào)比較小的情況下。 附件是我的輸出波形,希望能點(diǎn)建議,如何才能變的比較平滑。 謝謝!
    發(fā)表于 09-18 08:29

    新火種AI 大模型公司紛紛被收編!創(chuàng)始人們逐漸變成了“最討厭的自己”?

    最近,國(guó)內(nèi)大模型公司的融資潮正在如火如荼的進(jìn)行著,各大公司紛紛收獲了融資,正在攜手邁進(jìn)“200億估值”的門檻。 不過,與國(guó)內(nèi)大模型領(lǐng)域的繁花似錦相比,國(guó)外的大
    的頭像 發(fā)表于 08-21 15:05 ?324次閱讀
    新火種AI 大<b class='flag-5'>模型</b><b class='flag-5'>公司</b>紛紛被收編!創(chuàng)始人們逐漸變成了“最討厭的自己”?

    Hugging Face科技公司推出SmolLM系列語言模型

    7月22日最新資訊,Hugging Face科技公司在語言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專為適應(yīng)多樣計(jì)算資源而設(shè)計(jì)的緊湊型語言模型家族。該系列包含三個(gè)版本,分別搭載了1.35億、3.6億及17億參數(shù),旨在以
    的頭像 發(fā)表于 07-23 16:35 ?398次閱讀

    如何做好大功率環(huán)形電感選型工作

    電子發(fā)燒友網(wǎng)站提供《如何做好大功率環(huán)形電感選型工作.docx》資料免費(fèi)下載
    發(fā)表于 07-04 17:08 ?1次下載

    潞晨訓(xùn)推一體機(jī),畫出大模型到企業(yè)的一條龍路線圖

    企業(yè)做大模型,如何才能不折騰?
    的頭像 發(fā)表于 06-14 09:41 ?1712次閱讀
    潞晨訓(xùn)推一體機(jī),畫出大<b class='flag-5'>模型</b>到企業(yè)的一條龍路線圖

    ASML任命新CEO,帶領(lǐng)公司走向未來

    據(jù)了解,福奎特將延續(xù)文寧克制定的戰(zhàn)略方向。十余年前,文寧克接手ASML時(shí),這家荷蘭小公司如今已成長(zhǎng)為全球頂尖半導(dǎo)體制造商的重要合作伙伴。
    的頭像 發(fā)表于 04-25 16:34 ?770次閱讀

    STM32擴(kuò)展IO口如何做

    STM32擴(kuò)展IO口,如何做
    發(fā)表于 04-16 08:27

    sora模型中國(guó)可以使用嗎 sora模型是哪個(gè)公司

    Sora,美國(guó)人工智能研究公司OpenAI發(fā)布的人工智能文生視頻大模型(但OpenAI并未單純將其視為視頻模型,而是作為“世界模擬器” ,于2024年2月15日(美國(guó)當(dāng)?shù)貢r(shí)間)正式對(duì)外發(fā)布
    的頭像 發(fā)表于 02-22 16:52 ?3445次閱讀

    sora模型上市公司 sora模型對(duì)現(xiàn)實(shí)的影響

    sora模型的上市公司目前沒有相關(guān)官方的報(bào)道,因此無法給出準(zhǔn)確的回答。 Sora能夠獲取現(xiàn)有視頻并對(duì)其進(jìn)行擴(kuò)展或填充缺失的幀,這一功能在視頻編輯、電影特效等領(lǐng)域具有應(yīng)用前景,可以幫助用戶快速完成視頻
    的頭像 發(fā)表于 02-22 16:46 ?1161次閱讀
    澳门顶级赌场娱乐网| 威尼斯人娱乐城动态| 百家乐官网那个平好| 百家乐官网玩法秘决| 德州扑克发牌视频| 高科技百家乐牌具| 金锁玉关24山砂水断| 思南县| 威尼斯人娱乐场怎么样| 玩百家乐去哪个平台好| 百家乐官网的战术| 百家乐官网投注助手| 大发888赌场网址| 百家乐任你博娱乐平台| 百家乐官网丽| 百家乐官网投注方向| 新濠国际娱乐| 大发888游戏 下载| 百家乐计划| 做生意戴什么珠子招财| 正品百家乐官网游戏| 百家乐官网怎样看点| 六合彩票| 东京太阳城王子大酒店| 百家乐平台送彩金| 百家乐投注平台| 百家乐官网庄闲庄庄闲| 百家乐官网注册开户送现金| 新利娱乐开户| 大发888娱乐真钱游戏 官方| 骰子百家乐的玩法技巧和规则| 百家乐路单资料| 百家乐官网一邱大师打法| 百家乐官网庄闲局部失衡| 中西区| 智尊国际娱乐| 大发888在线娱乐| 百家乐存200送200| 百家乐如何抽千| 百家乐有好的投注法吗| 百家乐免费破解外挂|