DeepSeek把自己誤認(rèn)成了ChatGPT?分析人士：或用了GPT生成文本做訓(xùn)練數(shù)據(jù)

2025-01-02 18:58:55 澎湃新聞

　　DeepSeek把自己誤認(rèn)成了ChatGPT?分析人士：或用了GPT生成文本做訓(xùn)練數(shù)據(jù)

　　記者喻琰

　　DeepSeek新發(fā)布的AI模型會(huì)“報(bào)錯(cuò)家門(mén)”？日前，有網(wǎng)友發(fā)現(xiàn)，在向DeepSeek-V3模型提問(wèn)“你是誰(shuí)”時(shí)，DeepSeek-V3似乎將自己識(shí)別為ChatGPT。

　　在進(jìn)一步提問(wèn)DeepSeek API的問(wèn)題，它回答也是如何使用OpenAI API的說(shuō)明，甚至講了一些與GPT-4一模一樣的笑話(huà)。有網(wǎng)友發(fā)出疑問(wèn)，“DeepSeek是否在ChatGPT生成的文本上進(jìn)行了訓(xùn)練？”

　　DeepSeek-V3是由國(guó)內(nèi)知名量化資管巨頭幻方量化創(chuàng)立的杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司(以下簡(jiǎn)稱(chēng)“深度求索”)最新發(fā)布的全新系列模型，由于這款模型總訓(xùn)練成本低，性?xún)r(jià)比高，發(fā)布后不少網(wǎng)友稱(chēng)其為“國(guó)產(chǎn)之光”，且有“AI界的拼多多”之稱(chēng)。但在發(fā)布后的一天，便出現(xiàn)了上述疑似“翻車(chē)”現(xiàn)象。

　　截至發(fā)稿前，深度求索公司尚未對(duì)此進(jìn)行回應(yīng)。但目前再次向DeepSeek-V3模型提問(wèn)“你是誰(shuí)”時(shí)，模型問(wèn)答已恢復(fù)正常。

　　DeepSeek-V3并不是第一個(gè)混淆自己的模型。科技媒體TechCrunch報(bào)道，此前谷歌的AI模型Gemini在被使用中文提問(wèn)你是誰(shuí)時(shí)，也回答自己是百度的文心一言。

　　國(guó)內(nèi)一家智能科技公司的技術(shù)負(fù)責(zé)人向澎湃科技記者分析時(shí)認(rèn)為，DeepSeek-V3有可能直接將在ChatGPT生成的文本上作為訓(xùn)練基礎(chǔ)，在訓(xùn)練過(guò)程中，該模型可能已經(jīng)記住了一些GPT-4的輸出，并正在逐字復(fù)述這些內(nèi)容。

　　另有業(yè)內(nèi)人士指出，目前互聯(lián)網(wǎng)大模型優(yōu)質(zhì)數(shù)據(jù)訓(xùn)練集有限，訓(xùn)練過(guò)程中不可能沒(méi)有重合，但是否構(gòu)成抄襲也很難定義。即便“站在了ChatGPT巨人肩膀上，但成本降下來(lái)是真的”。

　　不過(guò)，直接在ChatGPT生成的文本上訓(xùn)練DeepSeek-V3也并不奇怪，前述智能科技公司技術(shù)負(fù)責(zé)人指出，拿GPT的回答作為數(shù)據(jù)集訓(xùn)練自有模型在國(guó)內(nèi)很常見(jiàn)，“這種不用抓取數(shù)據(jù)，并且能夠額外做數(shù)據(jù)處理，能節(jié)省時(shí)間、人力和訓(xùn)練成本�！庇�(xùn)練一個(gè)大模型需要吞噬海量數(shù)據(jù)，耗盡了世界上所有容易獲取的數(shù)據(jù)。

　　TechCrunch在報(bào)道中分析認(rèn)為，造成這類(lèi)現(xiàn)象的原因在于，目前互聯(lián)網(wǎng)(AI公司獲取大量訓(xùn)練數(shù)據(jù)的地方)正充斥著AI垃圾。生成式人工智能大模型在互聯(lián)網(wǎng)數(shù)據(jù)上進(jìn)行訓(xùn)練，而這些數(shù)據(jù)雖然信息豐富，但也充斥著不準(zhǔn)確的內(nèi)容，其中不乏“胡言亂語(yǔ)”。ChatGPT、Copilot和Gemini等AI工具都會(huì)為用戶(hù)提供看似真實(shí)但卻是捏造的數(shù)據(jù)。

　　另?yè)?jù)歐洲聯(lián)盟執(zhí)法機(jī)構(gòu)的一份報(bào)告指出，到2026年，網(wǎng)絡(luò)內(nèi)容中可能有90%是由人工合成生成的。報(bào)告預(yù)測(cè)，這種數(shù)據(jù)“污染”，使得從訓(xùn)練數(shù)據(jù)中徹底過(guò)濾AI生成內(nèi)容變得非常困難。

來(lái)源：澎湃新聞

編輯：張嘉怡

廣告等商務(wù)合作，請(qǐng)點(diǎn)擊這里

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人

中新經(jīng)緯版權(quán)所有，未經(jīng)書(shū)面授權(quán)，任何單位及個(gè)人不得轉(zhuǎn)載、摘編或以其它方式使用。

關(guān)注中新經(jīng)緯微信公眾號(hào)(微信搜索“中新經(jīng)緯”或“jwview”)，看更多精彩財(cái)經(jīng)資訊。

今日推薦