
deepseek官方正版 最新版本v1.1.9
軟件類型: 生活服務(wù) | 軟件大小: 9.66MB
軟件語言: 簡體中文 | 更新時間: 2025-05-02
deepseek官方正版是一款A(yù)I生活學(xué)習(xí)助手,通過這款軟件可以體驗(yàn)到性能世界領(lǐng)先的交流模型,和DeepSeek-V3模型互動交流,支持手機(jī)號、微信、APPLE ID等多種登錄方式。同賬號的歷史對話記錄和網(wǎng)頁端直接同步,功能也是全面對齊,軟件最大的優(yōu)點(diǎn)就是聯(lián)網(wǎng)搜索和深度思考模式,你可以問任何想問的問題,隨時隨地為用戶答疑解惑、實(shí)現(xiàn)高效學(xué)習(xí)辦公。
綜合能力
DeepSeek-V3 在推理速度上相較歷史模型有了大幅提升。
在目前大模型主流榜單中,DeepSeek-V3 在開源模型中位列榜首,與世界上最先進(jìn)的閉源模型不分伯仲。
使用說明
首次調(diào)用 API
DeepSeek API 使用與 Open AI 兼容的 API 格式,通過修改配置,您可以使用 Open AI SDK 來訪問 DeepSeek API,或使用與 Open AI API 兼容的軟件。
* 出于與 Open AI 兼容考慮,您也可以將 base_url 設(shè)置為 https://api.deepseek.com/v1 來使用,但注意,此處 v1 與模型版本無關(guān)。
* deepseek-ch at 模型已全面升級為 DeepSeek-V3,接口不變。 通過指定 model='deepseek-ch at' 即可調(diào)用 DeepSeek-V3。
調(diào)用對話 API
在創(chuàng)建 API key 之后,你可以使用以下樣例腳本的來訪問 DeepSeek API。樣例為非流式輸出,您可以將 stream 設(shè)置為 true 來使用流式輸出。
curl
python
nodejs
進(jìn)步在哪里
V3模型和R1系列模型都是基于V3模型的更基礎(chǔ)版本V3-Base開發(fā)的。相較于V3(類4o)模型,R1(類o1)系列模型進(jìn)行了更多自我評估、自我獎勵式的強(qiáng)化學(xué)習(xí)作為后訓(xùn)練。
在R1之前,業(yè)界大模型普遍依賴于RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí)),這一強(qiáng)化學(xué)習(xí)模式使用了大量由人類撰寫的高質(zhì)量問答以了解「什么才是好的答案」,幫助模型在獎勵不明確的情況下知道如何作困難的選擇。正是這項(xiàng)技術(shù)的使用使得GPT-3進(jìn)化成了更通人性的GPT-3.5,制造了2022年年底Ch atGPT上線時的驚喜體驗(yàn)。不過,GPT的不再進(jìn)步也意味著這一模式已經(jīng)到達(dá)瓶頸。
R1系列模型放棄了RLHF中的HF(human feedback,人類反饋)部分,只留下純粹的RL(強(qiáng)化學(xué)習(xí))。在其首代版本R1-Zero中,DeepSeek相當(dāng)激進(jìn)地啟動了如下強(qiáng)化學(xué)習(xí)過程:為模型設(shè)置兩個獎勵函數(shù),一個用于獎勵「結(jié)果正確」的答案(使用外部工具驗(yàn)證答案的最終正確性),另一個獎勵「思考過程正確」的答案(通過一個小型驗(yàn)證模型評估推理步驟的邏輯連貫性);鼓勵模型一次嘗試幾個不同的答案,然后根據(jù)兩個獎勵函數(shù)對它們進(jìn)行評分。
DeepSeek稱,R系列模型在強(qiáng)化學(xué)習(xí)中涌現(xiàn)出了「反思」能力。
DeepSeek發(fā)現(xiàn),由此進(jìn)入強(qiáng)化學(xué)習(xí)過程的R1-Zero生成的答案可讀性較差,語言也常常中英混合,但隨著訓(xùn)練時間增加,R1-Zero能不斷「自我進(jìn)化」,開始出現(xiàn)諸如「反思」這樣的復(fù)雜行為,并探索解決問題的替代方法。這些行為都未曾被明確編程。
DeepSeek稱,這種「啊哈時刻」出現(xiàn)在模型訓(xùn)練的中間階段。在此階段,DeepSeek-R1-Zero通過重新評估其初始方法來學(xué)習(xí)分配更多的思考時間。「這一刻彰顯了強(qiáng)化學(xué)習(xí)的力量和美妙——只要提供正確的激勵,模型會自主開發(fā)高級解決問題的策略。」DeepSeek稱,經(jīng)過數(shù)千個這樣的「純強(qiáng)化學(xué)習(xí)」步驟,DeepSeek-R1-Zero在推理基準(zhǔn)測試中的性能就與Open AI-o1-0912的性能相匹配了。
DeepSeek在論文中說,「這是第一個驗(yàn)證LLMs的推理能力可以純粹通過RL(強(qiáng)化學(xué)習(xí))來激勵,而不需要SFT(supervised fine-tuning,基于監(jiān)督的微調(diào))的開放研究。」
不過,由于純強(qiáng)化學(xué)習(xí)訓(xùn)練中模型過度聚焦答案正確性,忽視了語言流暢性等基礎(chǔ)能力,導(dǎo)致生成文本中英混雜。為此DeepSeek又新增了冷啟動階段——用數(shù)千條鏈?zhǔn)剿伎迹–oT)數(shù)據(jù)先微調(diào)V3-Base模型,這些數(shù)據(jù)包含規(guī)范的語言表達(dá)和多步推理示例,使模型初步掌握邏輯連貫的生成能力;再啟動強(qiáng)化學(xué)習(xí)流程,生成了大約60萬個推理相關(guān)的樣本和大約20萬個與推理無關(guān)的樣本,將這80萬個樣本數(shù)據(jù)再次用于微調(diào)V3-Base后,就得到了R1——前面提到,DeepSeek還用這80萬個以思維鏈為主的數(shù)據(jù)微調(diào)了阿里巴巴的Qwen系列開源模型,結(jié)果表明其推理能力也提升了。
更新內(nèi)容
v1.1.9:
- 修復(fù)了一些已知問題
特別說明
軟件信息
- 廠商:杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司
- 包名:com.deepseek.chat
- MD5:BF7BE258C5FE00FE0C829F42C4170620
- 備號:浙ICP備2023025841號3A