收藏萬通
登錄
免費注冊
移動網站
Hi,歡迎來到,萬通商務網
消息
管理中心
網站導航

DeepSeek

DeepSeek,全稱杭州深度求索人工智能基礎技術研究有限公司。DeepSeek 是一家創新型科技公司,成立于2023年7月17日,使用數據蒸餾技術,得到更為精煉、有用的數據。由知名私募巨頭幻方量化孕育而生,專注于開發先進的大語言模型(LLM)和相關技術。
DeepSeek
簡介
2024年1月5日,發布DeePSeek LLM(深度求索的第一個大模型)。1月25日,發布DeEPSeek-Coder。2月5日,發布DeepSeekMath。 3月11日,發布DeepSeek-VL。5月7日,發布DeepSeek-V2。6月17日,發布DeepSeek-Coder-V2 。9月5日,更新 API 支持文檔,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat ,推出 DeepSeek V2.5。12月13日,發布DeepSeek-VL2。12月26日晚,正式上線DeepSeek-V3首個版本并同步開源。2025年1月31日,英偉達宣布DeepSeek-R1模型登陸NVIDIANIM。同一時段內,亞馬遜和微軟也接入DeepSeek-R1模型。英偉達稱,DeepSeek-R1是最先進的大語言模型。
發展歷程
DeepSeek成立于2023年7月17日,由知名量化資管巨頭幻方量化創立。 [4]DeepSeek 是一家創新型科技公司,長久以來專注于開發先進的大語言模型(LLM)和相關技術,作為大廠外唯一一家儲備萬張 A100 芯片的公司,幻方量化為DeepSeek的技術研發提供了強大的硬件支持。
2023年8月2日,注冊資本變更為1000萬元,章程備案,投資人變更為寧波程恩企業管理咨詢合伙企業,市場主體類型變更為其他有限責任公司。
2024年5月7日,DeepSeek發布了MoE架構的DeepSeek V2。兩天后,第一財經技術中心就對DeepSeek發布的技術報告和模型進行了深度分析與研究。經過嚴謹的評估,團隊認為DeepSeek V2在架構設計、性能表現等方面與財經垂類大模型的需求高度契合,于是果斷決定將基座模型遷移至DeepSeek V2,并迅速啟動了以DeepSeek V2為主力基座模型的財經垂類大模型的訓練與應用研發工作。
2024年9月5日,DeepSeek 官方更新 API 支持文檔,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat 兩個模型,升級推出全新的 DeepSeek V2.5 新模型。官方表示為向前兼容,API 用戶通過 deepseek-coder 或 deepseek-chat 均可以訪問新的模型。
2024年12 月,一份關于DeepSeek發布歷程、優化方向的專家會議紀要文件在業內流傳。對此,DeepSeek 回應稱,公司未授權任何人員參與券商投資者交流會,所謂“DeepSeek 專家”非公司人員,所交流信息不實。DeepSeek 表示,公司內部制定有嚴格的規章制度,明令禁止員工接受外部訪談、參與投資者交流等市場上各類面向投資者的機構信息交流會。相關事項均以公開披露信息為準。
2025年1月27日,DeepSeek應用登頂蘋果美國地區應用商店免費App下載排行榜,在美區下載榜上超越了ChatGPT。同日,蘋果中國區應用商店免費榜顯示,DeepSeek成為中國區第一。根據公開報道,DeepSeek的員工規模不及OpenAI的1/5,百人出頭的公司中,算子、推理框架、多模態等研發工程師以及深度學習方面的研究人員共有約70人,主要在北京分部,其余30多人在杭州總部,多為前端、產品以及商務人員。
2025年1月28日消息,DeepSeek于服務狀態頁面公告稱:近期DeepSeek線上服務受到大規模惡意攻擊,為持續提供服務,暫時限制了+86手機號以外的注冊方式,已注冊用戶可以正常登錄。
2025年1月,DeepSeek在GitHub平臺發布了Janus-Pro多模態大模型,進軍文生圖領域。
2025年1月31日,英偉達宣布DeepSeek-R1模型登陸NVIDIANIM。同一時段內,亞馬遜和微軟也接入DeepSeek-R1模型。英偉達稱,DeepSeek-R1是最先進的大語言模型。
2025年2月消息,DeepSeek-R1大模型一鍵部署至騰訊云「HAI」上,開發者僅需3分鐘就能接入調用。
主要產品
2024年1月5日,發布DeepSeek LLM,這是深度求索的第一個大模型。DeepSeek LLM包含670億參數,從零開始在一個包含2萬億token的數據集上進行了訓練,數據集涵蓋中英文。全部開源DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat,供研究社區使用。DeepSeek LLM 67B Base在推理、編碼、數學和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在編碼和數學方面表現出色。它還展現了顯著的泛化能力,在匈牙利國家高中考試中取得了65分的成績。當然,它還精通中文:DeepSeek LLM 67B Chat在中文表現上超越了GPT-3.5。
2024年1月25日,發布DeepSeek-Coder,DeepSeek Coder由一系列代碼語言模型組成,每個模型均從零開始在2萬億token上訓練,數據集包含87%的代碼和13%的中英文自然語言。代碼模型尺寸從1B到33B版本不等。每個模型通過在項目級代碼語料庫上進行預訓練,采用16K的窗口大小和額外的填空任務,以支持項目級代碼補全和填充。DeepSeek Coder在多種編程語言和各種基準測試中達到了開源代碼模型的最先進性能。
2024年2月5日,發布DeepSeekMath,DeepSeekMath以DeepSeek-Coder-v1.5 7B為基礎,繼續在從Common Crawl中提取的數學相關token以及自然語言和代碼數據上進行預訓練,訓練規模達5000億token。DeepSeekMath 7B在競賽級MATH基準測試中取得了51.7%的優異成績,且未依賴外部工具包和投票技術,接近Gemini-Ultra和GPT-4的性能水平。
2024年3月11日,發布DeepSeek-VL,DeepSeek-VL是一個開源的視覺-語言(VL)模型,采用了混合視覺編碼器,能夠在固定的token預算內高效處理高分辨率圖像(1024 x 1024),同時保持相對較低的計算開銷。這一設計確保了模型在各種視覺任務中捕捉關鍵語義和細節信息的能力。DeepSeek-VL系列(包括1.3B和7B模型)在相同模型尺寸下,在廣泛的視覺-語言基準測試中達到了最先進或可競爭的性能。
2024年5月7日,發布第二代開源Mixture-of-Experts(MoE)模型——DeepSeek-V2。DeepSeek-V2是一個強大的混合專家(MoE)語言模型,以經濟高效的訓練和推理為特點。它包含2360億個總參數,其中每個token激活210億個參數。與DeepSeek 67B相比,DeepSeek-V2不僅實現了更強的性能,同時還節省了42.5%的訓練成本,將KV緩存減少了93.3%,并將最大生成吞吐量提升至5.76倍。在一個包含8.1萬億token的多樣化且高質量的語料庫上對DeepSeek-V2進行了預訓練。在完成全面的預訓練后,通過監督微調(SFT)和強化學習(RL)進一步釋放了模型的潛力。評估結果驗證了方法的有效性,DeepSeek-V2在標準基準測試和開放式生成評估中均取得了顯著的表現。 DeepSeek V2模型因在中文綜合能力評測中的出色表現,且以極低的推理成本引發行業關注,被稱為“AI界的拼多多”。
2024年6月17日,發布DeepSeek-Coder-V2,DeepSeek-Coder-V2是一個開源的混合專家(MoE)代碼語言模型,在代碼特定任務中達到了與GPT4-Turbo相當的性能。DeepSeek-Coder-V2是從DeepSeek-V2的一個中間檢查點開始,進一步預訓練了額外的6萬億token,顯著增強了DeepSeek-V2的編碼和數學推理能力,同時在通用語言任務中保持了相當的性能。并在代碼相關任務、推理能力和通用能力等多個方面都取得了顯著進步。此外,DeepSeek-Coder-V2將支持的編程語言從86種擴展到338種,并將上下文長度從16K擴展到128K。在標準基準測試中,DeepSeek-Coder-V2在編碼和數學基準測試中表現優異,超越了GPT4-Turbo、Claude 3 OPUs和Gemini 1.5 Pro等閉源模型。
2024年12月13日,發布用于高級多模態理解的專家混合視覺語言模型——DeepSeek-VL2,DeepSeek-VL2是一個先進的大型混合專家(MoE)視覺-語言模型系列,相較于其前身DeepSeek-VL有了顯著改進。DeepSeek-VL2在多種任務中展現了卓越的能力,包括但不限于視覺問答、光學字符識別、文檔/表格/圖表理解以及視覺定位。模型系列由三個變體組成:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分別具有10億、28億和45億激活參數。與現有的開源密集模型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活參數下實現了具有競爭力或最先進的性能。
2024年12月26日晚,AI公司深度求索(DeepSeek)正式上線全新系列模型DeepSeek-V3首個版本并同步開源。 DeepSeek-V3在知識類任務(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5顯著提升,接近當前表現最好的模型Anthropic公司于10月發布的Claude-3.5-Sonnet-1022。在美國數學競賽(AIME 2024, MATH)和全國高中數學聯賽(CNMO 2024)上,DeepSeek-V3大幅超過了其他所有開源閉源模型。另外,在生成速度上,DeepSeek-V3的生成吐字速度從20TPS(Transactions Per Second每秒完成的事務數量)大幅提高至60TPS,相比V2.5模型實現了3倍的提升,能夠帶來更加流暢的使用體驗。
2025年1月20日,DeepSeek正式發布 DeepSeek-R1 模型,并同步開源模型權重。DeepSeek-R1在后訓練階段大規模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。 DeepSeek-V3和DeepSeek-R1兩款大模型,成本價格低廉,性能與OpenAI相當,讓硅谷震驚,甚至引發了Meta內部的恐慌,工程師們開始連夜嘗試復制DeepSeek的成果。
經營范圍
公司經營范圍包括一般項目:工程和技術研究和試驗發展;技術服務、技術開發、技術咨詢、技術交流、技術轉讓、技術推廣;軟件開發;計算機系統服務;信息系統集成服務;人工智能應用軟件開發;信息技術咨詢服務;電子產品銷售;通訊設備銷售;儀器儀表銷售;數據處理服務;互聯網數據服務;計算機軟硬件及輔助設備零售;人工智能硬件銷售;專業設計服務(除依法須經批準的項目外,憑營業執照依法自主開展經營活動)。
事件
2024年12月,DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一羅福莉將加入小米,或供職于小米AI實驗室,領導小米大模型團隊。
2025年1月,DeepSeek的R1模型發布一周之后,DeepSeek刷屏美國各大主流媒體和社交網站。其中一部分原因為,TMT Breakout在與網友的討論中,隱隱將英偉達周五下跌的原因指向DeepSeek的爆火。即R1的成功可能削弱了市場對英偉達AI芯片需求的預期,導致交易員做空英偉達股票,進而引發股價下跌。 1月22日,美國媒體Business Insider報道稱,DeepSeek-R1模型秉承開放精神,完全開源,為美國AI玩家帶來了麻煩。開源的先進AI可能挑戰那些試圖通過出售技術賺取巨額利潤的公司。
2025年1月26日,有網友反應,DeepSeek崩了,提示服務器繁忙。 新浪科技詢問DeepSeek今天下午是否有閃崩時,DeepSeek回應稱:1月26日下午DeepSeek確實出現了局部服務波動,但問題在數分鐘內得到解決。此次事件可能與新模型發布后的訪問量激增有關,而官方狀態頁未將其標記為事故。
2025年1月27日,DeepSeek服務狀態頁面顯示,DeepSeek網頁/API不可用,目前正在調查該問題。 對于DeepSeek網頁/API不可用的原因,DeepSeek回應稱,可能和服務維護、請求限制等因素有關。
2025年1月27日晚,DeepSeek服務再次“宕機”,DeepSeek服務狀態頁面顯示,DeepSeek網頁不可用,公司正在調查這一問題。 1月27日,DeepSeek服務狀態頁面顯示,20點55分,DeepSeek對話服務已恢復,賬號服務仍存在問題,用戶或無法登錄及注冊。21點05分,DeepSeek更新稱,將繼續監測故障。
當地時間1月27日,納斯達克股指出現3%下跌,原因是中國人工智能公司DeepSeek模型引發美國投資者關注。央視記者在納斯達克交易所現場對納斯達克副主席麥柯奕進行了采訪。麥柯奕表示,他認為,DeepSeek將是人工智能領域革命的重要組成部分。
當地時間2025年1月27日晚,美國總統特朗普在佛羅里達州邁阿密發表講話時,對中國人工智能初創公司DeepSeek攪動納斯達克一事表示,DeepSeek的出現“給美國相關產業敲響了警鐘”,美國“需要集中精力贏得競爭”。特朗普同時表示,他認為,DeepSeek的模型高效且經濟,其出現是一種積極的發展。 1月27日,英國《金融時報》發表評論文章說,中國初創企業深度求索(DeepSeek)最近在人工智能領域獲得重大突破,其發布的開源模型DeepSeek-R1對全球用戶產生極大吸引力,有利于推動人工智能技術的開發和應用。 1月27日,中國深度求索(DeepSeek)公司發布的最新開源模型引起熱議。美國媒體報道稱,這是人工智能領域的一場“地震”,“從華盛頓到華爾街再到硅谷都感受到了震動”。美國經濟學家布萊恩·雅各布森表示,這可能會改變人工智能的敘事,“我們確實需要擔心這一趨勢可能帶來的影響。”布萊恩·雅各布森同時表示,這說明美國對華出口芯片限制顯然沒有那么有效,或許能看到美國政府的一些政策發生變化,從關稅、禁運和限制方面轉向更多地補貼和激勵美國國內技術的發展。
當地時間2025年1月28日,據央視新聞報道,美國新任白宮新聞秘書卡羅琳·萊維特(KarolineLeavitt)進行了她的首次簡報會,其中提及了中國人工智能初創公司深度求索(DeepSeek)。關于DeepSeek,萊維特表示,特朗普認為該公司發布的人工智能模型是對美國人工智能行業的一個警鐘。她同時稱,白宮正在努力“確保美國人工智能的主導地位”,特朗普此前簽署行政命令撤銷了對人工智能行業的一些繁瑣監管。
2025年1月28日,深度求索(DeepSeek)官網顯示,其線上服務受到大規模惡意攻擊,譚主向奇安信安全專家咨詢并獨家了解到,DeepSeek這次受到的網絡攻擊,IP地址都在美國。 同日,美國多名官員回應DeepSeek對美國的影響,表示DeepSeek是“偷竊”,正對其影響開展國家安全調查。1月29日,360集團創始人周鴻祎表示,如果DeepSeek有需要,360愿意提供網絡安全方面的全力支持。中國紅客聯盟發布公告,DeepSeek遭受攻擊關乎整個國家的網絡安全以及技術創新環境。
2025年1月29日消息, 美國全國廣播公司商業頻道援引其獲得的美國海軍的通知報道,美國海軍要求其工作人員不得使用中國聊天機器人Deepseek。報道說:“海軍表示,Deepseek的人工智能不能以‘以任何方式’被使用,因原因是“與該模型的來源和使用有關的潛在安全問題和道德考慮”。根據通知,所有美國海軍工作人員不得下載、安裝或以任何其他方式使用該聊天機器人。 同日消息,意大利數據保護機構周二表示,正在向中國人工智能 (AI) 模型DeepSeek尋求有關其使用個人數據的解釋。 意大利監管機構Garante表示,希望了解收集了哪些個人數據、從哪些來源收集、用于什么目的、基于什么法律依據,以及是否存儲在中國。 Garante 在一份聲明中表示,DeepSeek 及其附屬公司有 20 天的時間答復,這是針對這家中國初創公司的首批監管舉措之一。 在美國,白宮新聞秘書表示官員們正在調查該應用程序對國家安全的影響。
2025年1月28日,意大利數據保護機構表示,正在向中國人工智能 (AI) 模型DeepSeek尋求有關其使用個人數據的解釋。意大利監管機構Garante表示,希望了解收集了哪些個人數據、從哪些來源收集、用于什么目的、基于什么法律依據,以及是否存儲在中國。 1月29日,在意大利當局要求DeepSeek提供有關該公司如何處理用戶數據的信息數小時后,DeepSeek已不再意大利地區蘋果的App Store和谷歌的PLAy Store上提供。
2025年1月30日消息,微軟CEO納德拉在電話會上強調,DeepSeek R1模型目前已可通過微軟的AI平臺Azure AI Foundry和GitHub獲取,并且很快就能在Copilot+電腦上運行。納德拉稱DeepSeek“有一些真的創新”,AI成本下降是趨勢:“縮放定律(Scaling Law)在預訓練和推理時間計算中不斷積累。多年來,我們已經看到了AI訓練和推理方面的效率顯著提高。在推理方面,我們通常看到每一代硬件的性價比提高2倍以上,每一代模型的性價比提高10倍以上。”
2025年1月,美國商務部長提名人霍華德·盧特尼克認為,中國DeepSeek公司在創建人工智能聊天機器人時使用了竊取的美國技術。
2025年1月,愛爾蘭數據保護委員會副主席格雷厄姆·多勒(Graham Doyle)表示,該委員會要求中國公司DeepSeek提供有關其如何收集愛爾蘭用戶個人數據的信息。
2025年1月30日凌晨,奇安信Xlab實驗室監測發現,針對DeepSeek線上服務的攻擊烈度突然升級,其攻擊指令較1月28日暴增上百倍。Xlab實驗室觀察到至少有2個“僵尸網絡”參與攻擊,共發起了兩波次攻擊。 針對DeepSeek的網絡攻擊一直在層層加碼,攻擊手段越來越多,防范難度越來越大,使得DeepSeek面臨的安全考驗愈發嚴峻。
2025年1月,DeepSeek的出現,打破了“大模型”、美國股市的神話,還顛覆了傳統“大模型需要大算力”無可匹敵的美國主流地位,進一步挑戰了“巨型數據集”作為人工智能成功的唯一途徑的普遍認知。
2025年1月30日,美國國會眾議院首席行政事務官向國會辦公室發出通知,警告國會辦公室不要使用中國的人工智能應用DeepSeek(深度求索)的服務。通知中稱“DeepSeek正在接受首席行政事務官的審查,目前尚未授權眾議院正式使用該模型。”同日,法國監管機構國家信息與自由委員會表示,將對杭州深度求索人工智能基礎技術研究有限公司進行問詢,以便了解這家中國初創企業的人工智能系統是如何運行的,以及可能存在的隱私風險。
2025年1月31日消息,據《日本經濟新聞》網站1月30日報道,關于中國杭州深度求索人工智能基礎技術研究有限公司(DeepSeek)開發的生成式人工智能(AI)服務,日本內閣官房長官林芳正在30日的記者會上表示:“未聽說個人信息保護委員會確定特別應對方針。”據報道,他還指出:“將密切關注AI相關國際開發動向等,采取妥善應對措施。”關于生成式AI服務,林芳正再次表示:“同時促進創新和應對風險非常重要。” 同日消息,美國政府在調查有關DeepSeek公司涉嫌通過新加坡的中間商購買先進的NVIDIA芯片以規避美國制裁。
2025年2月1日,據臺灣“中央社”報道,大陸初創公司杭州深度求索人工智能基礎技術研究有限公司(DeepSeek)推出的人工智能(AI)模型引發“資安疑慮”。臺灣地區數字發展主管部門部1月31日表示,基于安全考量,特別警示公務機關與關鍵基礎設施應限制使用DeepSeek的AI產品,以避免用戶相關數據或信息被有“資安疑慮”的產品傳送。
2025年2月1日,據埃菲社報道,新加坡也感受到了中國應用程序“深度求索”(DeepSeek)所引發的地震。新加坡當局否認了關于中國杭州深度求索人工智能基礎技術研究有限公司可能通過新加坡購買先進的英偉達芯片,以規避美國對其向亞洲大國銷售芯片的限制的說法。另據新加坡《聯合早報》網站2月1日報道,美國政府正在調查中國人工智能公司DeepSeek是否使用受管制芯片,而且這些芯片或通過包括新加坡在內的多個國家轉出口至中國。針對此事,新加坡貿工部2月1日發布文告。
2025年2月2日消息,據美聯社報道,美國得克薩斯州的州長、共和黨籍政客格雷格·阿博特于當地時間周五簽署行政令,宣布從當地政府擁有的電子設備中封殺近日在美國爆火的中國的人工智能服務DeepSeek。
社會影響
2025年2月2日,據彭博社報道,由DeepSeek開發的人工智能助手在全球范圍內掀起了一股熱潮。這款推理型AI聊天機器人自2025年初發布以來,迅速攀升至140個國家的蘋果App Store下載排行榜首位,并在美國的Android Play Store中同樣占據榜首位置。
相關評價
“DeepSeek新一代模型的發布意味著AI大模型的應用將逐步走向普惠,助力AI應用廣泛落地;同時訓練效率大幅提升,亦將助力推理算力需求高增。我們持續看好AI產業鏈的加速落地機遇,建議重點關注AI應用、AI Infra、AI算力三大主線。”(中信證券研報 評)
DeepSeek-V3是中國科技界帶給美國的苦澀教訓。“當美國休息時,中國(科技界)在工作,以更低的成本、更快的速度和更強的實力趕上。”(Alexander Wang 評)
DeepSeek可能是個國運級別的科技成果。(游戲科學創始人、CEO,《黑神話:悟空》制作人馮驥 2025年1月26日評)
DeepSeek-R1是一款令人印象深刻的模型,尤其是考慮到它能夠以這個價格提供(這樣的產品)。(美國開放人工智能研究中心(OpenAI)首席執行官薩姆·奧爾特曼 評)
    為您推薦

    關于我們 | 聯系我們 | 合作代理 | 客服中心 | 幫助信息 | 誠聘英才 | 網站地圖 | 加入收藏夾 | 意見反饋 | 快遞查詢 | 漢字轉換 | RSS訂閱
    ©2013-2015h665.cn 版權所有 粵ICP備14027189號-5 湘公網安備 43052302000106號

    互聯網違法和不良信息24小時舉報電話:13437489760 admin@h665.cn