首頁
影片
頻道
食衣住行
全部
31194
DIY
1995
衣著
551
妝扮
967
車
4035
房屋
1920
社會
5482
政論
82
美食
5260
烹飪
8976
新聞
196
環保
384
點心
1346
休閒娛樂
全部
88192
ASMR
156
小說
3328
戶外
1323
日常
4777
卡通
1255
民俗
1849
休閒
1198
收藏
808
明星
4706
玩具
1310
美女
974
音樂
7879
旅遊
1068
神秘
1821
配音
532
偶戲
763
動漫
6577
開箱
682
新奇
842
運動
2391
遊戲
10649
電視劇
10942
電影
5743
漫畫
838
綜藝
6080
劇場
1104
廣播
456
趣味
4166
寵物
1657
魔術
2318
教學知識
全部
48361
3C
1620
人物
449
人際
135
心靈
2055
文化
1306
文學
729
生物
169
地理
706
宇宙
406
兒童
1219
兩性
1397
命理
1236
宗教
3899
法律
526
知識
2425
科學
1871
軍武
1350
財經
6223
健康
4350
動物
2012
教育
2550
軟體
1129
植物
326
園藝
2731
演講
330
綜合
1718
歷史
2074
職場
464
雜談
1030
藝術
1322
攝影
604
我要推薦
回上一頁
DeepSeek V4发布前,梁文锋连发3篇论文,我读完发现一个规律
1.47萬
2026-01-14
329
AI进化论花生
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
DeepSeek V4传闘愈演愈烈,2月中旬春节前后发布几成定局。但在V4到来之前,DeepSeek连发三篇梁文锋署名论文,透露了下一代模型的技术方向。 本期视频带你读懂这三篇论文的核心思想: Engram:给模型装上"记忆",75%思考+25%记忆是最优解。博尔赫斯1942年就写过:完美的记忆会杀死思考。 mHC:残差连接用了10年,DeepSeek证明它不是最优解。稳定性提升3个数量级,只增加6.7%训练时间。 R1论文更新:从22页扩展到86页,29.4万美元训练成本首次公开,连失败案例都写进去了。 DeepSeek的风格:先发论文,再发模型。看完这三篇,V4发布时你就能看懂它到底强在哪。
06:51
全新免费VPN,无限流量,科学上网速度飞快,Win/Mac/IOS/安卓,全平台可用,主流流媒体全部支持!极致8K!
15:50
YouTube新手0基础起号:从0播放到稳定流量的正确做法(冷启动+推荐机制)
00:37
【CPR教學】梁俊仁總監示範|心肺復甦術急救步驟 #500訂閱
17:40
黑五优惠 + 重磅新品!Ledger 今年到底端出了什么狠货?Ledger Op3n 2025讲了什么?
08:35
美国国运第一股?#palantir
༺ 資料蒐集來源:
YouTube
༻
本站不需註冊加入會員,保障個人隱私,完全不用Cookei