一个高性能模型,使用一种名为反射微调的新技术训练,该技术教会LLM检测其推理中的错误并纠正方向。
70b
95.9K 拉取请求 更新于 2 个月前
17 标签
5084e77c1e10 • 40GB • 2 个月前
5084e77c1e10 • 40GB • 2 个月前
e04ae4d96458 • 141GB • 2 个月前
8fe3c853372c • 26GB • 2 个月前
9c6705916e06 • 37GB • 2 个月前
a6b22bd90923 • 34GB • 2 个月前
21f651100031 • 31GB • 2 个月前
5084e77c1e10 • 40GB • 2 个月前
b72afde19a06 • 44GB • 2 个月前
be39ad6154f4 • 43GB • 2 个月前
420791ca0c2a • 40GB • 2 个月前
99e430b53c8b • 49GB • 2 个月前
41bd1db0b708 • 53GB • 2 个月前
f537d644476a • 50GB • 2 个月前
84a4d89b332c • 49GB • 2 个月前
77fecce26024 • 58GB • 2 个月前
159e9e593c44 • 75GB • 2 个月前