starling-lm:7b-alpha-q4_1 - Ollama 框架

starling-lm

Starling 是一个大型语言模型，通过人工智能反馈的强化学习进行训练，专注于提高聊天机器人的 helpfulness（助益性）。

7b

75.5K Pulls（拉取次数）更新于 10 个月前

更新于 10 个月前

10 个月前

e3dd9bd1826c · 4.6GB

model（模型）

arch（架构）llama

parameters（参数量）7.24B

quantization（量化）Q4_1

params（参数）

{ "stop": [ "<|endoftext|>", "<|end_of_turn|>", "Human:", "Assis

template（模板）

{{ .System }}<|end_of_turn|>GPT4 Correct User: {{ .Prompt}}<|end_of_turn|>GPT4 Correct Assistant:

自述文件

Starling-7B 是一个开放（非商业用途）的大型语言模型 (LLM)，通过人工智能反馈的强化学习 (RLAIF) 进行训练。

该模型利用了我们新的 GPT-4 标记的排名数据集 Nectar，以及我们新的奖励训练和策略调整管道。Starling-7B-alpha 在 MT Bench 上使用 GPT-4 作为评判标准，得分 8.09，优于迄今为止 MT-Bench 上的所有模型，OpenAI 的 GPT-4 和 GPT-4 Turbo 除外。

*基于 MT Bench 评估，使用 GPT-4 评分。还需要进一步的人工评估。

作者：Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu 和 Jiantao Jiao。

如有疑问，请联系 Banghua Zhu ([email protected])。

参考

Starling-7B：通过 RLAIF 提高 LLM 的助益性和无害性