IBM Granite Guardian 3.0 2B 和 8B 模型旨在检测提示和/或响应中的风险。
2b 8b
1,075 拉取请求 更新于 8 天前
自述文件
Granite Guardian 模型
IBM Granite Guardian 3.0 **2B 和 8B 模型**旨在检测提示和/或响应中的风险。它们可以帮助在许多关键维度上进行风险检测,这些维度在IBM AI 风险图谱中进行了编目。它们是在包含人工标注和内部红队测试提供信息的人工合成数据的独特数据上进行训练的,并且在标准基准测试中胜过同一领域的其他开源模型。
参数大小
模型将生成一个输出标记,要么是Yes
,要么是No
。默认情况下,将使用通用harm
类别,但可以通过设置系统提示来选择其他类别。
2B
ollama run granite3-guardian:2b
>>> /set system profanity
8B
ollama run granite3-guardian:8b
>>> /set system violence
支持的用途
在提示文本或模型响应中检测风险(例如作为护栏),例如
- 伤害 (
harm
):被认为总体有害的内容 - 社会偏见 (
social_bias
):基于身份或特征的偏见 - 越狱 (
jailbreak
):故意操纵 AI 生成有害、不受欢迎或不当内容的实例 - 暴力 (
violence
):宣扬身体、精神或性伤害的内容 - 亵渎 (
profanity
):使用攻击性语言或侮辱 - 色情内容 (
sexual_content
):具有性暗示的明确或暗示性材料 - 不道德行为 (
unethical_behavior
):违反道德或法律标准的行为
- 伤害 (
RAG(检索增强生成)评估
- 上下文相关性 (
relevance
):检索到的上下文是否与查询相关 - 基础性 (
groundedness
):响应是否准确且忠实于提供的上下文 - 答案相关性 (
answer_relevance
):响应是否直接解决用户的查询
- 上下文相关性 (
Granite 稠密模型
Granite 稠密模型以 **2B 和 8B** 参数大小提供,旨在支持基于工具的用例和检索增强生成 (RAG),简化代码生成、翻译和错误修复。
Granite 专家混合模型
Granite MoE 模型以 **1B 和 3B** 参数大小提供,旨在支持低延迟使用,并支持部署在设备内应用程序或需要即时推断的情况中。
了解更多
- **开发者:** IBM 研究院
- **GitHub 代码库:** ibm-granite/granite-guardian
- **网站**: Granite Guardian 文档
- **菜谱**: Granite Guardian 小吃
- **发布日期**:2024 年 10 月 21 日
- **许可证:** Apache 2.0。