Phi-3 Mini是由微软推出的一款轻量级的先进 3B 开放模型。2024年7月更新。

3B

139 引用 7周前更新

7周前

d323c53d756d · 2.4GB

读取文件

image.png

  • fp32 量化
  • 使用 i-matrix calibration_datav3.txt 校准

Phi-3 是微软开发的一系列开放 AI 模型。

参数大小

上下文窗口大小

  • 4k ollama run mannix/phi3-mini-4k

Phi-3 Mini

Phi-3 Mini 是一个包含合成数据和经过筛选的公开网站数据的 Phi-3 数据集训练的 3.8B 参数、轻量级、最先进的开放模型,重点在于高质量的推理密集型属性。

该模型经过后续训练过程,结合了监督微调和直接偏好优化,以确保精确遵循指令和强大的安全措施。

在与其他评估基准测试的笼统、语言理解、数学、代码、长语境和逻辑推理相比时,Phi-3 Mini-4K-Instruct在参数数量少于13亿的小型模型中展现出了稳健和尖端的性能。

Phi-3 中型

Phi-3 中型是一个拥有14亿参数的语言模型,并且优于 Gemini 1.0 Pro。

image.png

预期用途

主要用例

该模型适用于英语商业和研究用途。该模型为需要以下条件的应用提供用途:
1) 内存/计算受限的环境
2) 延迟受限的场景
3) 强逻辑推理(尤其是数学和逻辑)
4) 长语境

我们的模型旨在加速语言和多媒体模型的研究,作为生成式AI功能的构建块。

用例考虑因素

我们的模型并非专为所有下游用途设计和评估。在选择用例时,开发人员应考虑语言模型的常见限制,并在使用特定下游用例之前,评估和减轻准确性、安全性和公平性,尤其是高风险场景。
开发人员应了解并遵守与其用例相关的所有适用法律或法规(包括隐私法、贸易合规法等)。
本模型卡片中包含的内容不应被解释为或认为是限制或修改模型发布根据的许可证。

负责任的人工智能考虑因素

与其他语言模型一样,Phi系列模型可能以不公正、不可靠或冒犯性的方式行事。应了解的一些限制行为包括

  • 服务质量:Phi模型主要在英语文本上训练。除英语之外的语种将体验到更差的性能。在训练数据中代表性较少的英语变体可能比标准美国英语表现更差。

  • 危害的表征与刻板印象的延续:这些模型可能过度或不足地代表某些人群,消除某些群体的代表性,或加强贬低或负面的刻板印象。尽管经过安全训练,但由于不同群体的代表性水平和反映现实世界模式和 社会偏见的负面刻板印象实例在训练数据中的普遍性,这些限制可能仍然存在。

  • 不恰当或冒犯性内容:这些模型可能会产生其他类型的不恰当或冒犯性内容,在没有针对特定用例的缓解措施的敏感情况下部署可能会不适当。

  • 信息可靠性:语言模型可以生成无意义的或可能是合理的但不准确或过时的内容。

  • 代码的局限性:Phi-3的训练数据大多数基于Python,并使用常见的包,如“typing, math, random, collections, datetime, itertools”。如果模型生成使用其他包或使用其他语言的脚本的Python脚本,我们强烈建议用户手动验证所有API的使用。

开发人员应应用负责任的人工智能最佳实践,并负责确保特定用例遵守相关法律和法规(例如隐私、贸易等)。重要的考虑领域包括
+ 分配:在没有进一步评估和额外的去偏见技术的情况下,模型可能不适用于可能对法律地位、资源分配或生命机会有重大影响的场景(例如:住房、就业、信用等)。

  • 高风险场景:开发人员应评估在高风险场景中使用模型的适用性,在这些场景中,不公正、不可靠或冒犯性的输出可能代价极高或导致伤害。这包括在准确性和可靠性至关重要的敏感或专业领域提供建议(例如法律或健康建议)。应根据部署上下文在应用级别实施额外的安全措施。

  • 虚假信息:模型可能会产生不准确的信息。开发者应遵循透明度最佳实践,并告知最终用户他们正在与一个AI系统交互。在应用层面,开发者可以构建反馈机制和管道,以将响应置于特定用例的信息中,这是一种称为检索增强生成(RAG)的技术。

  • 有害内容的生成:开发者应评估其输出的上下文并使用适用于其用例的安全分类器或定制解决方案。

  • 滥用:其他形式的滥用,如诈骗、垃圾邮件或恶意软件制作也是可能的,开发者应确保他们的应用程序不违反适用的法律和法规。

训练

模型

  • 架构:Phi-3 Mini具有3.8B个参数,是一个密集的仅解码器Transformer模型。模型通过有监督微调(SFT)和直接偏好优化(DPO)进行微调,以确保与人类偏好和安全指南保持一致。
  • 输入:文本。它最适合使用聊天格式的提示。
  • 上下文长度:128K个token
  • GPU:512 H100-80G
  • 训练时间:7天
  • 训练数据:3.3T个token
  • 输出:针对输入生成的文本
  • 日期:我们的模型于2024年2月至4月之间进行训练
  • 状态:这是一个基于截至2023年10月的离线数据集静态训练的模型。随着我们改进模型,可能将发布调整后的模型的新版本。

数据集

我们的训练数据包括广泛的各种来源,总计33万亿个token,包括
1)经过严格质量筛选的公开文档,选用了高质量的教育数据和代码;
2)为新编写的“教科书式”数据,用于教学数学、编码、常识推理、世界的一般知识(科学、日常活动、心智理论等);
3)高质量聊天格式监督数据,涵盖各种主题,以反映人类在不同方面(如指令跟踪、真实性、诚实和有帮助性)上的偏好。

软件

许可

该模型根据MIT许可。

商标

该项目可能包含项目、产品或服务的商标或徽标。Microsoft商标或徽标的官方使用必须遵循和执行Microsoft的商标和品牌指南。在修改此项目的版本中使用Microsoft商标或徽标不得引起混淆或暗示Microsoft的赞助。任何第三方商标或徽标的使用均受该第三方政策约束。

资源