Phi-3 Mini是微软的一个轻量级的3B最新开放模型。于2024年7月更新。

3B

139 拉取 7周前更新

7周前

a9d0dd8b62ec · 15GB

安裝指南

image.png

  • fp32 銳化
  • 使用 i-matrix calibration_datav3.txt 校准

Phi-3 是微软开发的一系列开源 AI 模型。

参数大小

上下文窗口大小

  • 4k ollama run mannix/phi3-mini-4k

Phi-3 Mini

Phi-3 Mini是一种3.8B参数的轻量级、前沿的开源模型,使用Phi-3数据集进行训练,包括合成数据和经过筛选的公开网站数据,重点关注高质量和推理密集型属性。

该模型经过了后训练过程,结合了监督微调和直接偏好优化,以确保精确遵循指令和强大的安全措施。

与常识、语言理解、数学、代码、长上下文和逻辑推理的基准测试相比,Phi-3 Mini-4K-Instruct在参数少于13亿的模型中展示了强大且前沿的性能。

Phi-3 Medium

Phi-3 Medium是一种14B参数的语言模型,并且优于Gemini 1.0 Pro。

image.png

预期用途

主要用例

该模型旨在用于英文的商业和研究,适用于需要以下用途的应用程序:
1) 内存/计算受限的环境
2) 延迟敏感的场景
3) 强大的推理(尤其是数学和逻辑)
4) 长上下文

我们的模型旨在加速对语言和多模态模型的研究,用作生成式AI功能的构建块。

用例考虑因素

我们的模型并不是为所有下游目的专门设计或评估的。开发者在选择用例时应该考虑语言模型的常见局限性,并在特定下游用例中使用前,评估和缓解准确性、安全性和公平性问题,特别是在高风险场景中。
开发者应了解并遵守与他们的用例相关的适用法律或法规(包括隐私、贸易合规法律等)。
本模型卡中包含的内容不应被视为或视为限制或修改模型发布下许可的条款。

负责任的AI考虑

与其他语言模型一样,Phi系列模型可能会以不公平、不可靠或冒犯的方式行为。应该注意的一些限制行为包括

  • 服务质量:Phi模型主要在英文文本上训练。其他语言的表现可能会更差。在训练数据中代表性较低的英语变体会比标准美式英语表现更差。

  • 对危害的表示和刻板印象的延续:这些模型可能会过度或不足地表示某些人群,消除某些人群的表示,或加强侮辱性或消极的刻板印象。尽管经过安全后训练,但由于不同群体或训练数据中出现负面刻板印象的频率差异,这些限制可能仍然存在。

  • 不适当或冒犯性内容:这些模型可能产生其他类型的不适当或冒犯性内容,如果没有针对特定用例采取额外的缓解措施,可能不适合敏感场景。

  • 信息可靠性:语言模型可以生成无意义的或看似合理但实际上不准确或过时的内容。

  • 代码的局限性:_phi-3训练数据的多数基于Python,使用常见的包,如“typing、math、random、collections、datetime、itertools”。如果模型生成使用其他包或其他语言脚本的手机脚本,我们强烈建议用户手动验证所有API的使用。

开发者应应用负责任的AI最佳实践,并负责确保特定用例符合相关法律和法规(例如隐私、贸易等)。重要的考虑领域包括
+ 配置:在没有进一步评估和附加去偏技术的情况下,模型可能不适合可能对法律地位、资源分配或生活机会产生后果的场景(例如住房、就业、信贷等)。

  • 高风险场景:开发人员应评估在高风险场景中使用模型是否合适,在这些场景中,不公平、不可靠或有攻击性的输出可能代价极高或导致损害。这包括在敏感或专家领域提供建议,在这些领域中,准确性和可靠性至关重要(例如:法律或健康建议)。应根据部署环境在应用程序级别实施额外的防范措施。

  • 虚假信息:模型可能产生不准确的信息。开发人员应遵循透明度最佳实践,并告知最终用户他们正在与AI系统交互。在应用层面,开发人员可以构建反馈机制和管道,以基于特定用例和上下文信息对响应进行定位,这种技术被称为检索增强生成(RAG)。

  • 有害内容的生成:开发人员应评估输出内容和用途,利用适用于其用例的安全分类器或定制解决方案。

  • 滥用:其他形式的滥用,如欺诈、垃圾邮件或恶意软件生产可能存在,开发人员应确保其应用程序不违反适用的法律和法规。

训练

模型

  • 架构:Phi-3 Mini具有3.8B个参数,是一个密集的仅解码器Transformer模型。该模型使用监督微调(SFT)和直接偏好优化(DPO)进行微调,以确保与人类偏好和安全性指南保持一致。
  • 输入:文本。它最适合使用聊天格式。
  • 上下文长度:128K个令牌
  • GPU:512个H100-80G
  • 训练时间:7天
  • 训练数据:3.3T个令牌
  • 输出:基于输入生成的文本
  • 日期:我们的模型于2024年2月至4月期间训练
  • 状态:这是一个在截至2023年10月的离线数据集上训练的静态模型。随着我们改进模型,可能会发布调整后的模型的新版本。

数据集

我们的训练数据包括多样化的来源,总共有3.3万亿个令牌,包括
1)经过严格质量筛选的公开文档、高质量的教育数据以及代码;
2)为新学科数学、编程、常识推理、对世界的一般知识(科学、日常活动、心智理论等)编写的新创建的“教科书式”数据;
3)高质量的话题聊天风格监督数据,涵盖各种主题,以反映人类在不同方面的偏好,例如指令遵循、真实性、诚实和帮助性。

软件

许可证

该模型根据MIT许可证授权。

商标

该项目可能包含项目、产品或服务的商标或标志。Microsoft商标或标志的授权使用受Microsoft的商标和品牌指南约束,并必须遵循。在此项目的修改版本中使用Microsoft商标或标志不得引起混淆或暗示Microsoft的赞助。第三方商标或标志的使用受第三方政策约束。

资源