Phi-3 Mini是微软推出的一个轻量级3B的先进开源模型。更新于2024年7月。
139次提取 更新于7周前
更新于7周前
7周前
3786e9c0f13a · 2.2GB
Readme
- 从
fp32
进行量化
- 使用i-matrix
calibration_datav3.txt
进行校准
Phi-3是微软开发的由微软开发的开源AI模型系列。
参数大小
- Phi-3 Mini – 3B参数
上下文窗口大小
- 4k
ollama run mannix/phi3-mini-4k
Phi-3 Mini
Phi-3 Mini是一种3.8B参数、轻量级且功能最先进的开源模型,使用Phi-3数据集进行训练,包括合成数据和经过过滤的公开网站数据,侧重于高质量和推理密集性。
该模型经历了一项包括监督微调和直接偏好优化的后培训过程,以确保精确遵循指令和稳健的安全措施。
针对常识、语言理解、数学、代码、长上下文和逻辑推理的基准测试,与13亿参数以下的模型相比,Phi-3 Mini-4K-Instruct展示出强大且具有最新水平的性能。
Phi-3 中型
Phi-3 中型是一个14B参数的语言模型,其性能优于Gemini1.0 Pro。
预期用途
主要使用案例
该模型旨在以英语进行商业和研究用途。该模型可应用于需要以下用途的应用程序:
1) 记忆/计算受限的环境
2) 延迟限制场景
3) 强大的推理(特别是数学和逻辑)
4) 长上下文
我们的模型是为了加速语言和多媒体模型的研究而设计的,可作为生成式人工智能功能的构建块。
使用案例考虑事宜
我们未特别为所有下游用途设计或评估我们的模型。开发者在选择使用案例时,应考虑语言模型常见的局限性,并在特定下游用例中使用之前,评估和缓解准确度、安全性和公平性问题,尤其是在高风险场景中。
开发者应了解并遵守与其用案相关的适用法律或法规(包括隐私、贸易合规法律等)。
本模型卡片中包含的内容不应被解释为或视为对该模型发布下许可的任何限制或修改。
负责任的人工智能考量
与其它语言模型一样,Phi系列模型可能以不公平、不可靠或冒犯性的方式行事。以下是一些需注意的限制行为:
服务质量:Phi模型主要在英语文本上进行训练。非英语将表现出较差的性能。在训练数据中代表性较小的英语变体可能比标准美式英语表现得差。
对受害者的描绘及刻板印象的延续:这些模型可能过度或不足代表某些人群,抹去某些群体的代表,或强化贬低或负面的刻板印象。尽管经过安全性的后培训,这些局限性可能仍然存在,这是因为不同群体代表性的水平不同或在训练数据中存在反映现实模式和社交偏见的负面刻板印象的例子。
不适当或冒犯性内容:这些模型可能产生其他类型的不适当或冒犯性内容,这可能需要在特定用例中实施额外的缓解措施,以使其适用于敏感环境。
信息可靠性:语言模型可以生成无意义的内容或制造看似合理但其实是错误或过时的内容。
代码的有限应用:大多数Phi-3训练数据基于Python,使用“typing、math、random、collections、datetime、itertools”等常用包。如果模型生成使用其他包或不同语言中的脚本,我们强烈建议用户手动验证所有API使用。
开发者应遵循负责任的AI最佳实践,并负责确保特定用案符合相关的法律和法规(例如隐私、贸易等)。重要考虑因素包括:
+ 配置:模型可能不适用于可能导致法律地位、资源分配或生活机会的影响的场景,除非进行进一步评估和额外的去偏差技术。
高风险场景:开发者在使用模型于高风险场景时应评估模型的适用性,在这些场景中,不公平、不可靠或冒犯性的输出可能代价极高或导致危害。这包括在准确性和可靠性至关重要的敏感或专家领域提供咨询(例如法律或健康咨询)。应根据部署环境在应用层面实施额外的保障措施。
错误信息:模型可能产生不准确的信息。开发者应遵循透明度最佳实践,并告知最终用户他们正在与一个AI系统交互。在应用层面,开发者可以构建反馈机制和管道,以将响应建立在特定用例和上下文信息的基础上,这种技术称为检索增强生成(RAG)。
有害内容生成:开发者应评估输出内容的上下文,并使用适用于其用例的安全分类器或定制解决方案。
滥用:其他滥用形式,如欺诈、垃圾邮件或恶意软件生产可能是可能的,开发者应确保其应用程序不违反适用的法律法规。
培训
模型
- 架构:Phi-3 Mini拥有3.8B个参数,是一个密集解码-only Transformer模型。通过使用监督微调(SFT)和直接偏好优化(DPO)来微调模型,以确保与人类偏好和安全指南的一致性。
- 输入:文本。它最适合用于聊天格式提示。
- 上下文长度:128K个标记
- GPU:512个H100-80G
- 训练时间:7天
- 训练数据:3.3T个标记
- 输出:对输入生成的文本
- 日期:我们的模型于2024年2月至4月接受训练
- 状态:这是一个在截至2023年10月的离线数据集上训练的静态模型。随着我们改进模型,可能会发布调整后模型的未来版本。
数据集
我们的训练数据包括广泛多样的来源,总数为3.3万亿个标记,包括
1) 经过严格质量过滤的公开可用的文档,选择高质量的教育资源和代码;
2) 为教学数学、编码、常识推理、世界一般知识(科学、日常活动、心智理论等)目的而创建的新合成“教科书式”数据;
3) 高质量的聊天格式监督数据,涵盖各种主题,反映人类对指令遵循、真实性、诚信和帮助性等方面的偏好。
软件
许可
该模型根据MIT许可进行许可。[链接]
商标
本项目中可能包含有关项目、产品或服务的商标或徽标。Microsoft商标或徽标的授权使用需遵守并跟随[链接]。在此项目的修改版本中使用Microsoft商标或徽标不得引起混淆或暗示Microsoft的赞助。任何使用第三方商标或徽标的使用均受第三方政策约束。