快搜虾Logo

快搜虾

苹果发布AppleIntelligence基础模型技术报告net 网络资源

报告公布两款多语言、多模态基础模型:本地模型和服务器模型,本地模型通过 KV-Cache Sharing 把 37.5% 的层去掉 KV 投影并与前层共享缓存,服务器模型将解码器拆分为并行“轨道”,每 N 层同步一次,最多可削减 87.5% 同步开销;再叠加 MoE 层提高稀疏计算效率。数据来自 Applebot 负责任抓取、授权语料与高质量合成内容,规模达 14T tokens;视觉分支预训练于 6B+ 图文对后与 LLM 联合训练,可处理图像-文本混合输入。

Resource type:

网络资源

Resource description:

报告公布两款多语言、多模态基础模型:本地模型和服务器模型,本地模型通过 KV-Cache Sharing 把 37.5% 的层去掉 KV 投影并与前层共享缓存,服务器模型将解码器拆分为并行“轨道”,每 N 层同步一次,最多可削减 87.5% 同步开销;再叠加 MoE 层提高稀疏计算效率。数据来自 Applebot 负责任抓取、授权语料与高质量合成内容,规模达 14T tokens;视觉分支预训练于 6B+ 图文对后与 LLM 联合训练,可处理图像-文本混合输入。

Updated:

2025-07-19 01:00:50
🔔
所有资源均为网盘保存,请先【保存】,否则会出现试看2分钟!
Resource address:
夸克 图标 夸克
  • download
  • Copy
  • Invalid feedback
  • Click to scan QR code to view
    Use your mobile phone to 「scan」

    Save on phone for a better experience