GPT4o mini初步了解 | 盛溪的博客

type

status

date

slug

summary

tags

category

icon

password

notion image

notion image

从该图中可以得到以下信息，特别是关于GPT-4o mini的部分：

图表说明：

这是一个关于MMLU（Massive Multitask Language Understanding）质量基准和价格的对比图。

横轴表示每百万个tokens的价格（单位：美元）。

纵轴表示MMLU质量基准分数。

图中用不同颜色和符号代表不同的模型。

最具吸引力象限：

图中绿色区域被标记为“Most attractive quadrant”（最具吸引力象限），表示高MMLU分数和较低的价格。

GPT-4o mini的表现：

GPT-4o mini用黑色圆点表示。

在横轴上的价格约为$0.30。

在纵轴上的MMLU分数接近0.85。

GPT-4o mini位于最具吸引力象限内，表明其在性价比方面表现优异，具有较高的质量分数和相对较低的价格。

其他模型的表现：

Gemini 1.5 Flash、Claude 3 Haiku、NeMo、Mistral 7B等模型也位于最具吸引力象限内，但MMLU分数和价格均不同。

Llama 3 (70B)和GPT-3.5 Turbo等模型的价格较高。

Reka Edge和Command-R的价格和MMLU分数较低。

总结：

GPT-4o mini在性能和价格之间取得了很好的平衡，是一个性价比很高的模型。

其他模型在不同的价格区间内有不同的表现，可以根据具体需求选择合适的模型。

总体来看，这张图表清晰地展示了不同模型在MMLU质量基准和价格上的对比，帮助用户选择性价比最高的模型。

notion image

目前只有文本能力。

从该图中，我得到了以下信息：

模型对比：

图表展示了五种模型在不同任务中的表现，分别是GPT-4o mini、Gemini Flash、Claude Haiku、GPT-3.5 Turbo和GPT-4o。

不同颜色的柱状代表了不同的模型，其中橙色代表GPT-4o mini，黄色代表Gemini Flash，绿色代表Claude Haiku，浅蓝色代表GPT-3.5 Turbo，粉色代表GPT-4o。

任务和准确率：

图表显示了每个模型在MMLU、GPQA、DROP、MGSM、MATH、HumanEval、MMMU和MathVista任务中的准确率。

每个任务的准确率范围从0%到100%。

模型性能：

在MMLU任务中，GPT-4o mini表现最佳，准确率为82.0%，GPT-4o次之，准确率为77.9%。

在GPQA任务中，GPT-4o表现突出，准确率为88.7%，明显高于其他模型。

在DROP任务中，GPT-4o mini和GPT-4o表现相近，准确率分别为79.7%和78.4%。

在MGSM任务中，GPT-4o表现最佳，准确率为90.5%，GPT-4o mini紧随其后，准确率为87.0%。

在MATH任务中，GPT-4o mini和Claude Haiku的表现几乎相同，准确率为40.9%，略高于Gemini Flash的40.9%。

在HumanEval任务中，GPT-4o表现最强，准确率为90.2%，GPT-4o mini和Gemini Flash紧随其后，准确率分别为87.2%和76.6%。

在MMMU任务中，GPT-4o mini表现最佳，准确率为69.1%，其他模型的准确率都低于60%。

在MathVista任务中，仅有GPT-4o和Claude Haiku有表现，准确率分别为63.8%和46.4%。

总结：

总体来看，GPT-4o的表现最为出色，在大多数任务中都领先于其他模型。

GPT-4o mini在某些任务中表现也非常强劲，特别是在MMLU、DROP和MGSM任务中。

Claude Haiku和Gemini Flash在部分任务中的表现不如GPT-4o和GPT-4o mini。

通过这个图表，可以清楚地看出不同模型在多任务评估中的表现差异，并且可以用于选择适合特定任务的最佳模型。

notion image

notion image

notion image

notion image

Author:盛溪
URL:https://tangly1024.com/article/GPT4o%20mini%E5%88%9D%E6%AD%A5%E4%BA%86%E8%A7%A3
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Relate Posts

警醒自己————我只是足够幸运才能够轻装简行有资格走难走的路，但切勿嘲笑负重前行被迫跟着拥挤的人们

Lazy loaded image

这就是Chatgpt 阅读笔记

Lazy loaded image

华裔科学家李飞飞：她看见的世界和她改变的世界

Lazy loaded image

Lazy loaded image

《终极算法》阅读笔记（一）

Lazy loaded image

关于商业的思考

Lazy loaded image

几款免费的语言转录工具《研究为何重要的六大原因》

Loading...

盛溪

盛溪的学习&生活博客

Latest posts

墨尔本大学与悉尼大学IT入学要求

北京切除：京林公寓最后一夜，最后一人

Research about Computational Economics

Announcement

🌟 欢迎来到盛溪的博客！🌟

大家好，我是盛溪。在这里，我将分享我的生活感悟、学习心得以及其他一些有趣的发现。希望我的文章能为你的生活带来一点启发和乐趣。

📅 更新通知：

我会定期更新博客，分享新的内容。你可以通过RSS订阅或关注我的社交媒体账号来及时获取更新通知。

💬 互动环节：

如果你有任何问题或想法，欢迎在评论区留言。我非常期待与你的互动！

📚 推荐阅读：

不定期推荐一些我觉得有价值的书籍或资源，希望能对你有所帮助。

感谢你的访问和支持，希望你能常来逛逛！

盛溪敬上