ChatGPT 正在做什么……为什么它有效?(上)

ChatGPT 能够自动生成类似于人类书写文本的东西,即使是表面上的相似,这是非常了不起的,也是出乎意料的。但它是如何做到的呢?为什么它会起作用呢?我的目的在于大致概述 ChatGPT 内部发生的事情,然后探讨它为什么能够在生成我们认为有意义的文本方面做得如此出色。我应该在一开始就说,我将专注于正在发生的大局,并且虽然我会提到一些工程细节,但我不会深入探讨它们。(我将要说的实质同样适用于其他当前的“大型语言模型”[LLMs],如同适用于 ChatGPT。)

ChatGPT 正在做什么……为什么它有效?(下)

The Practice and Lore of Neural Net Training神经网络训练的实践与知识 特别是在过去的十年里,神经网络训练的艺术取得了许多进展。是的,这基本上是一门艺术。有时候,尤其是事后,人们可以看到至少有一点“科学解释”来解释正在进行的事情。但大多数情况下,这些发现都是通过反复试验、添加想法和技巧来逐步建立了关于如何处理神经网络的重要知识。 有几个关键部分。首先,关键是要考虑为特定任务使用什么样的神经网络架构。然后是如何获取用于训练神经网络的数据的关键问题。而且,越来越多的情况下,不再需要从头开始训练网络:相反,一个新网络可以直接整合另一个已经训练好的网络,或者至少可以使用该网络为自己生成更多的训练示例。

如何去读一篇论文

这篇文章介绍了一种用于图像分类的大型深度卷积神经网络(CNN)。作者训练了一个具有60百万参数和650,000个神经元的网络,这个网络包含5个卷积层和3个全连接层,并能够将ImageNetLSVRC-2010竞赛中的1.2百万高分辨率图像分类到1000个不同的类别中。在测试数据上,这个网络达到了37.5%的top-1错误率和17.0%的top-5错误率,这显著优于之前的最佳结果。文章详细描述了网络架构的各个方面,包括使用非饱和神经元(ReLU)、高效的GPU实现卷积操作以及“aropout”技术来减少过拟合等创新方法。此外,文章还讨论了通过在多个GPU上训练来加速训练过程,以及如何通过数据增强来进一步提高网络的泛化能力。最终,该网络在ILSVRC-2012竞赛中也取得了胜利,验证了大型深度卷积神经网络在大规模视觉识别任务中的有效性和潜力。

CNN网络的巅峰之作

Figure 2: An illustration of the architecture of our CNN, explicitly showing the delineation of responsibilitiesbetween the two GPUs. One GPU runs the layer-parts at the top of the figure while the other runs the layer-partsat the bottom. The GPUs communicate only at certain layers. The network's input is 150,528-dimensional. andthe number of neurons in the network's remaining layers is given by 253,440-186,624-64,896-64.896-43.2644096-4096-1000.
NotionNext
NotionNext
一个普通的干饭人🍚
Announcement
🌟 欢迎来到盛溪的博客!🌟
大家好,我是盛溪。在这里,我将分享我的生活感悟、学习心得以及其他一些有趣的发现。希望我的文章能为你的生活带来一点启发和乐趣。
📅 更新通知:
  • 我会定期更新博客,分享新的内容。你可以通过RSS订阅或关注我的社交媒体账号来及时获取更新通知。
💬 互动环节:
  • 如果你有任何问题或想法,欢迎在评论区留言。我非常期待与你的互动!
📚 推荐阅读:
  • 不定期推荐一些我觉得有价值的书籍或资源,希望能对你有所帮助。
感谢你的访问和支持,希望你能常来逛逛!
盛溪敬上