推荐 | Tags | 盛溪的博客

ChatGPT 正在做什么……为什么它有效？(下)

The Practice and Lore of Neural Net Training神经网络训练的实践与知识特别是在过去的十年里，神经网络训练的艺术取得了许多进展。是的，这基本上是一门艺术。有时候，尤其是事后，人们可以看到至少有一点“科学解释”来解释正在进行的事情。但大多数情况下，这些发现都是通过反复试验、添加想法和技巧来逐步建立了关于如何处理神经网络的重要知识。有几个关键部分。首先，关键是要考虑为特定任务使用什么样的神经网络架构。然后是如何获取用于训练神经网络的数据的关键问题。而且，越来越多的情况下，不再需要从头开始训练网络：相反，一个新网络可以直接整合另一个已经训练好的网络，或者至少可以使用该网络为自己生成更多的训练示例。

推荐

观察分析

大模型解决不了英伟达的难题，AI新范式必将出现：专访安克创新CEO阳萌

Transformer 是仿生算法的阶段性实现10年、20年后大家将不再用TA

观察分析

推荐

用大模型保存你的全部人生，你会接受吗：专访安克创新CEO阳萌

怎么把领域知识结合进大模型

观察分析

推荐

思考

如何去读一篇论文

这篇文章介绍了一种用于图像分类的大型深度卷积神经网络(CNN)。作者训练了一个具有60百万参数和650,000个神经元的网络，这个网络包含5个卷积层和3个全连接层，并能够将ImageNetLSVRC-2010竞赛中的1.2百万高分辨率图像分类到1000个不同的类别中。在测试数据上，这个网络达到了37.5%的top-1错误率和17.0%的top-5错误率，这显著优于之前的最佳结果。文章详细描述了网络架构的各个方面，包括使用非饱和神经元(ReLU)、高效的GPU实现卷积操作以及“aropout”技术来减少过拟合等创新方法。此外，文章还讨论了通过在多个GPU上训练来加速训练过程，以及如何通过数据增强来进一步提高网络的泛化能力。最终，该网络在ILSVRC-2012竞赛中也取得了胜利，验证了大型深度卷积神经网络在大规模视觉识别任务中的有效性和潜力。

推荐

观察分析

CNN网络的巅峰之作

Figure 2: An illustration of the architecture of our CNN, explicitly showing the delineation of responsibilitiesbetween the two GPUs. One GPU runs the layer-parts at the top of the figure while the other runs the layer-partsat the bottom. The GPUs communicate only at certain layers. The network's input is 150,528-dimensional. andthe number of neurons in the network's remaining layers is given by 253,440-186,624-64,896-64.896-43.2644096-4096-1000.

推荐

观察分析