ChatGPT 正在做什么……为什么它有效?(上)

ChatGPT 能够自动生成类似于人类书写文本的东西,即使是表面上的相似,这是非常了不起的,也是出乎意料的。但它是如何做到的呢?为什么它会起作用呢?我的目的在于大致概述 ChatGPT 内部发生的事情,然后探讨它为什么能够在生成我们认为有意义的文本方面做得如此出色。我应该在一开始就说,我将专注于正在发生的大局,并且虽然我会提到一些工程细节,但我不会深入探讨它们。(我将要说的实质同样适用于其他当前的“大型语言模型”[LLMs],如同适用于 ChatGPT。)

ChatGPT 正在做什么……为什么它有效?(下)

The Practice and Lore of Neural Net Training神经网络训练的实践与知识 特别是在过去的十年里,神经网络训练的艺术取得了许多进展。是的,这基本上是一门艺术。有时候,尤其是事后,人们可以看到至少有一点“科学解释”来解释正在进行的事情。但大多数情况下,这些发现都是通过反复试验、添加想法和技巧来逐步建立了关于如何处理神经网络的重要知识。 有几个关键部分。首先,关键是要考虑为特定任务使用什么样的神经网络架构。然后是如何获取用于训练神经网络的数据的关键问题。而且,越来越多的情况下,不再需要从头开始训练网络:相反,一个新网络可以直接整合另一个已经训练好的网络,或者至少可以使用该网络为自己生成更多的训练示例。

如何去读一篇论文

这篇文章介绍了一种用于图像分类的大型深度卷积神经网络(CNN)。作者训练了一个具有60百万参数和650,000个神经元的网络,这个网络包含5个卷积层和3个全连接层,并能够将ImageNetLSVRC-2010竞赛中的1.2百万高分辨率图像分类到1000个不同的类别中。在测试数据上,这个网络达到了37.5%的top-1错误率和17.0%的top-5错误率,这显著优于之前的最佳结果。文章详细描述了网络架构的各个方面,包括使用非饱和神经元(ReLU)、高效的GPU实现卷积操作以及“aropout”技术来减少过拟合等创新方法。此外,文章还讨论了通过在多个GPU上训练来加速训练过程,以及如何通过数据增强来进一步提高网络的泛化能力。最终,该网络在ILSVRC-2012竞赛中也取得了胜利,验证了大型深度卷积神经网络在大规模视觉识别任务中的有效性和潜力。

CNN网络的巅峰之作

Figure 2: An illustration of the architecture of our CNN, explicitly showing the delineation of responsibilitiesbetween the two GPUs. One GPU runs the layer-parts at the top of the figure while the other runs the layer-partsat the bottom. The GPUs communicate only at certain layers. The network's input is 150,528-dimensional. andthe number of neurons in the network's remaining layers is given by 253,440-186,624-64,896-64.896-43.2644096-4096-1000.

Densely Connected Convolutional Networks

最近的研究表明,如果卷积网络在靠近输入的层和靠近输出的层之间包含较短的连接,那么它们的训练可以更深 更准确、更高效。在本文中,我们接受了这一观察,并介绍了密集卷积网络(DenseNet),它以前馈方式将每一层与其他每一层连接起来。而具有L层的传统卷积网络具有L个连接 每层与其后续直接连接之间有一个连接。为了 层,我们的网络有L(L+1)每一层,所有前面层的特征图用作输入,并且其自己的特征图用作所有后续层的输入。 DenseNet 有几个引人注目的优点:它们缓解了梯度消失问题,加强了特征传播,鼓励特征重用,并大大减少了参数数量。我们在四个高度竞争的对象识别基准任务(CIFAR-10、CIFAR-100、SVHN 和ImageNet)上评估了我们提出的架构。 DenseNets 在大多数方面都比最先进的技术有了显着的改进,同时需要更少的计算来实现高性能。代码和预训练模型可在https:/github.com/liuzhuang13/DenseNet 获取。

主要哲学流派汇总

斯多葛学派和伊壁鸠鲁学派在后希腊哲学时期确实有一些共通点,使人感到它们都提倡一种自然、简朴和享乐主义的生活方式,但它们的核心哲学理念和目标却有显著差异。 斯多葛学派(Stoicism): 1. 核心理念:斯多葛学派提倡理性和美德,认为通过理性控制情绪可以达到内心的宁静(Ataraxia)。他们强调顺应自然(living according to nature),这指的是遵循宇宙的理性秩序。 2. 自我控制:斯多葛学派认为情绪是由个人的判断引起的,只有通过改变自己的思维方式,才能控制情绪并达到内心的平静。他们主张无论外界环境如何变化,都要保持内心的宁静和坚韧。 3. 伦理目标:追求美德(Virtue)是生活的最高目标。斯多葛学派认为,美德是唯一的善,而外在的物质享受并不能带来真正的幸福。 伊壁鸠鲁学派(Epicureanism): 1. 核心理念:伊壁鸠鲁学派追求快乐(Hedonism),但这种快乐并不是简单的物质享乐,而是通过减少痛苦和焦虑来达到内心的宁静。他们强调对自然的理解和遵循自然规律(living according to nature),认为这样可以避免不必要的欲望和焦虑。 2. 简单生活:伊壁鸠鲁学派提倡简单的生活方式,满足基本的需求,以避免欲望带来的痛苦。他们认为,过多的欲望会导致痛苦,因此要追求精神上的愉悦而非物质享受。 3. 伦理目标:追求无痛(Aponia)和无忧(Ataraxia)的状态是生活的最高目标。伊壁鸠鲁学派认为,通过哲学的思考可以消除对神灵和死亡的恐惧,从而达到内心的平静。

《骆驼祥子》

《骆驼祥子》,中国现代长篇小说,作者老舍,1936至1937年在杂志上连载,1939年首次出版单行本。故事讲述1920年代北洋军阀统治下北京一个年轻人力车夫的悲惨人生。命途坎坷的祥子一心希望拥有自己的洋车,却一再得而复失,自甘堕落。在故事中,祥子因为意外捡到几匹骆驼而又被称为骆驼祥子。这亦是本书的题目。《骆驼祥子》内容写实,呈现北京城风貌,流露对低下阶层的深切同情和关怀,对个人主义的奋斗不表赞同,也讥讽政治上的集体行动主张。技巧方面,小说结构严谨紧凑,运用北京方言,文字生动传神,善用象征与反讽手法,深入描写人物的心理和情感。《骆驼祥子》是中国新文学中读者最多、最为知名的作品之一,被誉为代表老舍文学事业的巅峰和抗战以前最出色的中国现代小说,也是写实主义文学的里程碑之作。老舍以他的人生为线索,向人们展示封建社会时期,北京底层市民的艰苦生活。暗中讽刺封建社会对劳动者的剥削、压迫。
NotionNext
NotionNext
一个普通的干饭人🍚
Announcement
🌟 欢迎来到盛溪的博客!🌟
大家好,我是盛溪。在这里,我将分享我的生活感悟、学习心得以及其他一些有趣的发现。希望我的文章能为你的生活带来一点启发和乐趣。
📅 更新通知:
  • 我会定期更新博客,分享新的内容。你可以通过RSS订阅或关注我的社交媒体账号来及时获取更新通知。
💬 互动环节:
  • 如果你有任何问题或想法,欢迎在评论区留言。我非常期待与你的互动!
📚 推荐阅读:
  • 不定期推荐一些我觉得有价值的书籍或资源,希望能对你有所帮助。
感谢你的访问和支持,希望你能常来逛逛!
盛溪敬上