Policy Gradient 初探

Policy Gradient 是 RL 算法中一个基础的模型。本文结合gym的Pong-v0游戏，对Policy Gradient做简单说明，并提供基于Pytorch的代码作为示例。

Recurrent Convolutional Neural Network For Svhn

虽然传统的CNN与大脑的视觉系统有着许多共同点，但CNN和视觉系统有个明显的不同在于CNN是一个前馈式(feed-forward)的结构，而视觉系统却存在许多的循环连接。受此启发，研究人员提出了一个模型Recurrent Convolutional Neural Network(RCNN), 将循环连接加入卷积层中。以希望提升模型表现。

Neural Module Networks实验笔记及总结

Neural Module Networks的一大特点就是其结构是它并不是像传统的神经网络模型一样是一个整体，它是由多个模块化网络组合而成。根据VQA数据集中每个questions定制一个网络模型。

在卷积神经网络训练过程中loss出现NaN的原因以及可以采取的方法

1.梯度爆炸

原因：在学习过程中，梯度变得非常大，使得学习的过程偏离了正常的轨迹。