这是优达学城推出的深度学习课程任务1，主办方给了两个英文字母的数据集（A-J）：notMNIST_large和notMINIST_small，通过预处理数据集，在此基础上训练一个简单的逻辑回归模型，这个模型能够识别不同字体的英文字母的一个子集。通过训练全部200000张图片，模型的准确率达到0.8945。

任务介绍

前一段时间打算学习fast.ai推出的深度学习系列课程，课程主讲的两个老师说了很多大实话，他们做的教程也很好，课程论坛十分活跃，提出的问题都可以得到回应。但是后来发现课程有太多地方没有完善，于是就放弃了，转而投奔优达学城的深度学习课程。

任务1没有涉及太多高级技巧，可对于我这种第一次处理图像数据的菜鸟还是挺伤脑筋的，google给出的代码并不完全正确，有几处bug。

正如业内人士说的，在XX中，大多数时间都被用在清洗数据上，这个任务也不例外。任务1中预处理数据占据全部任务时间的90%，包括将图像数据转换成3D数组、归一化、验证数据平衡、处理重叠样本（通过比较哈希值实现快速找出重复样本）等数据预处理方法，而训练所用的模型是现成的（off-the-shelf），来自sklearn.linear_model的LogisticRegression，最后达到的准确率也还不错。

优达学城-深度学习任务1：notMNIST

任务介绍

解决过程