Thinking Realm

  • 首页

  • 标签311

  • 分类19

  • 归档154

  • 关于

  • 搜索

处理不平衡数据——基于UCI人口调查数据集(二)

发表于 2017-05-02 | 更新于 2021-03-23 | 分类于 Machine-Learning

本文是处理不平衡数据系列之二,在上一篇文章中,我们完成了对数据的预处理、可视化以及模型训练与预测等等工作,对数据有了整体的认识。在对实验数据进行预处理的时候,缺失值(missing values)和高相关性变量(variables with high correlation)是重点关注的对象。解决了这两个问题后,数据集样本不平衡的缺陷仍旧没有根除,所以针对数据分别进行了上采样、下采样以及SMOTE三种采样方法。显然,采样花费时间最久的SMOTE在模型中表现最佳,拿到了最高的准确率0.896,可是正当准备庆祝的时候,一个不幸的“消息”告诉我们:特异度(Specificity)只有0.254。也就是说,模型对预测收入高于5w的少数人群(minority class)表现不太好,这样的模型结果是不太令人满意的,能够拿到0.896的准确率自然也是在情理之中,毕竟正反样本的比例(96:4)摆在那里。为了克服这个缺陷,我们在R语言中采用了高效、性能强大的xgboost处理框架,最终得到理想的数据。

说句题外话,原本计划完成任务需花费10个番茄,实际耗时远远多出了预期的1倍多,整个五一就窝在实验室了。经过这个小小的项目后,深感“单兵作战”孤立无援的苦楚,唯有不断google,不断将写好的代码推倒重来,不断input、output······

阅读全文 »

13个“番茄”搞定SQL

发表于 2017-04-28 | 更新于 2021-03-23 | 分类于 coding

学习SQL的材料是《SQL必知必会》这本小册子,小册子浓缩了SQL的精华,很适合从未接触过SQL的初学者学习。标题中的“番茄”指的是番茄工作时间,不过我的单个番茄工作时间为45分钟,阅读完册子的核心部分加上做笔记总共花费了13个番茄时间。

阅读全文 »

大清相国——小说毕竟是小说

发表于 2017-04-28 | 更新于 2021-03-23 | 分类于 思想王国
“清官多酷,陈廷敬是清官,却宅心仁厚;
好官多庸,陈廷敬是好官,却精明强干;
能官多专,陈廷敬是能官,却从善如流;
德官多懦,陈廷敬是德官,却不乏铁腕。”
王跃文写的《大清相国》中曾这样赞扬陈廷敬,康熙皇帝也曾给予陈廷敬“几近完人”的评价。
阅读全文 »

优达学城-深度学习任务4:卷积神经网络

发表于 2017-04-25 | 更新于 2021-03-23 | 分类于 Machine-Learning

卷积神经网络(CNN)是一种十分强大的深度学习方法,在这次课程中没有对CNN做过多的探讨,这可苦了我这个菜鸟(累计番茄12*45mins)!卷积层、池化层、全连接什么的概念弄得我一头雾水,到现在我都没怎么弄明白中间的计算过程是怎样实现的,只是知道CNN大概是模仿人类的视觉体验,通过提取图像的局部特征而对获取事物的整体感知,还有参数个数的计算,至于如何去提取那就跟卷积层个数、步长、采样方法的选取有关了。要想彻彻底底弄明白这些东西,不是看几篇东抄抄西抄抄的中文博客就可以的,必须得要看论文和阅读代码!

处理这个任务的时候还出了一点小插曲,运行代码的时候出现dlerror: cudnnCreate not found的报错信息。开始以为是cudnn的文件误删了,又或者是tensorflow在不同操作系统下的问题,于是我尝试重新下载cudnn还有到github上提问,甚至还安装了Ubuntu!在这里花费了我不少“番茄”,最终还是到QQ群里提问得知windows当前只支持cudnn5版本,重新下载cudnn5之后再更新了CUDA安装路径下的bin、lib、include文件运行成功!而我之前是用的6.0的版本。做到任务4了还犯这么低级的错误,真是羞愧。

阅读全文 »

Windows10下Hadoop的安装

发表于 2017-04-21 | 更新于 2021-03-23 | 分类于 教程
一、Hadoop下载和添加环境变量稳定版Hadoop下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/stable/,选择大小为204M名为`hadoop-2.7.3.tar.gz`的安装包,然后解压到硬盘(我的放在E盘 ...
阅读全文 »

处理不平衡数据——基于UCI人口调查数据集(一)

发表于 2017-04-20 | 更新于 2021-03-23 | 分类于 Machine-Learning

Like it or not , a bitter truth about data science industry is that self-learning, certification, coursework is not sufficient to get you a job.

阅读全文 »

优达学城-深度学习任务3:正则化

发表于 2017-04-17 | 更新于 2021-03-23 | 分类于 Machine-Learning

接上次任务2,深度学习任务3引入了新的模型优化技术——正则化,通过在LR与神经网络模型中添加正则化项,使得模型的准确率有了显著的提升。

阅读全文 »

What does -1 mean in numpy reshape?

发表于 2017-04-15 | 更新于 2021-03-23 | 分类于 coding
numpy.reshape(a, newshape, order=’C’)[source],参数newshape是啥意思? 根据Numpy文档的解释: newshape : int or tuple of ints The new shape should be compatible wit ...
阅读全文 »

优达学城-深度学习任务2:SGD

发表于 2017-04-15 | 更新于 2021-03-23 | 分类于 Machine-Learning

接任务1处理过后的数据,在优达学城深度学习任务2里,首次运用了google的深度学习框架Tensorflow(GPU的速度杠杠的),加入ReLUs(修正线性单元)搭建起第一个神经网络。还比较两种优化方法:梯度下降和随机梯度下降,明显后者的速度更快效果更好。个人觉得到底是针对“懒惰工程师”的课程,整个课程一个公式都没有(当然既然调用现成的框架在课程里就暂时可以不去了解),设计者主要的目的是要听众掌握解决问题的“模板”。学完这个任务发现有几个非常重要的Numpy用法,有时间再整理一下。

阅读全文 »

优达学城-深度学习任务1:notMNIST

发表于 2017-04-13 | 更新于 2021-03-23 | 分类于 Machine-Learning

这是优达学城推出的深度学习课程任务1,主办方给了两个英文字母的数据集(A-J):notMNIST_large和notMINIST_small,通过预处理数据集,在此基础上训练一个简单的逻辑回归模型, 这个模型能够识别不同字体的英文字母的一个子集。通过训练全部200000张图片,模型的准确率达到0.8945。

阅读全文 »

Matplotlib绘图举例

发表于 2017-04-12 | 更新于 2021-03-23 | 分类于 coding

本文主要介绍如何用Matplotlib绘制简单的图形,特别需要理解子图(subplot)的用法

阅读全文 »

思想王国|硅谷钢铁侠

发表于 2017-04-07 | 更新于 2021-03-23 | 分类于 思想王国

“我要你考虑超前的事情,我要你能够用力地思考,每一天都思考到头疼。我希望你每天晚上睡觉的时候头都会疼。”

阅读全文 »

Python OS文件目录方法

发表于 2017-04-07 | 更新于 2021-03-23 | 分类于 coding
os.listdir(path) os.listdir()方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 ‘.’ 和’..’ 即使它在文件夹中。 path—指定文件夹路径,path是字符串格式,也可以通过“相加”得来,os.listdir(data_f ...
阅读全文 »

机器学习算法系列(8)神经网络与BP算法

发表于 2017-03-24 | 更新于 2021-03-23 | 分类于 Machine-Learning

机器学习中的神经网络(neural networks)算法受到生物界神经系统处理信息的启发,比如大脑处理信息的方式。跟人类一样,神经网络的训练也是一个学习的过程,通过大量的学习,神经网络能够完成特定的任务,比如图像分类识别、疾病预测判断等等。在这篇文章里将简单介绍神经元工作原理和神经网络模型,重点在于理解反向传导算法(BP)中参数的更新过程,并用一个实例解释了BP算法。

阅读全文 »

理解Numpy中的广播(Broadcasting)机制

发表于 2017-03-17 | 更新于 2021-03-23 | 分类于 coding

通过一张图理解Numpy的广播机制

阅读全文 »

Python Numpy 和 SciPy-入门教程

发表于 2017-03-15 | 更新于 2021-03-23 | 分类于 coding

本文简单介绍了Python的基本概念、Numpy和SciPy的简单用法,非常适合初学者以及已经入门需要复习的Python学习者。文章来源于CS231n课程给予初学者的Python的初级教程,斯坦福大学的CS231n( Convolutional Neural Networks for Visual Recogniton),开课者是著名计算机视觉学者李飞飞教授。

阅读全文 »

机器学习算法系列(7)朴素贝叶斯法

发表于 2017-03-13 | 更新于 2021-03-23 | 分类于 Machine-Learning

朴素贝叶斯法,即naive Bayesian method,之所以“naive”,大概是因为它只用到了浅显的概率论知识,(注意!本文没有任何的数学公式推导!)理解起来也相当容易。但不要看它naive就小瞧了它,朴素贝叶斯法基于贝叶斯定理和特征条件独立,是一种分类方法,它在分类任务中应用相当广泛。在这篇文章中,我会详细介绍贝叶斯法中的三个重要概念,以及用一个小故事和一个Python实现简单文本分类的例子帮助理解。

阅读全文 »

Hexo-Next-CSS样式修改

发表于 2017-03-12 | 更新于 2021-03-23 | 分类于 其他

Hexo-Next主题美化

阅读全文 »

计算机程序设计(C++)week03

发表于 2017-03-11 | 更新于 2021-03-23 | 分类于 coding , C++

计算机程序设计(C++)第三周课程笔记

阅读全文 »

机器学习算法比较——LR vs. SVM

发表于 2017-03-09 | 更新于 2021-03-23 | 分类于 Machine-Learning

逻辑斯蒂回归(Logistic regression,以下简称“LR”)和支持向量机(Support vector machine,以下简称“SVM”)都是机器学习中应用十分广泛的分类算法,两种算法在分类任务中的表现各有千秋,笔者在学习完LR和SVM后觉得有必要对这两种算法进行比较。参考论文及网络内容后,本文主要从思路、参数估计、样本分布下实验效果几个方面来进行对比。(个人笔记,如有纰漏,不吝赐教!)

阅读全文 »
1…678

H4ck3r L1

专注机器学习、大数据

154 日志
19 分类
311 标签
RSS
GitHub douban
Creative Commons
友链
  • Free will
  • 徐阿衡
  • 十一城
  • yao zhen
  • kba977
  • Babyzpj
  • w0x7ce
全站共210.8k字
欢迎关注我的公众号
© 2016 — 2021 All Rights Reserved.
0%