Thinking Realm

  • 首页

  • 标签311

  • 分类19

  • 归档154

  • 关于

  • 搜索

Java 开发环境配置

发表于 2017-09-17 | 更新于 2021-03-23 | 分类于 coding , Java
Java 语言最初是由 Sun 公司团队发明的一种面向对象的编程语言,Java 最开始不叫 Java,而是 oka(橡树)。相对于 C++,Java 比较简单,更加容易理解,Java 可以在不同的平台执行,比如同一个 Java 程序既可以在 Windows 系统下运行,又可以在 Linux 下执行 ...
阅读全文 »

北京,后会有期

发表于 2017-09-08 | 更新于 2021-03-23 | 分类于 思想王国

这一年过得很快,经历了许多人许多事。每人都得给自己一个交待,学会向前看,学会告别

阅读全文 »

Linux 使用笔记(1)

发表于 2017-08-18 | 更新于 2021-03-23 | 分类于 Linux
1. scp 跨机远程拷贝将 10-9-185-82 的机器/titles_classification/libin目录上所有文件拷贝至10.9.90.211机器/root/titles_classification目录下 1root@10-9-185-82:~/titles_classifica ...
阅读全文 »

机器学习算法系列(13)理解卷积神经网络

发表于 2017-08-13 | 更新于 2021-03-23 | 分类于 Machine-Learning

写在前面

没想到博客能存活到现在,全凭着一股兴趣,不知不觉这个系列已经写到第 13 篇了。一直以来,我都是抱着初学者的心态来写机器学习算法,限于专业以及其他因素,圈子内有同样兴趣的伙伴少之又少,所以对机器学习的理解大多来自独自阅读论文和观看教学视频,个人的理解难免出现低级错误。再加上本人又非科班出身,遇到难以理解的地方往往“求告无门”,只能翻来覆去的啃,铺天盖地地搜,难免陷入主观的境地。

本文主要写的是笔者对 CNN 原理的一些个人理解,在 CNN 如何进行学习以及 dropout 没有做太多涉及,笔者接触卷积神经网络(Convolutional Neural Network,以下称 CNN)的时间不长,不论是看的论文还是做的 project 都远远不够,出现错误在所难免,理解上出现的偏差我是要负主要责任的,欢迎大家帮我找出文章中纰漏!

阅读全文 »

思想王国 | 一九八四

发表于 2017-07-29 | 更新于 2021-03-23 | 分类于 思想王国
阅读全文 »

Python | 乘上 Time Machine

发表于 2017-07-28 | 更新于 2021-03-23 | 分类于 coding

本篇文章主要介绍在使用 Python 过程中涉及到“时间”的一些处理笔记,包括获取格式化后的当前时间、实时观察任务完成的进度等等。

阅读全文 »

机器学习算法系列(12)奇异值分解——以图像压缩为例

发表于 2017-07-09 | 更新于 2021-03-23 | 分类于 Machine-Learning

严格地说来,本文涉及的主题并非属于机器学习算法,只是机器学习中的一种降维方法,笔者为了方便,仍旧将其归于机器学习算法系列。在解释奇异值分解的时候,笔者回避了难以理解的矩阵空间变换,而是从数学的角度用简单明了的公式说明。

阅读全文 »

pandas 处理数据的一点经验

发表于 2017-07-08 | 更新于 2021-03-23 | 分类于 coding

pandas 是 Python 中一个非常强大的数据处理包,几乎所有的数据预处理都可以通过它来完成。

阅读全文 »

如何解释 Python 面向对象编程?

发表于 2017-06-29 | 更新于 2021-03-23 | 分类于 coding
面向对象编程(Object Oriented Programming,简称OOP)把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数。 什么是“对象”?在 Python 中所有的数据类型都可以视为对象,然后每个对象都会有多个属性。比如,将“人”视为一个对象,姓名、身高、体重、性别等等都 ...
阅读全文 »

Python | pandas.concat:连接数据的“万能胶”

发表于 2017-06-29 | 更新于 2021-03-23 | 分类于 coding

在 pandas 下,可以对多种不同类型的数据进行粘结,包括 DataFrame、Series,甚至字典都可以合在一起,可以说是“万能胶”了。

阅读全文 »

机器学习算法系列(11)Adaboost 算法及其参数解释

发表于 2017-06-14 | 更新于 2021-03-23 | 分类于 Machine-Learning

在 Adaboost 中会有很多次的迭代计算,每一次的迭代计算得到一个基本分类器,根据已有的基本分类器,Adaboost 算法会提高那些在前一轮被弱分类器误分类的样本的权值,并降低那些被正确分类的样本的权值,对于“差生”重点关注。提升方法通过重复修改训练数据的权重分布,构建一系列的弱分类器,然后依据特定的组合算法对这些弱分类器进行线性组合,从而得到最终的强分类器。

Adaboost 是一个“笨蛋”,一开始它也许不怎么聪明,但是它非常乐于改进并接受他人的意见,所以最后它会变得很强大。

偏差指的是模型的期望预测值与真实结果的偏离程度,Boosting 方法在训练的过程中非常关注自己在每次的训练中所犯下的错误,所以“从偏差-方差分解的角度看,Boosting 主要关注降低偏差,因此 Boosting 能给予泛化性能相对弱的学习器构建很强的集成”。

阅读全文 »

MySQL 学习笔记(二)数据类型

发表于 2017-05-27 | 更新于 2021-03-23 | 分类于 coding

MySQL 中所谓的数据类型,是从系统的角度出发,为了方便对数据进行统一的分类,能够使用统一的方式进行管理,更好地利用有限的空间的一种手段。在 SQL 中数据类型分成了三大类:数值类型、字符串类型和时间日期类型。

阅读全文 »

MySQL 学习笔记(一)基本操作

发表于 2017-05-25 | 更新于 2021-03-23 | 分类于 coding
一、关键字说明数据库:database数据库系统:DBSDBMS:数据库管理系统DBA:数据库管理员 行、记录(record):都是指表中的一条记录,行是从结构角度出发,记录是从记录角度出发 列、字段(field):数据 二、结构化查询语言(数据以查询为主:99%是在进行查询操作)SQL 分为 ...
阅读全文 »

如何解释方差与偏差的区别?

发表于 2017-05-23 | 更新于 2021-03-23 | 分类于 Machine-Learning

将来训练上出现偏差,等于…你…你也有责任吧!

阅读全文 »

机器学习算法系列(10)主成分分析(PCA)

发表于 2017-05-22 | 更新于 2021-03-23 | 分类于 Machine-Learning

主成分分析(Principal Components Analysis,PCA)是一种无监督降维技术,它广泛应用于电视信号传输、图像压缩等领域。当面临的数据维数很高的时候,我们很难发现隐藏在数据中的模式和有用的信息,并且给建模带来不便,PCA 是一种常见的解决这类问题的手段。PCA 的目的在于寻找一个能够对所有样本进行恰当表达的超平面,这个超平面具有两个性质:最近重构性(样本点到这个超平面的距离都足够近)和最大可分性(样本点在这个超平面上的投影能够尽可能分开)。

以上说的可能有点抽象,举个例子,比如晚上你在路灯下行走,当你走到路灯的正底下或者仅仅偏离正底下一点点,光凭一丁点阴影是没有办法判断你的性别的。当你继续往前走,灯光把影子越拉越长,阴影中包含的信息逐渐多了起来,比如胖瘦、头发、衣着等等,此时判断性别就相对简单多了。我举这个例子的用意在于,如果找到一个好的投射坐标系(这是关键!),就能用最小的成本保留原始数据最多的信息。

阅读全文 »

Python-numpy.nonzero用法

发表于 2017-05-20 | 更新于 2021-03-23 | 分类于 coding
numpy.nonzero的功能是返回数组中所有非零元素的索引,比如在聚类分析中有这么一段更新质心位置的代码,cluster是每一行数组所属质心的索引,质心一共有k个,如何分别得到每个质心下的全部索引呢?一行nonzero(index == cent)就可以轻松解决问题。 123456# 更新质 ...
阅读全文 »

机器学习算法系列(9)k均值

发表于 2017-05-19 | 更新于 2021-03-23 | 分类于 Machine-Learning
在用户增长分析过程中有时除了需要预测用户的行为,还需要把用户细分为差异比较大的群体,然后针对不同的群体采取相应的运营手段,即用户分群。在机器学习的算法中有一个专门的领域——聚类算法,聚类是一种了解数据内在结构的方法,它通过将数据集中的样本划分为若干不相交的子集,每个子集称为一个“簇”(cluste ...
阅读全文 »

历年(1954-2016)政府工作报告文本分析及可视化

发表于 2017-05-14 | 更新于 2021-03-23 | 分类于 Machine-Learning

本文的语料库(Corpus)来源于中华人民共和国中央人民政府网站 ,时间跨度为1954年到2016年,以文本挖掘和复杂网络理论为基础,针对该语料库做了一点简单的NLP工作。

阅读全文 »

SQLite 数据库基础教程

发表于 2017-05-13 | 更新于 2021-03-23 | 分类于 coding
目录 SQLite 创建数据库 SQLite Like 子句 SQLite Glob 子句 SQLite Limit 子句 SQLite Distinct 关键字 SQLite JOIN 子句 交叉连接 - CROSS JOIN 内连接 - INNER JOIN 外连接 - OUTER JOIN ...
阅读全文 »

五步完美实现Win10 + Ubuntu 17.04双系统启动

发表于 2017-05-03 | 更新于 2021-03-23 | 分类于 教程

网络上各种双系统安装的教程良莠不齐,大多相互抄袭,很容易让人对Linux“敬而远之”,其实并没有那么难,本文去繁从简,简单而又清晰地介绍如何在Windows 10下五个步骤完美实现 Win10 + Ubuntu 17.04双系统启动。

阅读全文 »
1…5678

H4ck3r L1

专注机器学习、大数据

154 日志
19 分类
311 标签
RSS
GitHub douban
Creative Commons
友链
  • Free will
  • 徐阿衡
  • 十一城
  • yao zhen
  • kba977
  • Babyzpj
  • w0x7ce
全站共210.8k字
欢迎关注我的公众号
© 2016 — 2021 All Rights Reserved.
0%