Java 开发环境配置

发表于 2017-09-17 | 更新于 2021-03-23 | 分类于 coding ， Java

Java 语言最初是由 Sun 公司团队发明的一种面向对象的编程语言，Java 最开始不叫 Java，而是 oka（橡树）。相对于 C++，Java 比较简单，更加容易理解，Java 可以在不同的平台执行，比如同一个 Java 程序既可以在 Windows 系统下运行，又可以在 Linux 下执行 ...

阅读全文 »

北京，后会有期

发表于 2017-09-08 | 更新于 2021-03-23 | 分类于思想王国

这一年过得很快，经历了许多人许多事。每人都得给自己一个交待，学会向前看，学会告别

阅读全文 »

Linux 使用笔记（1）

发表于 2017-08-18 | 更新于 2021-03-23 | 分类于 Linux

1. scp 跨机远程拷贝将 10-9-185-82 的机器/titles_classification/libin目录上所有文件拷贝至10.9.90.211机器/root/titles_classification目录下 1root@10-9-185-82:~/titles_classifica ...

阅读全文 »

机器学习算法系列（13）理解卷积神经网络

发表于 2017-08-13 | 更新于 2021-03-23 | 分类于 Machine-Learning

写在前面

没想到博客能存活到现在，全凭着一股兴趣，不知不觉这个系列已经写到第 13 篇了。一直以来，我都是抱着初学者的心态来写机器学习算法，限于专业以及其他因素，圈子内有同样兴趣的伙伴少之又少，所以对机器学习的理解大多来自独自阅读论文和观看教学视频，个人的理解难免出现低级错误。再加上本人又非科班出身，遇到难以理解的地方往往“求告无门”，只能翻来覆去的啃，铺天盖地地搜，难免陷入主观的境地。

本文主要写的是笔者对 CNN 原理的一些个人理解，在 CNN 如何进行学习以及 dropout 没有做太多涉及，笔者接触卷积神经网络（Convolutional Neural Network，以下称 CNN）的时间不长，不论是看的论文还是做的 project 都远远不够，出现错误在所难免，理解上出现的偏差我是要负主要责任的，欢迎大家帮我找出文章中纰漏！

阅读全文 »

思想王国 | 一九八四

发表于 2017-07-29 | 更新于 2021-03-23 | 分类于思想王国

阅读全文 »

Python | 乘上 Time Machine

发表于 2017-07-28 | 更新于 2021-03-23 | 分类于 coding

本篇文章主要介绍在使用 Python 过程中涉及到“时间”的一些处理笔记，包括获取格式化后的当前时间、实时观察任务完成的进度等等。

阅读全文 »

机器学习算法系列（12）奇异值分解——以图像压缩为例

发表于 2017-07-09 | 更新于 2021-03-23 | 分类于 Machine-Learning

严格地说来，本文涉及的主题并非属于机器学习算法，只是机器学习中的一种降维方法，笔者为了方便，仍旧将其归于机器学习算法系列。在解释奇异值分解的时候，笔者回避了难以理解的矩阵空间变换，而是从数学的角度用简单明了的公式说明。

阅读全文 »

pandas 处理数据的一点经验

发表于 2017-07-08 | 更新于 2021-03-23 | 分类于 coding

pandas 是 Python 中一个非常强大的数据处理包，几乎所有的数据预处理都可以通过它来完成。

阅读全文 »

如何解释 Python 面向对象编程？

发表于 2017-06-29 | 更新于 2021-03-23 | 分类于 coding

面向对象编程（Object Oriented Programming，简称OOP）把对象作为程序的基本单元，一个对象包含了数据和操作数据的函数。什么是“对象”？在 Python 中所有的数据类型都可以视为对象，然后每个对象都会有多个属性。比如，将“人”视为一个对象，姓名、身高、体重、性别等等都 ...

阅读全文 »

Python | pandas.concat：连接数据的“万能胶”

发表于 2017-06-29 | 更新于 2021-03-23 | 分类于 coding

在 pandas 下，可以对多种不同类型的数据进行粘结，包括 DataFrame、Series，甚至字典都可以合在一起，可以说是“万能胶”了。

阅读全文 »

机器学习算法系列（11）Adaboost 算法及其参数解释

发表于 2017-06-14 | 更新于 2021-03-23 | 分类于 Machine-Learning

在 Adaboost 中会有很多次的迭代计算，每一次的迭代计算得到一个基本分类器，根据已有的基本分类器，Adaboost 算法会提高那些在前一轮被弱分类器误分类的样本的权值，并降低那些被正确分类的样本的权值，对于“差生”重点关注。提升方法通过重复修改训练数据的权重分布，构建一系列的弱分类器，然后依据特定的组合算法对这些弱分类器进行线性组合，从而得到最终的强分类器。

Adaboost 是一个“笨蛋”，一开始它也许不怎么聪明，但是它非常乐于改进并接受他人的意见，所以最后它会变得很强大。

偏差指的是模型的期望预测值与真实结果的偏离程度，Boosting 方法在训练的过程中非常关注自己在每次的训练中所犯下的错误，所以“从偏差-方差分解的角度看，Boosting 主要关注降低偏差，因此 Boosting 能给予泛化性能相对弱的学习器构建很强的集成”。

阅读全文 »

MySQL 学习笔记（二）数据类型

发表于 2017-05-27 | 更新于 2021-03-23 | 分类于 coding

MySQL 中所谓的数据类型，是从系统的角度出发，为了方便对数据进行统一的分类，能够使用统一的方式进行管理，更好地利用有限的空间的一种手段。在 SQL 中数据类型分成了三大类：数值类型、字符串类型和时间日期类型。

阅读全文 »

MySQL 学习笔记（一）基本操作

发表于 2017-05-25 | 更新于 2021-03-23 | 分类于 coding

一、关键字说明数据库：database数据库系统：DBSDBMS：数据库管理系统DBA：数据库管理员行、记录（record）：都是指表中的一条记录，行是从结构角度出发，记录是从记录角度出发列、字段（field）：数据二、结构化查询语言（数据以查询为主：99%是在进行查询操作）SQL 分为 ...

阅读全文 »

如何解释方差与偏差的区别？

发表于 2017-05-23 | 更新于 2021-03-23 | 分类于 Machine-Learning

将来训练上出现偏差，等于…你…你也有责任吧！

阅读全文 »

机器学习算法系列（10）主成分分析（PCA）

发表于 2017-05-22 | 更新于 2021-03-23 | 分类于 Machine-Learning

主成分分析（Principal Components Analysis，PCA）是一种无监督降维技术，它广泛应用于电视信号传输、图像压缩等领域。当面临的数据维数很高的时候，我们很难发现隐藏在数据中的模式和有用的信息，并且给建模带来不便，PCA 是一种常见的解决这类问题的手段。PCA 的目的在于寻找一个能够对所有样本进行恰当表达的超平面，这个超平面具有两个性质：最近重构性（样本点到这个超平面的距离都足够近）和最大可分性（样本点在这个超平面上的投影能够尽可能分开）。

以上说的可能有点抽象，举个例子，比如晚上你在路灯下行走，当你走到路灯的正底下或者仅仅偏离正底下一点点，光凭一丁点阴影是没有办法判断你的性别的。当你继续往前走，灯光把影子越拉越长，阴影中包含的信息逐渐多了起来，比如胖瘦、头发、衣着等等，此时判断性别就相对简单多了。我举这个例子的用意在于，如果找到一个好的投射坐标系（这是关键！），就能用最小的成本保留原始数据最多的信息。

阅读全文 »

Python-numpy.nonzero用法

发表于 2017-05-20 | 更新于 2021-03-23 | 分类于 coding

numpy.nonzero的功能是返回数组中所有非零元素的索引，比如在聚类分析中有这么一段更新质心位置的代码，cluster是每一行数组所属质心的索引，质心一共有k个，如何分别得到每个质心下的全部索引呢？一行nonzero(index == cent)就可以轻松解决问题。 123456# 更新质 ...

阅读全文 »

机器学习算法系列（9）k均值

发表于 2017-05-19 | 更新于 2021-03-23 | 分类于 Machine-Learning

在用户增长分析过程中有时除了需要预测用户的行为，还需要把用户细分为差异比较大的群体，然后针对不同的群体采取相应的运营手段，即用户分群。在机器学习的算法中有一个专门的领域——聚类算法，聚类是一种了解数据内在结构的方法，它通过将数据集中的样本划分为若干不相交的子集，每个子集称为一个“簇”（cluste ...

阅读全文 »

历年（1954-2016）政府工作报告文本分析及可视化

发表于 2017-05-14 | 更新于 2021-03-23 | 分类于 Machine-Learning

本文的语料库（Corpus）来源于中华人民共和国中央人民政府网站，时间跨度为1954年到2016年，以文本挖掘和复杂网络理论为基础，针对该语料库做了一点简单的NLP工作。

阅读全文 »

SQLite 数据库基础教程

发表于 2017-05-13 | 更新于 2021-03-23 | 分类于 coding

目录 SQLite 创建数据库 SQLite Like 子句 SQLite Glob 子句 SQLite Limit 子句 SQLite Distinct 关键字 SQLite JOIN 子句交叉连接 - CROSS JOIN 内连接 - INNER JOIN 外连接 - OUTER JOIN ...

阅读全文 »

五步完美实现Win10 + Ubuntu 17.04双系统启动

发表于 2017-05-03 | 更新于 2021-03-23 | 分类于教程

网络上各种双系统安装的教程良莠不齐，大多相互抄袭，很容易让人对Linux“敬而远之”，其实并没有那么难，本文去繁从简，简单而又清晰地介绍如何在Windows 10下五个步骤完美实现 Win10 + Ubuntu 17.04双系统启动。

阅读全文 »

H4ck3r L1

专注机器学习、大数据

GitHub douban

全站共210.8k字

欢迎关注我的公众号

0%