机器学习算法系列(19)XGBoost
Spark编程基础(Scala版)笔记
记录了部分章节的笔记,这本书语言平时易懂,看得出来作者是很用心地写书,不是照着官方文档翻译,我推荐林子雨老师的这本书作为入门Spark的读物。
浅析Spark Architecture:Shuffle(二)
在浅析 Spark Architecture:Shuffle(一) | Thinking Realm这篇文章中我主要向大家介绍了Spark Shuffle的运行原理和随着Spark升级导致Shuffle运行机制的变化。
而这篇文章主要介绍在Spark中哪些操作会触发Shuffle、Shuffle的bypassMergeThreshold运行机制和4个与Shuffle相关的参数。
浅析Spark Architecture:Shuffle(一)
作为一个接触Spark将近一年的数据挖掘工程师,Spark在处理海量数据上游刃有余的表现就强烈的吸引着我,当我在使用Spark完成数据项目、训练模型任务的过程中通常会遇到各种各样的问题,相信这些问题每个Spark的新手都会遇到过,有的时候调高driver memory或者executor memory,又或者稍微改动一下代码然后就可以了,但是却始终对其背后的原理不甚了解,这不符合一个合格工程师的应该有的职业素养。
Linux创建IDEA快捷方式
先前每次启动idea都要到bin目录下执行./idea.sh
脚本,比较麻烦,故直接在桌面创建快捷方式,点击图标便可以直接启动idea。
启动Scala REPL报错:java.lang.NoClassDefFoundError:javax/script/Compilable
启动Scala REPL报错: Exception in thread "main" java.lang.NoClassDefFoundError: javax/script/Compilable
余弦相似度与皮尔逊相关系数之间的比较
余弦相似度(也叫作余弦距离)和皮尔逊相关系数是数据挖掘中很常见的两种相似度计算方式,除此之外还有欧式距离、Jaccard距离、曼哈顿距离等计算方法。
本文主要讨论余弦相似度和皮尔逊相关系数之间的区别,首先,这两者返回的结果(相似度、相关系数)都介于0到1之间,并且都是值越大代表越相似,直觉上看起来两种算法之间并没有什么区别,然而实际并非如此,在用户的评分维度差距比较大的场景下,余弦相似度得到的结论可能不太合理,这篇文章的目的就是为了把余弦相似度和皮尔逊相似系数之间的区别解释清楚。
贾俊平版本统计学复习笔记
前一段时间在工作中发现自己对于统计知识的理解有点不够系统,比如我知道了解数据的形态需要从集中趋势、离散趋势以及形态方面着手,但是对于其中的细节却总是模糊的,比如我无法回答为什么通常用标准差而不是方差来反映数据的离散程度,我也无法回答泊松分布到底是个什么鬼,所以出于非应试的目的,利用差不多一个多月的业余时间,我把贾俊平编写的统计学的前半部分大致的过了一遍,从中选出几点我先前不太明白的地方记录下来,先记录这么多,以后有新的再补上。