H4ck3r L1 | Thinking Realm - 专注机器学习、大数据

2021-05-16-谈谈反作弊风控的实践经验

发表于 2021-05-16 | 分类于 Machine-Learing

有人的地方就有江湖，互联网行业中的黑产团伙早已见怪不怪了，产品团队精心设计的营销活动奖励全部被机器人抢走、大量账号24小时挂机薅羊毛，这些行为不仅让正常用户享受不到企业的优惠福利而且还大大损害了企业自身的利益。这种现象在笔者就职的公司也很普遍，笔者负责反作弊项目也有一段时间了，在与黑产做攻防斗争的 ...

阅读全文 »

机器学习算法系列（19）XGBoost

发表于 2021-05-09 | 更新于 2021-05-27 | 分类于 Machine-Learning

XGBoost是GBDT的一种高效的实现，它是由华盛顿大学的陈天奇开发的一个高度可扩展的、端到端的提升系统。近几年XGBoost在各大算法竞赛中取得的成绩一时间可谓风头无两，它取得成功背后在于它在所有场景中的可扩展性，它在处理稀疏数据上的标点也是非常强大的。 1. 回顾提升树（Boosting Tr ...

阅读全文 »

《Spark快速大数据分析》思维导图及笔记

发表于 2020-09-29 | 更新于 2021-03-23 | 分类于 Spark

《Spark快速大数据分析》思维导图及笔记

阅读全文 »

Spark读取ElasticSearch数据——聚合查询

发表于 2020-09-29 | 更新于 2021-03-23 | 分类于 Spark

本文主要介绍如何通过Spark读取ES中的数据，并对ES进行聚合查询。

阅读全文 »

Spark编程基础（Scala版）笔记

发表于 2020-09-22 | 更新于 2021-03-23 | 分类于 Spark

记录了部分章节的笔记，这本书语言平时易懂，看得出来作者是很用心地写书，不是照着官方文档翻译，我推荐林子雨老师的这本书作为入门Spark的读物。

阅读全文 »

一次配置深度学习主机和安装TensorFlow2.0 GPU的经历

发表于 2019-11-20 | 更新于 2021-03-23 | 分类于 DeepLearning

记录一次配置深度学习主机和安装TensorFlow2.0 GPU的经历。

阅读全文 »

Scala Spark取出DataFrame中列中的值

发表于 2019-11-20 | 更新于 2021-03-23 | 分类于 Spark

Scala Spark取出DataFrame中列中的值

阅读全文 »

浅析Spark Architecture：Shuffle（二）

发表于 2019-10-25 | 更新于 2021-03-23 | 分类于 Spark

在浅析 Spark Architecture：Shuffle（一） | Thinking Realm这篇文章中我主要向大家介绍了Spark Shuffle的运行原理和随着Spark升级导致Shuffle运行机制的变化。

而这篇文章主要介绍在Spark中哪些操作会触发Shuffle、Shuffle的bypassMergeThreshold运行机制和4个与Shuffle相关的参数。

阅读全文 »

浅析Spark Architecture：Shuffle（一）

发表于 2019-10-20 | 更新于 2021-03-23 | 分类于 Spark

作为一个接触Spark将近一年的数据挖掘工程师，Spark在处理海量数据上游刃有余的表现就强烈的吸引着我，当我在使用Spark完成数据项目、训练模型任务的过程中通常会遇到各种各样的问题，相信这些问题每个Spark的新手都会遇到过，有的时候调高driver memory或者executor memory，又或者稍微改动一下代码然后就可以了，但是却始终对其背后的原理不甚了解，这不符合一个合格工程师的应该有的职业素养。

阅读全文 »

Linux创建IDEA快捷方式

发表于 2019-10-11 | 更新于 2021-03-23 | 分类于教程

先前每次启动idea都要到bin目录下执行./idea.sh脚本，比较麻烦，故直接在桌面创建快捷方式，点击图标便可以直接启动idea。

阅读全文 »

启动Scala REPL报错：java.lang.NoClassDefFoundError:javax/script/Compilable

发表于 2019-09-16 | 更新于 2021-03-23 | 分类于教程

启动Scala REPL报错: Exception in thread "main" java.lang.NoClassDefFoundError: javax/script/Compilable

阅读全文 »

余弦相似度与皮尔逊相关系数之间的比较

发表于 2019-09-09 | 更新于 2021-03-23 | 分类于 Machine-Learning

余弦相似度（也叫作余弦距离）和皮尔逊相关系数是数据挖掘中很常见的两种相似度计算方式，除此之外还有欧式距离、Jaccard距离、曼哈顿距离等计算方法。

本文主要讨论余弦相似度和皮尔逊相关系数之间的区别，首先，这两者返回的结果（相似度、相关系数）都介于0到1之间，并且都是值越大代表越相似，直觉上看起来两种算法之间并没有什么区别，然而实际并非如此，在用户的评分维度差距比较大的场景下，余弦相似度得到的结论可能不太合理，这篇文章的目的就是为了把余弦相似度和皮尔逊相似系数之间的区别解释清楚。

阅读全文 »

2019阅读记录

发表于 2019-09-07 | 更新于 2021-03-23 | 分类于思想王国

阅读在短期内可能不会给你的生活带来任何改变，但是只要你长期坚持下去，你会逐渐爱上这项脑力运动，它给你的回报也会越来越大。

从去年抛弃朋友圈到今年年初放弃微博，我可以说差不多已经脱离社交网络了，脱离社交网络给我的生活带来最大的改变在于我可以腾出更多的时间在阅读软件上而不是沉迷于微信微博，上半年列出的这些书大多是在通勤的地铁、午间休息和晚上下班回家之后看完的。

我爱阅读，我爱思考。

阅读全文 »

使用Tesseract提取图像中的文字

发表于 2019-09-02 | 更新于 2021-03-23 | 分类于教程

针对图像中的标准的印刷体文字，Tesseract或许是一个简单、高效的图片OCR方案选择。

阅读全文 »

贾俊平版本统计学复习笔记

发表于 2019-07-14 | 更新于 2021-03-23 | 分类于 Machine-Learning

前一段时间在工作中发现自己对于统计知识的理解有点不够系统，比如我知道了解数据的形态需要从集中趋势、离散趋势以及形态方面着手，但是对于其中的细节却总是模糊的，比如我无法回答为什么通常用标准差而不是方差来反映数据的离散程度，我也无法回答泊松分布到底是个什么鬼，所以出于非应试的目的，利用差不多一个多月的业余时间，我把贾俊平编写的统计学的前半部分大致的过了一遍，从中选出几点我先前不太明白的地方记录下来，先记录这么多，以后有新的再补上。

阅读全文 »

基于Spark逻辑回归的流失预测实践

发表于 2019-07-07 | 更新于 2021-03-23 | 分类于 Machine-Learning

先前的一段时间接手到一个流失用户预测的活，也就是根据某个群体用户的行为数据（动态特征）、自身特征（静态特征），建立一套流失预警的分类模型，预测用户的流失概率。类似于这种机器学习任务，毫无疑问，逻辑回归算法是首选之选。因为在很多场景下的需求问题都可以很容易地转化为一个分类或者预测问题，而逻辑回归的输出 ...

阅读全文 »

白话解释统计学中的P值

发表于 2019-07-06 | 更新于 2021-03-23 | 分类于教程

关于P值，统计学教材中的解释都比较拗口，难以理解，我举一个例子大家就明白了。

阅读全文 »

再见，2018

发表于 2019-04-07 | 更新于 2021-03-23 | 分类于思想王国

其实，年前的时候就计划着写一篇2018年的年终总结和另外一篇技术文章，奈何过年前的一段时间工作太忙，有的事情当时觉得不太方便放在年终总结里，再加上懒癌发作，后来就不了了之。正好清明节有点时间，腾出一个下午来补上之前的年终总结。到目前为止，2019年到现在也仅仅发布了一则关于SQL优化的博文，输出量 ...

阅读全文 »

SQL性能优化实践

发表于 2019-03-05 | 更新于 2021-03-23 | 分类于 Database

记录一次优化SQL查询的经历。

阅读全文 »

查找算法（一）：查找

发表于 2018-11-27 | 更新于 2021-03-23 | 分类于 algorithm

基于有序列表的查找。线性查找12345def search(arr, target): for i in range(len(arr)): if arr[i] == target: return i return -1 二分查找二分查找（也称为折半查 ...

阅读全文 »

H4ck3r L1

专注机器学习、大数据

GitHub douban

全站共210.8k字

欢迎关注我的公众号

0%