本文将解释如何根据一段中文文本生成词同现矩阵?
生成词同现矩阵步骤:
1. 分词,将文章中所有的词置于列表中
2. 统计词同现词组频率,统计
3. 统计同现词组频率,并按频率的降序排列
4. 获取所有同现词组列表,保证列表中的元素是唯一的
5. 生成一个空矩阵,并使得矩阵的长宽为同现词组列表长度加一
6. 构建一个关键词集合,用于作为同现矩阵的首行和首列
7. 从同现词组中获得词组同现次数并填入同现矩阵
1 | import jieba |
推荐阅读
- 文献关键词同现矩阵python实现
- stackoverflow: word-word co-occurrence matrix
- Co-occurrence Matrix from list of words in Python
- Constructing a co-occurrence matrix in python pandas
- Mining Twitter Data with Python (Part 4: Rugby and Term Co-occurrences)
- python简单实战项目:《冰与火之歌1-5》角色关系图谱构建——人物关系可视化
- python构建关键词同现矩阵
- Gephi 中文教程
- Mining Twitter Data with Python (Part 4: Rugby and Term Co-occurrences)
- How to Use Words Co-Occurrence Statistics to Map Words to Vectors
继续阅读本站其他精彩文章