欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

程序员文章站 2022-06-28 18:24:18
所有人物的相似图连接。 关系同上。展示形式为多中心结构 以张无忌的不同身份为中心的网络关系图。 一、分析结果 实体的不同属性(张无忌的总多马甲) 张无忌,无忌,张教主,无忌哥哥,张公子。同一个张无忌有多个身份,不同身份又和不同的人联系,有不一样的相似度。 先来看看图: 无忌哥哥是过于亲密的名字,一般 ......

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

所有人物的相似图连接。

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

关系同上。展示形式为多中心结构

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

以张无忌的不同身份为中心的网络关系图。

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

一、分析结果

实体的不同属性(张无忌的总多马甲)

张无忌,无忌,张教主,无忌哥哥,张公子。同一个张无忌有多个身份,不同身份又和不同的人联系,有不一样的相似度。

先来看看图:

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

无忌哥哥是过于亲密的名字,一般不喊。好似和这个词相似度高的都是比较奇怪的角色。

无忌是关系熟了以后,平辈或者长辈可以称呼的名字。还有周姑娘,殷姑娘等

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

数据预处理

  1. 文本文件转发成utf8(pandas)

  2. 文本文件分句,分词(Jieba)

  3. 文本文件分句,分词, 分析词性,主要是人名(Jieba)

  4. 更新自定义词典,重新分词(整个过程需要几遍,直至满意)

  5. 手工少量删除(分词出来的人名误判率不高,但是还是存在一些。例如:赵敏笑道,可以被识别的 一个叫 赵敏笑的人。 这部分工作还需要手工做。 除非有更好的分词工具,或者可以训练的分词工具,才能解决这一问题。

Word2Vec 训练模型。这个模型可以计算两个人之间的相似度

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

Word2Vec 向量化训练

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

建立实体关系矩阵

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

Python自然语言处理分析倚天屠龙记!都是小时候最爱看的电视剧!

欢迎大家关注我的博客:https://home.cnblogs.com/u/sm123456/

 欢迎大家加入万人交流学习,资源共享群:125240963