欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
  • 【NLP】三种知识图谱

    三种知识图谱知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。Knowledge Graph , Freebase , Wikidata 是目前最常见的三种知识图谱。Knowledge GraphKnowledge Graph...

    程序员文章站2022-06-12
  • NLP-词的典型性-词的共现

    词共现挖掘词内部的共现信息细分 1.挖掘 词跟所属概念之间的共现 2.挖掘词跟此之间的共现统计维度 1.词跟所有所属概念之间的共现频率关系,得出一词多义中的‘义’的分布概率 2. 同一概念下,所有词跟此概念的共现频率统计,得出概念下的代表词应用关系提取时候,可以将词进行m...

    程序员文章站2022-06-12
  • 【NLP】自然语言处理基础技能

    前言  了解自然语言处理的都知道,我们在得到文本数据的时候,往往需要对文本进行一些操作,例如:匹配字符串、分词以及字符串的相关操作。本篇便是主要介绍自然语言处理中的基础技能,主要包括:Python正则表达式、jieba分词、Python字符串处理等。本篇代码可见:Github一、Python 正则表...

    程序员文章站2022-06-12
  • 【NLP】中文处理前提--jieba详解

    介绍\quad\quad在自然语言处理中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。\quad\quad当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细...

    程序员文章站2022-06-12
  • NLP入门(一)词袋模型及句子相似度

      本文作为笔者NLP入门系列文章第一篇,以后我们就要步入NLP时代。  本文将会介绍NLP中常见的词袋模型(Bag of Words)以及如何利用词袋模型来计算句子间的相似度(余弦相似度,cosine similarity)。  首先,让我们来看一下,什么是词袋模型。我们以下面两个简单句子为例:s...

    程序员文章站2022-06-12
  • 句法分析 (syntactic parsing) 在 NLP 领域的应用是怎样的?

    句法分析 (syntactic parsing) 在 NLP 领域的应用是怎样的?

    问个NLP领域问题。问题原话是这样的,"To what extent would syntactic parsing be useful in an opinion extraction system and an information retrieval system?"题干里的opinion ...

    程序员文章站2022-06-04
    后端开发
  • 哈工大NLP处理工具pyltp安装历程

       这个pyltp的安装可谓艰辛,pyltp是哈工大的自然语言处理包,用于分词,词性标注,依存句法分析等工作,是目前国内最好的解析器之一。   但是其分词等方法和模型是由C++代码编写,所以使用python调用的时候需要有VC库,也就是需要下载Visio studio,版本在2008以上,然而py...

    程序员文章站2022-06-01
  • 哈工大NLP处理工具pyltp安装历程

       这个pyltp的安装可谓艰辛,pyltp是哈工大的自然语言处理包,用于分词,词性标注,依存句法分析等工作,是目前国内最好的解析器之一。   但是其分词等方法和模型是由C++代码编写,所以使用python调用的时候需要有VC库,也就是需要下载Visio studio,版本在2008以上,然而py...

    程序员文章站2022-06-01
  • CNN for NLP——Convolutional Neural Networks for Sentence Classification

    CNN for NLP——Convolutional Neural Networks for Sentence Classification

    又要开始一段看论文的调研生活了。那我开始翻译整理论文了。《Convolutional Neural Networks for Sentence Classification》 这是一篇很经典的用卷积神经网络做文本分类的文章。 作者是纽约大学(New York University)的 Yoon Ki...

    程序员文章站2022-05-30
  • 编写NLP处理程序的套路学习2-文本相似度度量

    编写NLP处理程序的套路学习2-文本相似度度量

    1、原理    文本相似度的度量有很多种方法,特定词出现频度,整体文本风格等。本文将使用tf-idf方式,通过cosin相似度度量两个文本的相似度。     tf为词频代表token frequence     idf为你文档频率,代表(所有文档的数目)/包含 该单词的文档出现频率)    1+lo...

    程序员文章站2022-05-25
  • Datawhale零基础入门NLP赛事 - Task1 赛题理解

    Datawhale零基础入门NLP赛事 - Task1 赛题理解

    Datawhale零基础入门NLP赛事 - Task1 赛题理解一、赛事名称及介绍一、赛事名称及介绍赛事名称::零基础入门NLP - 新闻文本分类.赛事介绍:赛题简介赛题以新闻数据为赛题数据,赛题数据为14个类别的新闻文本,要求选手对新闻文本进行分类。(为了防止人工标注,官方对赛事数据的文本按照字符级别进行了匿名处理)难度分析该赛题难度相对较低,适合广大NLP小白入门。...

    程序员文章站2022-05-25
    IT编程
  • 【NLP】从头开始学词向量的预训练

    【NLP】从头开始学词向量的预训练

      磐创AI分享  作者 | ARAVIND PAI 编译 | VK 来源 | Analytics Vidhya概述理解预训练词嵌入的重要性了解两种流行的预训练词嵌入类型:Word2Vec和GloVe预训练词嵌入与从头学习嵌入的性能比较介绍我们如何让机器理解文本数据?我们知道机器非常擅长处理和处理数...

    程序员文章站2022-05-23
  • 零基础如何构建部署NLP软件?基于预训练模型的NLP入门软件项目

    零基础如何构建部署NLP软件?基于预训练模型的NLP入门软件项目

    写在前面昨天Cortex v0.12开源了,以前笔者做过一段独立的iOS开发者,相对于平时的研究,也对ML如何构建web api服务有所兴趣。这种既能构建软件服务也适合入门的NLP学习内容,特别想分享推荐。原作者Caleb Kaiser: A list of beginner-friendly NL...

    程序员文章站2022-05-19
  • NLP训练一个可以寻找相似度最匹配的句子的模型(LSI、LDA、TFIDF)

    NLP训练一个可以寻找相似度最匹配的句子的模型(LSI、LDA、TFIDF)

    全套代码,不多解释,即插即用~英文句子预处理模块# 英文句子处理模块from nltk.corpus import stopwords as pwimport sys import recacheStopWords=pw.words("english")def English_processing(...

    程序员文章站2022-05-19
  • NLP&Python笔记——语料库

    NLP&Python笔记——语料库

    什么是语料库?文本语料库是一个大型结构化文本的集合。NLTK包含了许多语料库:(1)古滕堡语料库 (2)网络和聊天文本(3)布朗语料库(4)路透社语料库(5)就职演讲语料库(6)标注文本语料库  词汇列表语料库(1)词汇列表:nltk.corpus.words.words()词汇语料库是Unix 中...

    程序员文章站2022-05-18
  • 大数据之路【第十二篇】:数据挖掘--NLP文本相似度

    大数据之路【第十二篇】:数据挖掘--NLP文本相似度

    一、词频 TF • 假设:如果一个词很重要,应该会在文章中多次出现 • 词频——TF(Term Frequency):一个词在文章中出现的次数 • 也不是绝对的!出现次数最多的是“的”“是”“在”,这类最常用的词,叫做停用词(stop words)• 停用词对结果毫无帮助,必须过滤掉的词 • 过滤掉 ...

    程序员文章站2022-05-18
    IT编程
  • Datawhale组队学习NLP_Bert序列标注学习笔记

    Datawhale组队学习NLP_Bert序列标注学习笔记

    本文为学习Datawhale 2021.8组队学习NLP入门之Transformer笔记 原学习文档地址:https://github.com/datawhalechina/learn-nlp-with-transformers1 数据的读入from datasets import load_dat...

    程序员文章站2022-05-14
  • 『NLP学习笔记』BERT文本分类实战

    『NLP学习笔记』BERT文本分类实战

    BERT技术详细介绍! 文章目录一. 数据集介绍二. 数据读取三. 训练集和验证集划分四. 数据分词tokenizer五. 定义数据读取(继承Dataset类)六. 定义模型以及优化方法七. 训练测试以及准确率八. 整个代码九. 参考BERT技术详细介绍:https://zhangkaifang.b...

    程序员文章站2022-05-14
  • 浅谈Python NLP入门

    浅谈Python NLP入门

    本文主要介绍了Python NLP入门教程,Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧,希望能帮助到大家。什么是...

    程序员文章站2022-05-10
    后端开发
  • crawlspider 爬取51job nlp北京地区的职位并保存到mongo

    crawlspider 爬取51job nlp北京地区的职位并保存到mongo

    思路:先进入51job官网,输入关键词:nlp+北京,发现总共有5页,而且有规律。在spider里的start_urls在存放format取得这5页的链接rules的正则:发现提取的职位链接url有规律:都有beijing/数字,或beijing-三个小写字母/数字,因此写了两个Rule.有的非北京...

    程序员文章站2022-05-09