欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
  • AI的数据、算法、算力“轮流坐庄”,NLP到了“数据为王”的时代

    AI的数据、算法、算力“轮流坐庄”,NLP到了“数据为王”的时代

    工作人员齐整坐好,每个人都对着电脑全神贯注,一件又一件的“东西”在眼前划过,经过标准化处理就转到下一流程……这实际上是人工智能行业里的数据标注办公区一角。由于深度学习的研究方向,人力密集型的数据标注工作是推进人工智能技术落地的重要环节之一。

    程序员文章站2023-10-21
    科技
  • Datawhale零基础入门NLP赛事 - Task1 赛题理解

    Datawhale零基础入门NLP赛事 - Task1 赛题理解一、赛事名称及介绍一、赛事名称及介绍赛事名称::零基础入门NLP - 新闻文本分类.赛事介绍:赛题简介赛题以新闻数据为赛题数据,赛题数据为14个类别的新闻文本,要求选手对新闻文本进行分类。(为了防止人工标注,官方对赛事数据的文本按照字符级别进行了匿名处理)难度分析该赛题难度相对较低,适合广大NLP小白入门。...

    程序员文章站2023-08-11
  • NLTK和Stanford NLP两个工具的安装配置

    这里安装的是两个自然语言处理工具,NLTK和Stanford NLP。 声明:笔者操作系统是Windows10,理论上Windows都可以; 版本号:NLTK 3.2 Stanford NLP 3.6.0 JDK 1.8 重要文件在讲述过程中会以网盘链接给出,可随时下载。 注:笔者是通过Anacon ...

    程序员文章站2022-11-21
  • 大数据之路【第十二篇】:数据挖掘--NLP文本相似度

    大数据之路【第十二篇】:数据挖掘--NLP文本相似度

    一、词频 TF • 假设:如果一个词很重要,应该会在文章中多次出现 • 词频——TF(Term Frequency):一个词在文章中出现的次数 • 也不是绝对的!出现次数最多的是“的”“是”“在”,这类最常用的词,叫做停用词(stop words)• 停用词对结果毫无帮助,必须过滤掉的词 • 过滤掉 ...

    程序员文章站2022-10-30
    IT编程
  • NLP学习—分词和词性标注

    NLP学习—分词和词性标注

    NLP学习1——分词和词性标注0.参考1.基本介绍1.1 词性标注1.2 NLTK1.3 jieba1.4 LAC2.代码实现2.1 分词2.1.1 使用nltk进行分词:2.1.2 使用jieba进行分词2.1.3 使用LAC进行分词2.2 词性标注2.2.1 使用nltk工具实现词性标注2.2.2 使用LAC工具实现词性标注3.遇到的问题及解决3.1 Resource punkt not found0.参考主要参考:参考链接1参考链接2参考链接3参考链接41.基本介绍1.1 词性标注词

    程序员文章站2022-10-07
    IT编程
  • nlp词性标注的作用

    词性标注 – 除了语法关系,句中单词的位置(词性)标记也蕴含着信息,词的位置定义了它的用途和功能。宾夕法尼亚大学提供了一个完整的位置标记列表。下方代码则使用了NLTK库来对输入的文本进行词性标注。 from nltk import word_tokenize, pos_tag text = "I a ...

    程序员文章站2022-10-04
  • NLP-2:图搜索算法和梯度下降

    NLP-2:图搜索算法和梯度下降

    title: ‘NLP-2:图搜索算法和梯度下降’date: 2019-10-31 10:52:41categories:nlp-自然语言处理tags:nlp-自然语言处理文章目录NLP-2:图搜索算法和梯度下降图搜索算法:我不会讲理论,直接从项目开始理解吧梯度下降算法(线行回归)NLP-2:图搜索...

    程序员文章站2022-07-16
  • 【NLP】中文分词方法:规则分词(正向最大匹配、逆向最大匹配、双向最大匹配)

    基于规则的分词是一种机械分词方法,需要不断维护和更新词典,在切分语句时,将语句的每个字符串与词表中的每个次进行逐一匹配,找到则切分,找不到则不予切分。按照匹配方法来划分,主要有正向最大匹配、逆向最大匹配以及双向最大匹配。1. 正向最大匹配正向最大匹配(Maximum Match,MM):从左向右取待...

    程序员文章站2022-07-15
  • NLP学习(四)规则分词-正向、逆向和双向最大匹配算法的中文分词-python3实现

    规则分词规则分词是一种机械分词方法,主要通过维护词典,在切分语句时将语句的每个字符串和词表中的词逐一匹配找到则切分,找不到则不切分。具体包括正向最大匹配法、逆向最大匹配法和双向最大匹配法正向最大匹配算法描述①从左向右取待切分汉语句的m 个字符作为匹配字段, m 为机器词典中最长词条的字符数。②查找机...

    程序员文章站2022-07-15
  • NLP自然语言处理 之 jieba中文处理

    教程参考来源视频:https://www.bilibili.com/video/av21452290/?p=1jieba中文处理与拉丁语系不同,亚洲语言不是以空格分隔词的。因此需要专门的工具将完整的文本分解成粒度更细的词。jieba就是一个十分好用的中文工具。它以分词起家,但功能比分词强大很多。1....

    程序员文章站2022-07-15
  • 我的开源项目汇总(机器&深度学习、NLP、网络IO、AIML、mysql协议、chatbot)

    我的开源项目汇总(机器&深度学习、NLP、网络IO、AIML、mysql协议、chatbot)

    TextAnalyzerhttps://github.com/sea-boat/TextAnalyzerA text analyzer which is based on machine learning,statistics and dictionaries that can analyze te...

    程序员文章站2022-07-14
  • 机器学习 - 自然语言处理(NLP)

    文章目录自然语言处理(NLP)文本分词词干提取词性还原词袋模型词频(TF)文档频率(DF)逆文档频率(IDF)词频-逆文档频率(TF-IDF)文本分类(主题识别)性别识别nltk分类器情感分析主题抽取自然语言处理(NLP)Siri的工作流程:1. 听 2.懂 3.思考 4.组织语言 5.回答语音识别...

    程序员文章站2022-07-13
  • NLP从入门到实战(一)

    NLP从入门到实战(一)

    NLP自然语言处理技术,我将长期连载NLP技术,分享论文,源码,新科技,以学习为目的,建议大家关注博主,不断更,一起进步~本文为原理篇,部分来源网络资源,本文目的是综述NLP,让朋友们更清晰地明白!后期会不断实战训练。自然语言处理NLP概述自然语言处理(Natural language proces...

    程序员文章站2022-07-12
  • 密集发布语言与知识十年成果:从NLP看百度AI助推产业智能化的完整范式

    密集发布语言与知识十年成果:从NLP看百度AI助推产业智能化的完整范式

    当AI发展借新基建东风进一步加速后,每个垂直门类都开始表现出一边深化技术、一边广拓生态的两大特征。最近的百度大脑语言与知识技术峰会直接表现了这一点。

    程序员文章站2022-07-11
    科技
  • 简单NLP TF-IDF算法实现关键词文本搜索

    简单NLP TF-IDF算法实现关键词文本搜索

    利用tf-idf算法搜索出与关键词有关的前K文本import osfrom nltk.text import TextCollectionfrom nltk.tokenize import word_tokenizefrom collections import Counterdef find_key(key_word): file_path='B3' file_list=os.listdir(file_path) sents=[] all_txt=[] t

    程序员文章站2022-07-10
    IT编程
  • 游离态GLZ的NLP任务1:拼写纠错

    游离态GLZ的NLP任务1:拼写纠错

    当我们使用搜索引擎的时候,经常会发现我们打错了我们想要检索的东西,但是搜索引擎仍旧给了我们正确的答案。比如我们把"python"打成了"pathon",百度成功识别了出来我们真正想要的。拼写纠错的核心在于编辑距离这一NLP任务的常用基础算法。编辑距离等于把一个字符串通过删除、修改、插入三种操作改为另...

    程序员文章站2022-07-09
    IT编程
  • NLP-UnicodeDecodeError: 'utf8' codec can't decode byte 0xe6 in position 0: invalid continuation byte

    NLP-UnicodeDecodeError: 'utf8' codec can't decode byte 0xe6 in position 0: invalid continuation byte

    记录使用simhash和 CountVectorizer计算文本相似性时遇到的问题,,主要是我线下的Windows系统使用的是python3.5,线上评测使用的是python2.7。。。问题:UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0xe...

    程序员文章站2022-07-08
  • 荐 NLP训练营之问答系统——替换用户输入句子中错误单词

    替换用户输入句子中错误单词构建词典库需要生成 所有候选集合读取路透社语料库构建语言模型:bigram用户打错的概率统计 - channel probalility主函数构建词典库# Python rstrip() 删除 string 字符串末尾的指定字符(默认为空格)vocab = set([line.rstrip() for line in open('vocab.txt')]) print(vocab)需要生成 所有候选集合def generate_candidates(word):

    程序员文章站2022-07-07
  • NLP中的卷积神经网络

    NLP中的卷积神经网络

    原文:http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/一、何为卷积1、卷积最开始是指信号处理领域的卷积操作:https://www.cnblogs.com/alexanderkun/p...

    程序员文章站2022-07-07
  • 吴恩达NLP课程资料

    吴恩达NLP课程资料

    NLP_wuenda1.简介 吴恩达老师在2020年6月份推出了NLP课程,Natural Language Processing Specialization 本人忙里偷闲将老师的视频和作业都完成了,后续会持续更新课程的资料和作业。目前NLP课程一共分为四门,每门课程会分为三(四)周,每周都会有代...

    程序员文章站2022-07-02
    IT编程