CountVectorizer方法对中文进行特征提取

程序员文章站 2022-07-17 07:49:51

CountVectorizer方法进行特征提取 from sklearn.feature.extraction.text import CountVectorizer 这个方法根据分词进行数量统计继续文本分类文本特征提取作用：对文本进行特征值化 sklearn.feature_extractio ......

countvectorizer方法进行特征提取

from sklearn.feature.extraction.text import countvectorizer

这个方法根据分词进行数量统计继续文本分类

文本特征提取

作用：对文本进行特征值化

sklearn.feature_extraction.text.countvectorizer(stop_words = [])

 返回：词频矩阵

countvectorizer.fit_transform(x) x:文本或者包含文本字符串的可迭代对象

 返回：sparse矩阵 在后面加上 .toarray() 可以转换为二维数组

countvectorizer.inverse_transform(x) x:array数组或者sparse矩阵

 返回：转换之前数据格

countvectorizer.get_feature_names()

 返回：单词列表，也可以说是返回特征名字

中文特征提取举例（手动分词）

from sklearn.feature_extraction.text import countvectorizer
#中文 需要分词，否则是以整句作为一个词。英文则不需要，因为英文单词本来就有空格
def chinese_text_count_demo():
    data = ["我 爱 北京 *", "* 上 太阳 升"]
    
    # 1、实例化一个转换器类(为什么叫转化器，因为是将 文本 转化为 数值)
    transfer = countvectorizer()
    
    # 2、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray())
    print("特征名字：\n", transfer.get_feature_names())
    
    return none

if __name__ == '__main__':
    chinese_text_count_demo()

输出结果：
data_new:
 [[1 1 0]
 [0 1 1]]
特征名字：
 ['北京', '*', '太阳']

解析：上面第一行表示的是，data第一句话

数字表示的是，这个特征词出现的次数

中文特征提取举例（使用jieba分词）

首先你需要在自己的cmd命令行中下载jieba

pip3 install jieba / pip install jieba

from sklearn.feature_extraction.text import countvectorizer
import jieba

def cut_word(text):
    #进行中文分词
    return " ".join(list(jieba.cut(text)))
    # jieba.cut(text)返回的是一个生成器对象，需要转换为迭代器
    #return "".join(jieba.lcut(text))
    #jieba.cut(text)直接返回一个列表list

def auto_chinese_text_count_demo():
    data = ["你说这该怎么办"
           ,"唐龙大声问怎么回事"
           ,"晚上找个地方喝几盅怎么样"
           ,"老忠领他们到朱老明那里站在大柏树坟前说你看看这个地势怎么样我们的人要是从城里过来经过大渡口或是小渡口沿着千里堤"]
    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    
    print("句子分词后：\n", data_new)
    
    # 1、实例化一个转换器类
    transfer = countvectorizer(stop_words = ["说","的"])#停顿词应该预处理清理，这里只是示范
    
    # 2、调用fit_transform
    data_vector_value = transfer.fit_transform(data_new)
    print("data_vector_value:\n", data_vector_value.toarray())
    print("特征名字：\n", transfer.get_feature_names())
    
    return none
    
    
if __name__ =='__main__':
    auto_chinese_text_count_demo()


输出结果：
句子分词后：
 ['你 说 这 该 怎么办', '唐龙 大声 问 怎么回事', '晚上 找个 地方 喝 几盅 怎么样', '老忠领 他们 到 朱老明 那里 站 在 大柏树 坟前 说 你 看看 这个 地势 怎么样 我们 的 人 要 是从 城里 过来 经过 大渡口 或是 小 渡口 沿着 千里 堤']
data_vector_value:
 [[0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0 0 0]
 [1 0 1 0 1 0 1 1 0 1 1 0 0 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1]]
特征名字：
 ['他们', '几盅', '千里', '唐龙', '地势', '地方', '坟前', '城里', '大声', '大柏树', '大渡口', '怎么办', '怎么回事', '怎么样', '我们', '或是', '找个', '是从', '晚上', '朱老明', '沿着', '渡口', '看看', '经过', '老忠领', '过来', '这个', '那里']

上一篇：完整SpringBoot Cache整合redis缓存（二）

下一篇：《剑指offer》面试题6 重建二叉树

CountVectorizer方法对中文进行特征提取

countvectorizer方法进行特征提取

文本特征提取

中文特征提取举例（手动分词）

中文特征提取举例（使用jieba分词）

CountVectorizer方法对中文进行特征提取

python按照多个字符对字符串进行分割的方法

在Nginx用htpasswd对网站进行密码保护的设置方法

python中文分词,使用结巴分词对python进行分词(实例讲解)

linux系统下对有空格的文件夹进行操作的方法

Python对list列表结构中的值进行去重的方法总结

python使用sorted函数对列表进行排序的方法

Python 使用Numpy对矩阵进行转置的方法

对Nginx支持SSL的性能进行优化的方法

Python中对元组和列表按条件进行排序的方法示例