大婷电子分析网

主页
分享数据分析资讯
大婷电子分析网-书数据挖掘,人工智能

数据挖掘——文本挖掘

更新时间:2021-12-28 03:10:29点击:

数据挖掘——文本挖掘(图1)

1、数据准备

1.1、数据预处理

Sklearn可以将特征提取和归一化,把相应的原始数据转换为机器学习(原名叫数据挖掘)算法可用的数据。

1.2、数据降维

当数据之间存在信息重叠或共线性时,需要通过降维减少需要考虑的随机变量的数量 ,将信息进行高度浓缩。也可以将所有候选特征中的无明显关联的特征进行剔除。

1.3、模型选择

主要就是比较、验证、选择参数和模型,通过参数调整提高精度。序列
模型
1grid search
2
cross  validation
3
metrics
建立模型类型
说明
回归
概要
预测与对象相关联的连续值属性
应用
一元、多远回归
算法
SVR
ridge regressionLasso分类
概述
识别某个对象属于哪个类别
应用
图像识别等
算法
SVM
nearest neighborsrandom forest
聚类
概述
将相似对象自动分组
应用
分组实验结果
算法
k-Means
spectral clustering
mean-shifr
模型建立以后,需要对模型进行评估。又进入模型选择这一模块儿,通过网格搜索,或通过整个空间的参数搜索做相应模型的优化,在用metrics模块对模型进行评估。

利用Sklearn的缺陷:

缺少复杂统计模型,如时间序列分析需要用statsmodels进行处理。

缺少关联分析方法,

缺少深度神经网络。

2、 准备Python环境

# 偶尔需要使用相应函数import numpy as np# 用于数据管理import pandas as pd# 加载matplotlib.pyplot库,用于可视化处理from matplotlib import pyplot as plt# 使图形在notebook中直接显示%matplotlib inline# 加载seaborn库,可用于绘制更加美观的图import seaborn as sns# 加载seaborn默认格式设定sns.set()# 解决中文显示问题plt.rcParams["font.family"]="STXIHEI"# 如果需要使用statsmodels,可以考虑用API接口简化后续调用import statsmodels.api as sm经过以上调用,我们统计分析、统计建模、数据挖掘/机器学习的前提准备条件已经就绪。

3、 文本挖掘

是指对文本这种数据加以利用!从大量文本数据中抽取隐含的,未知的,可能有用的信息,也被称为自然语言处理(NLP)。

数据挖掘——文本挖掘(图2)

结巴分词:安装包(pip install jieba)

    1、基本特点:

          模式

精确模式,将句子试图以最精确地切开,适合做文本分析。

全模式,把句子中所有的可以成词的词语都扫描出来,进度快,但不能解决歧义。

搜索引擎模式,在精确模式基础上,对长词再切分,提高召回率,适合用于搜索引擎分词

    2、支持繁体分词

    3、支持自定义词典

import jiebatmpstr = "汤姆和杰瑞的爱恨情仇。"ss = jieba.cut(tmpstr) # 精确模式print(ss) # 是一个可迭代的 generator,可以使用for 循环来遍历结果,本质上类似list

数据挖掘——文本挖掘(图3)

# 可以将generator转化为listss = jieba.cut(tmpstr)list(word for word in ss) # 演示generator的用法

数据挖掘——文本挖掘(图4)

# 也可以直接将结果输出为list,利用lcut函数实现print(jieba.lcut(tmpstr))

数据挖掘——文本挖掘(图5)

# 全模式输出结果print('/'.join(jieba.cut(tmpstr,cut_all = True)))

数据挖掘——文本挖掘(图6)

# 搜索引擎模式print('/'.join(jieba.cut_for_search(tmpstr)))

数据挖掘——文本挖掘(图7)

若想对外部文件文本进行挖掘,则需要先将外部文件导入读取,作初步处理,方便后续文本信息的挖掘分析。

数据挖掘——文本挖掘(图8)

推荐文章