大婷电子分析网

主页
分享数据分析资讯
大婷电子分析网-书数据挖掘,人工智能

文本数据挖掘教与学(教学大纲)

更新时间:2021-12-28 03:09:52点击:

文本数据挖掘教与学(教学大纲)(图1)

文本数据挖掘教学大纲

课程名称:文本数据挖掘

学    分:2

总 学 时:32     理论学时:24         实验学时:8

先修课程:数据库原理与应用、Python高级语言编程、数据结构

适用专业: 数据工程专业

开课学期:第六学期

01

课程性质、定位和教学目标

课程性质:文本数据挖掘是数据工程专业的必修课程,本课程以文本数据挖掘为主要内容,讲述实现文本数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析更加深入地理解常用的文本数据挖掘模型。课程定位:“文本数据挖掘技术导论”是针对数据工程专业的专业技术课程,同时也是该专业的核心课程,也是本专业创业创新教育课程。在学生专业培养中起到至关重要的作用。教学目标:通过“文本数据挖掘技术导论”课程的教学,使学生理解文本数据挖掘的基本概念和方法,学习和掌握中的文本数据挖掘的经典方法。使学生能够借助Python高级语言编程工具进行具体文本数据的挖掘分析。

02

教学内容与要求

第一章  绪论

【教学目的与要求】 

了解文本挖掘研究背景、意义及国内外研究现状,掌握文本挖掘的概念,了解文本挖掘主要研究领域,了解文本挖掘在制药企业应用案例。

【教学内容】

1.1 文本挖掘研究背景及意义

1.2 文本挖掘的国内外研究现状

1.3 文本挖掘概述

1.4  文本挖掘的过程 

1.5 文本挖掘在制药企业应用案例

【教学重点与难点】 

重点:文本挖掘研究背景、意义国内外研究现状、文本挖掘概念   

难点:文本挖掘的过程

【教学手段】

利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 

【课后作业】

1. 文本挖掘与数据挖掘有何联系和区别?

2. 目前文本挖掘的领域主要涉及到哪些? 

第二章 文本切分及特征词选择

【教学目的与要求】 

掌握文本数据采集的常用方法、了解中文语料库与词典,熟练掌握文本切分和文本特征词选择的方法,熟练掌握Python Jieba分词模块及其用法。

【教学内容】

2.1 文本数据采集

2.2 语料库与词典简介

2.3 文本切分

2.4  文本特征词选择 

2.5 Python Jieba分词模块及其用法

【教学重点与难点】 

重点:文本切分、文本特征词选择、Python Jieba分词模块及其用法   

难点:Python Jieba分词模块及其用法

【教学手段】

利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 

【课后作业】

1 利用现代汉语语料库进行一段中文文本的汉语分词、词性自动标注、字频统计和词频统计。

2 用Python实现双向最大匹配的算法。

3 利用jieba进行一段中文文本的三种模式的分词。

第三章 文本表示模型

【教学目的与要求】 

熟练掌握文本预处理的常用方法、掌握向量模型、概率模型和主题概率模型的概念及Python的实现。

【教学内容】

3.1 文本预处理

3.2 向量空间模型

3.3 概率模型

3.4 主题概率模型 

【教学重点与难点】 

重点:文本预处理、向量空间模型、概率模型、主题概率模型   

难点:主题概率模型

【教学手段】

利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 

【课后作业】

1 给出一段中文文本,利用Python的re.split() 函数,分隔所有短句。

2 给出一段中文文本,去除停用词,完成操作后将结果读出来。

第四章 文本分类

【教学目的与要求】 

了解文本分类意义、国内外研究现状与发展趋势,掌握文本分类的定义,熟练掌握文本分类的流程和文本分类预处理。掌握典型的常用文本分类器,了解分类模型的性能评估。

【教学内容】

4.1 文本分类概述 

4.2 常用文本分类器

4.3 分类模型的性能评估

【教学重点与难点】 

重点:常用文本分类器 

难点:常用文本分类器 

【教学手段】

利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 

【课后作业】

1 给定有类别标注的文本向量集,参考例4.2,对于一组待分类的文本,判断分别属于哪一类。

2 利用Python编程,对给定相关数据验证SVM算法。

3 Python编程,利用朴素贝叶斯分类器实现垃圾邮件过滤。

4 给定相关数据,利用Python编程,验证ID3和C4.5算法。

第五章 文本聚类

【教学目的与要求】 

了解文本聚类意义、国内外研究现状与发展趋势,掌握文本聚类的定义,熟练掌握文本聚类的流程和文本聚类预处理。掌握典型的常用文本聚类器,了解聚类模型的性能评估。

【教学内容】

5.1 文本聚类概述 

5.2 文本聚类原理与方法

5.3 文本聚类评估

【教学重点与难点】 

重点:文本聚类原理与方法 

难点:文本聚类原理与方法 

【教学手段】

利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 

【课后作业】

1 描述基于划分的聚类方法,并分别验证例5.1和例5.2中的k-means、k-medoids聚类。

2 描述基于层次的聚类方法。验证例5.6中AGNES算法。

3 参照例5.9 ,给定一组文档集的向量,利用python实现DBSCAN算法。

第六章 文本关联分析

【教学目的与要求】 

了解文本关联规则基本概念和意义,掌握关联规则分类和关联规则挖掘算法,熟练掌握Apriori 算法,了解FP-Growth算法。

【教学内容】

6.1 引言 

6.2 文本关联规则

6.3 关联规则挖掘算法 

【教学重点与难点】 

重点:文本关联规则、关联规则挖掘算法 

难点:关联规则挖掘算法 

【教学手段】

利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 

【课后作业】

1 简述研究文本关联规则的意义。

2 根据例6.1,理解 Apriori算法的步骤。

第七章 Python处理文本数据简单应用

【教学目的与要求】 

掌握文本集的情感分析、关键词和摘要自动生成的Python实现,掌握使用 SnowNLP 进行商品评价的Python实现,掌握利用Python生成“词云”。

【教学内容】

7.1 情感分析 

7.2自动生成关键词和摘要

7.3 使用 SnowNLP 进行商品评价

7.4 生成“词云” 

【教学重点与难点】 

重点:自动生成关键词和摘要、使用 SnowNLP 进行商品评价 

难点:使用 SnowNLP 进行商品评价

【教学手段】

利用网络环境、多媒体课件,案例教学、实理一体化教学方法等 

【课后作业】

1 利用TextRank算法的python算法仿照例7.3实现,创建中文文本文件,利用TextRank4Keyword将文本拆分成4种格式:sentences、words_no_filter、words_no_stop_words和words_all_filters。

2 创建中文文本文件,参照例7.4和例7.5生成关键字和摘要。

3 输入一段中文文本,利用7.3.1中的样例,验证 SnowNLP 的主要功能。

03

学时分配


课程内容

学时分配

小计

讲课

习题课

讨论课

实验

其他

第一章 绪论

2





2

第二章 文本切分及特征词选择

4



2


6

第三章 文本表示模型

4





4

第四章 文本分类

6



2


8

第五章 文本聚类

4



2


6

第六章 文本关联分析

2



2


4

第七章 Python处理文本数据简单应用

2





2

合计

24



8


32

04

考核方式与评分标准

考核方式:闭卷考试或课程论文

评分标准:综合成绩=期末考试×70%+平时成绩×30%

05

选用教材

文本数据挖掘教与学(教学大纲)(图2)

文本数据挖掘教与学(教学大纲)(图3)

10

内容简介

本书介绍文本数据挖掘的相关概念,利用Python作为工具进行相关试验,其内容主要包括:文本挖掘产生的背景及发展;文本挖掘的概念、文本模型表示、文本内容的预处理,包括分词、去停用词以及特征抽取;文本相似度的概念等。介绍文本分类的概念及常用方法,如KNN算法、SVM算法等,并对分类结果进行评价;在介绍文本聚类聚类的概念时是,同样介绍聚类常用算法,如K均值算法、层次聚类法、密度聚类法等,作为有文本分类、文本聚类的应用,最后给出了信息抽取、社会网络中的实体关系抽取和事件抽取。

11

目录

上下滚动查看 ↓

第1章绪论

1.1文本挖掘的研究背景及意义

1.2文本挖掘的国内外研究现状

1.3文本挖掘概述

1.3.1文本挖掘的概念

1.3.2文本挖掘的任务

1.3.3文本挖掘与数据挖掘的联系与区别

1.4文本挖掘的过程

1.5文本挖掘的主要研究领域

1.5.1文本特征选择

1.5.2文本结构分析

1.5.3文本摘要

1.5.4文本分类

1.5.5文本聚类

1.5.6文本关联分析

1.5.7分布分析与趋势预测

1.6文本挖掘在制药行业的应用案例

习题1

第2章文本切分及特征词选择

2.1文本数据采集

2.1.1软件接口对接方式

2.1.2开放数据库方式

2.1.3基于底层数据交换的数据直接采集方式

2.1.4网络爬虫采集网页数据

2.2语料库与词典简介

2.2.1语料库

2.2.2词典

2.3文本切分

2.3.1句子切分

2.3.2词汇切分

2.4文本特征词选择

2.4.1文本特征词选择概述

2.4.2常用的文本特征词选择方法

2.5Python jieba分词模块及其用法

2.5.1jieba方法

2.5.2基于规则的中文分词

2.5.3关键词提取

习题2

第3章文本表示模型

3.1文本预处理

3.1.1原始数据处理

3.1.2文本预处理简述

3.2向量空间模型

3.2.1向量空间模型的概念

3.2.2文本向量的相似度

3.2.3向量模型的Python实现

3.3概率模型

3.3.1概率模型概述

3.3.2概率建模方法

3.3.3文本信息检索中的概率模型

3.3.4概率模型的Python实现

3.4概率主题模型

3.4.1概率主题模型概述

3.4.2PLSA概率主题模型

3.4.3LDA概率主题模型

3.4.4LDA概率主题模型的Python实现

习题3

第4章文本分类

4.1文本分类概述

4.1.1研究的意义

4.1.2国内外研究现状与发展趋势

4.1.3文本分类的定义

4.1.4文本分类流程

4.1.5文本分类预处理

4.2常用文本分类器

4.2.1KNN分类器

4.2.2SVM分类器

4.2.3Rocchio分类器

4.2.4朴素贝叶斯分类器

4.2.5决策树分类器

4.3分类模型的性能评估

4.3.1分类评价方法

4.3.2分类性能评价指标

习题4

第5章文本聚类

5.1文本聚类概述

5.1.1研究的意义

5.1.2国内外研究现状与发展趋势

5.1.3文本聚类的定义

5.1.4文本聚类流程

5.1.5对聚类算法的性能要求

5.2文本聚类原理与方法

5.2.1基于划分的方法

5.2.2基于层次的方法

5.2.3基于密度的方法

5.2.4基于网格的方法

5.2.5基于模型的方法

5.3文本聚类评估

5.3.1估计聚类趋势

5.3.2确定簇数

5.3.3测定聚类质量

习题5

第6章文本关联分析

6.1关联规则挖掘概述

6.2文本关联规则

6.2.1关联规则的基本概念

6.2.2关联规则分类

6.3关联规则挖掘算法

6.3.1Apriori算法

6.3.2FPGrowth算法

习题6

第7章利用Python处理文本数据简单应用

7.1情感分析

7.1.1情感分析原理

7.1.2算法设计

7.1.3算法实现

7.2自动生成关键词和摘要

7.2.1TextRank算法

7.2.2生成关键词和摘要

7.3使用SnowNLP进行商品评价

7.3.1SnowNLP库简介

7.3.2SnowNLP商品评价

7.4生成“词云”

7.4.1“词云”的概念

7.4.2Python“词云”图的生成

习题7


12

配套资源

文本数据挖掘教与学(教学大纲)(图4)

完整的教案,请在***“书圈”后台回复【9787302557869】下载完整版

推荐文章