• 网站数据:129个主题分类,33449个优秀站点,67803篇文章
  • 点击这里在线咨询客服
163分类目录 > 站长资讯 > 娱乐 > 文章详细 订阅RssFeed

数据挖掘基础分类

《互联网数据挖掘》本科生课程 数据挖掘基础(二): 分类 万小军 北京大学语言计算与互联网挖掘组 /lcwm 2017年10月24日 概念  分类:将数据划分到已知类别  分类器的构建基于有监督学习 • 基于标注数据进行学习: 训练集 类别1 数据/ 分类器 类别2 文本 …. 类别n 训练数据 2 二类分类vs.多类分类  二类分类  分类类别为两类: e.g. 正、负 Binary !!!!$$$!!!!  多类分类  分类类别为多类(=3) Multiple Categories 3 二类分类vs.多类分类  二类分类是分类问题的最基本形式,多类分类问 题可通过转化为二类分类问题加以解决  One vs. One : • 对于K类分类需要K(K-1)/2个二类分类器 • 测试分类时采用投票方式确定类别 • E.g. Labels: a, b, c • 分类器:a vs. b, b vs. c, a vs. c  One vs. All (Rest): • 对于K类分类需要K个二类分类器 • 测试分类时取返回最大值的类别 • E.g. Labels: a, b, c • 分类器:a vs. (b, c), b vs. (a, c), c vs. (a, b) 4 层次式分类  类别构成层次式结构(树状)  中图法、ODP目录等  分而治之 5 应用  分类的应用  新闻分类  广告页面判别  垃圾邮件过滤  垃圾短信过滤  博客风格判断  评论情感分类  幽默识别  … 6 基于规则的分类  人工/专家制定分类规则  使用布尔操作符: AND, OR and NOT  If 一个短信包含”中奖”, then 将其划分为垃圾短信。  可将规则组织成决策树  节点代表规则

上一篇: 数据对明星来说很重要吗

下一篇: 明星做过令人哭笑不得的丑事,你知道哪些

最新推荐网站
最新收录网站
随机轮播网站