朴素贝叶斯-白红宇

朴素贝叶斯

阅读量：6824 次

发布时间：2019-06-26

本文共 679 字，大约阅读时间需要 2 分钟。

朴素贝叶斯的基本思想：对于给出的待分类项，在给出待分类项的条件下求出各个类别出现的概率，哪个类别的概率大，该分类项就属于该类别

算法描述：

(1) 设样本x=(a1,a2,...an) ai为特征的取值

(2) 类别集合C={c1,c3,...ck) 表示有k个类别

(3) 计算p(c1|x),p(c2|x),...p(ck|x)

(4) 如果P(ct|x)=max{p(c1|x),...,p(ck|x)},则x属于类别ct

如何求p(C|x)?

下面给出贝叶斯公式

P(A|B)=P(AB)/P(B)=P(B|A)P(A)/P(B)

各个类别之间的相互独立的，所以

P(ci|x)=P(x|ci)P(ci)/P(x)

P(x|ci)P(ci)=P(ci)∑_{k=1 to n}P(ak|ci)

由于P(x)对于每个类别都是相同的，所以只需求P(x|ci)P(ci)最大即可

得贝叶斯分类表达式：

h(x)=arg max P(ci)∑_{k=1 to n}P(ak|ci)

需要注意的是若某个特征值在训练集中没有与某个类同时出现过，因为某个p(ak|ci)=0 h(x)就会出现问题

所以需要对其进行平滑处理：

P(ci)=(|D_c|+1)/|D|+N 其中N表示类别数 |D_c|表示类别为c的样本数

P(ak|ci)=|D_c,ak|+1/|D_c|+Ni 其中Ni表示第i个特征的可能取值 |D_c,ak|表示特征值对应样本数

进而避免了P(ak|ci)=0的情况

转载于:https://www.cnblogs.com/semen/p/6809488.html

你可能感兴趣的文章

WordPress Shortcode（简码）介绍及使用详解

查看>>

第三百四十六节，Python分布式爬虫打造搜索引擎Scrapy精讲—Requests请求和Response响应介绍...

查看>>

nginx源码学习资料

查看>>

【Bash百宝箱】Linux shell学习

查看>>

Vue搭建

查看>>

你真的了解word-wrap和word-break的区别吗？

查看>>

玩转linux： sed命令详解【转】

查看>>

centos7 启动httpd的时候为什么显示是这样的

查看>>

PHP | 别家网站都有的登录功能，你的网站也可以有！

Spring+SpringMVC+MyBatis整合进阶篇（四）RESTful实战(前端代码修改)

No application encryption key has been specified.

13. 关于IDEA工具在springboot整合mybatis中出现的Invalid bound statement (not found)问题

查看>>