one-hot 编码_onehot与哑变量

one-hot 编码_onehot与哑变量博主原创文章,转载请注明出处https://www.cnblogs.com/shuaishuaidefeizhu/p/11269257.html一、什么是one-hot编码?One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且

大家好,欢迎来到IT知识分享网。

博主原创文章,转载请注明出处

详解one-hot编码

 

一、什么是one-hot编码?

One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1。

二、one-hot编码过程详解

比如我们要对 “hello world” 进行one-hot编码,怎么做呢?

1.确定要编码的对象–hello world,

2.确定分类变量–h  e  l  l  o  空格  w  o  r  l  d,共27种类别(26个小写字母 + 空格,);

3.以上问题就相当于,有11个样本,每个样本有27个特征,将其转化为二进制向量表示,

这里有一个前提,特征排列的顺序不同,对应的二进制向量亦不同(比如我把空格放在第一列和a放第一列,one-hot编码结果肯定是不同的)

因此我们必须要事先约定特征排列的顺序:

1.、27种特征首先进行整数编码:a–0,b–1,c–2,……,z–25,空格–26

2、27种特征按照整数编码的大小从前往后排列

得到的one-hot编码如下:

one-hot 编码_onehot与哑变量

 

再比如:我们要对[“中国”, “美国”, “日本”]进行one-hot编码,

怎么做呢?

1.确定要编码的对象–[“中国”, “美国”, “日本”, “美国”],

2.确定分类变量–中国    美国    日本,共3种类别;

3.以上问题就相当于,有3个样本,每个样本有3个特征,将其转化为二进制向量表示,

 

我们首先进行特征的整数编码:中国–0,美国–1,日本–2,并将特征按照从小到大排列

得到one-hot编码如下:

[“中国”, “美国”, “日本”, “美国”]  —>   [[1,0,0], [0,1,0], [0,0,1], [0,1,0]]

one-hot 编码_onehot与哑变量

 

三、为什么需要one-hot编码?

one hot编码是将类别变量转换为机器学习算法易于利用的一种形式的过程。

上面的 hello world 相当于多分类的问题(27分类),每个样本只对应于一个类别(即只在对应的特征处值为1,其余地方值为0),而我们的分类结果,得到的往往是隶属于某个类别的概率,这样在进行损失函数(例如交叉熵损失)或准确率计算时,变得非常方便

 

四、one-hot编码的缺陷

one-hot编码要求每个类别之间相互独立,如果之间存在某种连续型的关系,或许使用distributed respresentation(分布式)更加合适。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/29900.html

(0)

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信