首页 资讯 关注 科技 财经 汽车 房产 图片 视频

教育

旗下栏目: 军事 教育 体育 网络

特征表示:机器学习永恒的主题

来源:未知 作者:木木 人气: 发布时间:2017-11-24
摘要:2017-11-24 06:40 起源:书圈 词汇 原题目:特征表示:机器学习永恒的主题 在之前的一篇推送中给出了机器学习-人工智能-大数据-云盘算各种技术在互联网大数据处理中的接洽,截取部分图显示如下。图中特殊标注了特征工程在其中的位置,它主要是对大数据中的各种
2017-11-24 06:40 起源:书圈 词汇

原题目:特征表示:机器学习永恒的主题

在之前的一篇推送中给出了机器学习-人工智能-大数据-云盘算各种技术在互联网大数据处理中的接洽,截取部分图显示如下。图中特殊标注了特征工程在其中的位置,它主要是对大数据中的各种对象给出相应的特征表示,以便于进行进一步的挖掘剖析。

好比,针对微博或网络论坛中用户贴文的情感辨认问题,可以按照分类问题来处置。在构建分类器之前,我们需要明白对贴文采用哪些特征进行表现。肯定特征的方法按照研究的进阶,我把它们归纳为:人工选择、机器选择、机器推理,其中机器推理是指机器主动发现特征,也就是现在的深度学习方法。

以下分离解释这三种方式。

一、人工选择

依靠人工完成特征选择,对于贴文情感分类来说,我们可以直观想到的是一些典型的词汇,例如兴奋、兴奋、惊讶等与情感有关的词汇。但是很难保障能列出一个完整的包括各种感情词汇的列表,并且互联网新词在不断的创造过程中,谁又能说清晰“么么哒”等许多网络词汇所代表的情绪。当然除了词汇级别特征外,我们还能够从句法构造、短语结构等许多层面来选择情感特征,例如“岂非不值得愉快吗?”代表着一种典型的句法结构特点,当然这种选择需要更多的专业知识。因此,人工选择特征要靠人的经验,拥有较强的专业范畴背景。显然这种方式的缺陷是显著的。

二、机器选择

要克服手工选择的问题,就要斟酌如何应用数据。依照利用数据的方式不同,可以分为无监督和有监督两种,不外机器选择的方法仍旧无法完全脱离人工。

对于情感词无法选择完整的问题,无监督的方法利用词汇之间的共现或词语语义相似度进行情感词的推断,例如在许多的语料中“高兴”和“愉快”时常一起出现,因此就可以通过这种方式来寻找更多的情感词。利用WordNet等知识库也是一种常用的扩大方法。

有监督的方法令要求人工事先对句子进行情感标注。

例如,“莫非不值得高兴吗?”的标签是“高兴”,

“今天吃到一条虫子,太恶心了”的标签是“悲伤”

在大量类似的句子及标签的基本上,机器进行自动判断,分析的过程可以简略,也可以复杂。所采用的特征类型可以是n-gram特征,包含词汇、短语、修饰关联等。

可能可以到达这样的统计效果,即在“悲伤”类的句子中,“恶心”呈现的比较频繁,而“高兴”类的句子出现得比较少。在面对大批词汇统计成果时,我们需要一种判定方法,看看哪些n-gram特征可能有效地把不同的情感句子离开。而这种方法就是典型的特征选择方法,如信息增益、卡方统计量、互信息。

三、机器推理

机器推理的典型特色在于可以发现一些人工无法识别的特征,深度学习是目前机器推理特征的有效手腕。

Deep Learning的别号是Unsupervised Feature Learning,即无监督特征学习,固然名称与上述的无监督特征选择有些相似,但是已经有实质上的差别。

这种方法启示于神经科学,依据是人脑对信息的多层逐步递增处理的模式。对于文原来说,我们在阅读文章时,看到的是词汇,但是这些词汇在大脑里自动形成一定短语、实体、概念、主题等不同粒度的特征信息,而这些特征信息对于终极断定情感类型可能是有用的。

机器推理特征的才能也就在于如何提掏出这些不同层次的粒度特征,这就是所谓的逐层训练,每一层可以取得到一些新的特征。这些新的特征再作为上一层的输入,再去训练,又可以得到另外新的特征。这里的根本办法依然是训练,但是深度学习在提取特征时并不要求进行人工标注。它采取了一种奇妙的方法,即把无监视问题转化为有监督问题,将训练窗口中正常涌现的词语当做正例,在语料库中随机采样一些词语作为负例进行训练,当模型可以准确的划分正负例时意味着学习到新的有效特征。但就目前深度学习方法来说,学习到什么特征尚难于给出其对应的物理意义。

作者编著的《互联网大数据处理技术与应用》专著(清华大学出版社,2017)、同名大众号,专注于大数据技巧的相关科学和工程知识流传,同时也为读者供给一些拓展阅读资料。返回搜狐,查看更多

责任编辑:

责任编辑:木木