晒百科
当前位置: 首页 常识

自然语言处理的应用有哪些(详解自然语言处理5大语义分析技术及14类应用)

2024-11-08 08:15:24 100次浏览   

自然语言处理(Natural Language Processing,NLP)技术是与自然语言的计算机处理有关的所有技术的统称,其目的是使计算机能够理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。


自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。


本文来源:大数据DT(ID:hzdashuju)



1、语义分析技术


自然语言处理技术的核心为语义分析。语义分析是一种基于自然语言进行语义信息分析的方法,不仅进行词法分析和句法分析这类语法水平上的分析,而且还涉及单词、词组、句子、段落所包含的意义,目的是用句子的语义结构来表示语言的结构。语义分析技术具体包括如下几点。


1、词法分析


词法分析包括词形分析和词汇分析两个方面。 一般来讲,词形分析主要表现在对单词的前缀、后缀等进行分析,而词汇分析则表现在对整个词汇系统的控制,从而能够较准确地分析用户输入信息的特征,最终准确地完成搜索过程。


2、句法分析


句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,以实现自动句法分析的过程。


3、语用分析


语用分析相对于语义分析又增加了对上下文、语言背景、语境等的分析,即从文章的结构中提取出意象、人际关系等附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活中的细节关联在一起,从而形成动态的表意结构。


4、语境分析


语境分析主要是指对原查询语篇之外的大量“空隙”进行分析,以便更准确地解释所要查询语言的技术。这些“空隙”包括一般的知识、特定领域的知识以及查询用户的需求等。


5、自然语言生成


AI驱动的引擎能够根据收集的数据生成描述,通过遵循将数据中的结果转换为散文的规则,在人与技术之间创建无缝交互的软件引擎。结构化性能数据可以通过管道传输到自然语言引擎中,以自动编写内部和外部的管理报告。


自然语言生成接收结构化表示的语义,以输出符合语法的、流畅的、与输入语义一致的自然语言文本。早期大多采用管道模型研究自然语言生成,管道模型根据不同的阶段将研究过程分解为如下三个子任务:


  1. 内容选择:决定要表达哪些内容。
  2. 句子规划:决定篇章及句子的结构,进行句子的融合、指代表述等。
  3. 表层实现:决定选择什么样的词汇来实现一个句子的表达。


早期基于规则的自然语言生成技术,在每个子任务上均采用了不同的语言学规则或领域知识,实现了从输入语义到输出文本的转换。


鉴于基于规则的自然语言生成系统存在的不足之处,近几年来,学者们开始了基于数据驱动的自然语言生成技术的研究,从浅层的统计机器学习模型,到深层的神经网络模型,对语言生成过程中每个子任务的建模,以及多个子任务的联合建模,开展了相关的研究,目前主流的自然语言生成技术主要有基于数据驱动的自然语言生成技术和基于深度神经网络的自然语言生成技术。



2、自然语言处理应用


自然语言处理应用的技术体系主要包括字词级别的自然语言处理,句法级别的自然语言处理和篇章级别的自然语言处理:

  1. 字词级别的分析主要包括中文分词、命名实体识别、词性标注、同义词分词、字词向量等;
  2. 句法级别的分析主要包括依存文法分析、词位置分析、语义归一化、文本纠错等;
  3. 篇章级别的分析主要包括标签提取、文档相似度分析、主题模型分析、文档分类和聚类等。


1、中文分词


中文分词是计算机根据语义模型,自动将汉字序列切分为符合人类语义理解的词汇。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。


在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能够通过明显的分界符来进行简单的划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层面上,中文比英文要复杂得多、困难得多。


2、命名实体识别


命名实体识别又称作“专名识别”(NER),是指对具有特定意义的实体进行自动识别的技术,是信息提取、知识图谱、问答系统、句法分析、搜索引擎、机器翻译等应用的重要基础。


3、词性标注


词性标注(Part-of-Speech tagging或POS tagging)又称词类标注,是指为分词结果中的每个单词标注一个正确的词性的程序。具体来说就是,确定每个词是名词、动词、形容词或者是其他词性的过程(如图3-2所示)。


图3-2 词性标注


在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。常用的方法有:基于最大熵的词性标注、基于统计的最大概率输出词性、基于隐马尔可夫模型(HMM)的词性标注。


4、同义词分析


由于不同地区的文化差异,输入的查询文字很可能会出现描述不一致的问题。此时,业务系统需要对用户的输入做同义词、纠错、归一化处理。同义词挖掘是一项基础工作,同义词算法包括词典、百科词条、元搜索数据、上下文相关性挖掘,等等。


5、词向量分析


词向量技术是指将词转化为稠密向量,相似的词对应的词向量也相近。在自然语言处理应用中,词向量作为深度学习模型的特征进行输入。因此,最终模型的效果在很大程度上取决于词向量的效果。一般来说,字词表示有两种方式:one-hot及分布式表示。


one-hot是指向量中只有一个维度的值为1,其余维度为0,这个维度代表了当前词。分布式表示(word embedding)指的是将词转化为一种分布式表示,又称词向量,分布式表示将词表示成一个定长的稠密向量。


词向量的生成可分为两种方法:基于统计方法(例如,共现矩阵、奇异值分解(SVD)和基于语言模型(例如,word2vec中使用的CBOW、Skip-gram等)。


6、依存文法分析


依存文法通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中的核心谓语动词是支配其他成分的中心成分。而它本身却不会受到其他任何成分的支配,所有受支配的成分都以某种关系从属于支配者,如图3-3所示。


图3-3 依存文法分析距离


从分析结果中我们可以看到,句子的核心谓语动词为“召开”,主语是“民航局”,“召开”的宾语是“会”,“会”的修饰语是“通用航空发展工作专题”。有了上面的句法分析结果,我们就可以比较容易地看到,是“民航局”“召开”了会议,而不是“促进”了会议,即使“促进”距离“会”更近。


7、词位置分析


文章中不同位置的词对文章语义的贡献度也不同。文章首尾出现的词成为主题词、关键词的概率要大于出现在正文中的词。对文章中的词的位置进行建模,赋予不同位置不同的权重,从而能够更好地对文章进行向量化表示。


8、语义归一化


语义归一化通常是指从文章中识别出具有相同意思的词或短语,其主要的任务是共指消解。共指消解是自然语言处理中的核心问题,在机器翻译、信息抽取以及问答等领域都有着非常重要的作用。


就拿常见的信息抽取的一个成型系统来讲,微软的学术搜索引擎会存有一些作者的档案资料,这些信息可能有一部分就是根据共指对象抽取出来的。比如,在一个教授的访谈录中,教授的名字可能只会出现一两次,更多的可能是“我”“某某博士”“某某教授”或“他”之类的代称,不出意外的话,这其中也会有一些同样的词代表记者,如何将这些词对应到正确的人,将会成为信息抽取的关键所在。


9、文本纠错


文本纠错任务指的是,对于自然语言在使用过程中出现的错误进行自动地识别和纠正。文本纠错任务主要包含两个子任务,分别为错误识别和错误修正。错误识别的任务是指出错误出现的句子的位置,错误修正是指在识别的基础上自动进行更正。


相比于英文纠错来说,中文纠错的主要困难在于中文的语言特性:中文的词边界以及中文庞大的字符集。由于中文的语言特性,两种语言的错误类型也是不同的。


英文的修改操作包括插入、删除、替换和移动(移动是指两个字母交换顺序等),而对于中文来说,因为每一个中文汉字都可独立成词,因此插入、删除和移动的错误都只是作为语法错误。由于大部分的用户均为母语用户,且输入法一般会给出正确提示,语法错误的情况一般比较少,因此,中文输入纠错主要集中在替换错误上。



10、标签提取


文档的标签通常是几个词语或者短语,并以此作为对该文档主要内容的提要。标签是人们快速了解文档内容、把握主题的重要方式,在科技论文、信息存储、新闻报道中具有极其广泛的应用。文档的标签通常具有可读性、相关性、覆盖度等特点。


可读性指的是其本身作为一个词语或者短语就应该是有意义的;相关性指的是标签必须与文档的主题、内容紧密相关;覆盖度指的是文档的标签能较好地覆盖文档的内容,而不能只集中在某一句话中。


11、文本相似度


文本相似度在不同领域受到了广泛的讨论,然而由于应用场景的不同,其内涵也会有差异,因此没有统一的定义。


从信息论的角度来看,相似度与文本之间的共性和差异度有关,共性越大、差异度越小,则相似度越高;共性越小、差异度越大,则相似度越低;相似度最大的情况是文本完全相同。


相似度计算一般是指计算事物的特征之间的距离,如果距离小,那么相似度就大;如果距离大,那么相似度就小。


相似度计算的方法可以分为四大类:基于字符串的方法、基于语料库的方法、基于知识的方法和其他方法。


基于字符串的方法是指从字符串的匹配度出发,以字符串共现和重复程度为相似度的衡量标准;基于语料库的方法是指利用从语料库中获取的信息计算文本的相似度;基于知识的方法是指利用具有规范组织体系的知识库计算文本的相似度。


12、主题模型


主题分析模型(Topic Model)是以非监督学习的方式对文档的隐含语义结构进行统计和聚类,以用于挖掘文本中所蕴含的语义结构的技术。隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)是常用的主题模型计算方法。


13、文本分类


按照特定行业的文档分类体系,计算机自动阅读文档的内容并将其归属到相应类目的技术体系下。其典型的处理过程可分为训练和运转两种。即计算机预先阅读各个类目的文档并提取特征,完成有监督的学习训练,在运转阶段识别新文档的内容并完成归类。


14、文本聚类


文本聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档的类别进行手工标注,因此具有一定的灵活性和较高的自动化处理能力。


文本聚类已经成为对文本信息进行有效地组织、摘要和导航的重要手段。文本聚类的方法主要有基于划分的聚类算法、基于层次的聚类算法和基于密度的聚类算法。

相关推荐
贷款买房怎么贷合适?贷款买房的流程是怎样的?
贷款买房怎么贷合适?贷款买房的流程是怎样的?

如今各大城市的房价都是比较高的,所以很多人想要买房,但是只能够通过贷款的方式。目前,贷款买房已成为一种流行的消费方式,但是怎样选择贷款方式、贷款额度和时间以及还款方式,这就需要每个人根据自己不同的经济状况,合理安排。那么贷款买房怎么贷合适?贷款买房的流程是怎样的?一、贷款买房怎么贷合适想要贷款买房划

喝咖啡会上瘾吗 常喝咖啡居然有这些好处和坏处
喝咖啡会上瘾吗 常喝咖啡居然有这些好处和坏处

。网络图片咖啡的坏处:1.紧张时添乱咖啡因有助于提高警觉性、灵敏性、记忆力及集中力。但饮用超过比你平常所习惯饮用量的咖啡,就会产生类似食用相同剂量的兴奋剂,会造成神经过敏。对于倾向焦虑失调的人而言,咖啡因会导致手心冒汗、心悸、耳鸣这些症状更加恶化。2.加剧高血压咖啡因因为本身具有的止痛作用,常与其他

热门文章
1
地铁买票怎么买全程(手把手教你坐地铁!)
地铁买票怎么买全程(手把手教你坐地铁!)

坐地铁对大多数人来说是很简单的事,但还是有很多人第一次进城里,从未坐过地铁。转发给他,手把手坐地铁教程来啦!首先,找到一个地铁站口,随便哪个都行,顺着扶梯下去。下了扶梯,跟着箭头往前走。坐地铁需要买地铁票,有三种乘车方式:1.在自助售票机前进行买票操作:选择乘车路线—选择站台—选择几张票—选择付款方

2
如何开药店 想当药店老板的注意了!开药店需要这些证照!
如何开药店 想当药店老板的注意了!开药店需要这些证照!

如果您想开药店,当老板,那么一定要了解开药店最需要办理哪些基本证照?证照的经营范围有哪些?办理过程中,需要提交哪些材料?以及其他一些细节方面的问题...等等。尤其对于很多不是这个行业的人来说,可能一头雾水,下面北京百草堂药店加盟为大家梳理了个人开药店所需的证照资料,一起来看看吧!证照一:营业执照药店

3
馄饨侯简介(老北京的京味馄饨)
馄饨侯简介(老北京的京味馄饨)

馄饨侯的由来“馄饨侯”其人,姓侯名庭杰。在北京东安门大街16号门前摆摊卖馄饨。当年的东安门、王府井是京城最繁华的商业街区,有人民艺术剧院、东安市场、吉祥戏院等。晚上一散戏,人们都来吃夜宵。当时人们对“馄饨侯”的评价有四:一为皮薄,二为馅细,三为汤鲜,四为人缘好。馄饨的特点是皮薄、馅细、汤好、作料全

4
关于放下执念的禅语语录
关于放下执念的禅语语录

人们总是执着于心中执念,执迷不悟,放下执念,万般自在。分享一些关于放下执念的禅语,愿你早日大彻大悟,活出自我。既是劝别人,也是劝自己。所有的压力都来自于太想要了,调整好心态,慢即是稳,稳即是进解决失望和害怕的方式是停止期待.♡缘分不是求来的是修来的尽力争取就好上天自有安排光是抓不住的雾也会消散 人

5
杨梅水怎么洗才干净(杨梅好吃却不好洗?)
杨梅水怎么洗才干净(杨梅好吃却不好洗?)

在日常生活中,杨梅是许多人都非常喜欢吃的一种水果,但是在买回来之后很多人都会发愁,这种水果怎么洗才能更干净呢?毕竟因为杨梅的构造不同,所以杨梅中不仅仅能够隐藏赃物,而且还有一些眼睛看不到的虫子,甚至还有可能浑身都藏满了农药,不过今天小编就是来跟大家分享几种方法,能够将杨梅清洗的干净又美味。第一种、盐

6
fastboot模式怎么解除(什么是刷机中的FASTBOOT)
fastboot模式怎么解除(什么是刷机中的FASTBOOT)

1. 什么是手机上的FASTBOOT模式?顾名思义,FASTBOOT这个名词可以理解为“快速启动”的中文意思。但在安卓手机中,则代指一种比Recovery更底层的刷机救援模式,亦被称作“引导模式”、“线刷模式”或“Bootloader模式”。与主要采用手机屏幕及实体按键交互的Recovery模式不同

7
玉石的鉴别方法大全(玉石鉴定秘籍:揭开神秘面纱)
玉石的鉴别方法大全(玉石鉴定秘籍:揭开神秘面纱)

《玉石鉴定秘籍:揭开神秘面纱》在珠宝的世界里,玉石犹如一颗璀璨的明珠,散发着独特的魅力。然而,要准确鉴定玉石并非易事,这可是一项需要专业知识和敏锐眼光的技艺。首先,我们来谈谈玉石的质地。优质的玉石质地温润细腻,犹如羊脂一般光滑。据统计,超过 80%的顶级玉石都具备这样的特质。比如说和田玉,其质地紧密

8
正宗的豆角焖面怎么做简单好吃(豆角焖面,简单好做又好吃)
正宗的豆角焖面怎么做简单好吃(豆角焖面,简单好做又好吃)

豆角焖面,是一种传统的特色面食。因为是利用水蒸气将面条、豆角等食材焖熟而成,所以就叫做豆角焖面。天热的时候,吃上一碗豆角焖面,喝上一杯凉白开,那感觉真是太实在了!小时候,在外面玩累了,饿了,回到家里看到妈妈做的一锅豆角焖面,那香气直往人的鼻子里钻, 肚子更是饿得咕咕直叫了!赶紧让妈妈给自己一碗,大口

9
北戴河三天两晚旅游路线攻略 ,必玩景点介绍,注意事项避坑指南。
北戴河三天两晚旅游路线攻略 ,必玩景点介绍,注意事项避坑指南。

暑假带孩子看海玩水,去北戴河绝对是首选,能看到美景,也能看到沙滩,好玩的地方也不少。我整理了一条三天两晚的线路,请大家点赞收藏。游玩线路第1天我坐的是动车到达北戴河动车站,入住的地方是在刘庄夜市附近,打车过去花了30元,用了28分钟,由于刘庄附近堵车所以稍微晚了点到达。千万别选择在秦皇岛站下车,那里

10
怎样清洗牛肚黑色东西(牛肚祛腥技术及方法)
怎样清洗牛肚黑色东西(牛肚祛腥技术及方法)

牛肚祛腥牛肚加食用碱、白醋(2500 克牛肚加 250 克食用碱、300 克白醋)揉搓,去掉粘液后加面粉 500 克,继续揉搓(加面粉可以使原料不发乌,还能去掉原料的异味),最后用清水冲漂 20 分钟至无碱味,捞出即可烹调。刚刚取出的牛肚一般是黑色的,俗称黑毛肚。市面销售的黑毛肚有水发和未水发的两种