缓存语言模型

目录

  1. 1 缓存语言模型

    缓存语言模型

    缓存语言模型是一种统计的语言模型。这些发生在计算机科学的自然语言处理子领域中,并通过概率分布将概率分配给给定的单词序列。统计语言模型是语音识别系统和许多机器翻译系统的关键组件 :它们告诉这样的系统,哪些可能的输出单词序列是可能的,哪些是不可能的。缓存语言模型的特殊特征是它包含一个缓存组件并为出现在给定文本其他位置的单词或单词序列分配较高的概率。缓存语言模型的主要用途(但绝非xxx)是在语音识别系统中。

    为了理解为什么统计语言模型包含一个缓存组件是一个好主意,您可能会考虑某人在语音识别系统中指示有关大象的字母。标准(非缓存)N-gram语言模型将为“大象”一词分配极低的概率,因为它是英语中一个非常罕见的词。如果语音识别系统不包含高速缓存组件,则可能会烦扰指示该字母的人:每次说出“大象”一词时,根据N元语法模型,可能会识别出另一个具有较高概率的单词序列(例如,“告诉计划”)。每次说出“大象”时,都必须手动删除这些错误序列,并在文本中将其替换为“大象”。如果系统具有缓存语言模型,则“ elephant”在xxx次说出来时仍可能会被误认,因此必须手动将其输入文本中。但是,从这一点上,系统意识到“象素”很可能会再次发生–估计的“象素”出现的可能性已经增加,使其更有可能被正确识别。一旦“大象”出现了好几次,系统可能会在每次说出字母之前都正确地识别它,直到完全确定了字母。分配给“大象”出现的概率的这种增加是以下结果的一个示例:机器学习,尤其是模式识别。

    缓存语言模型

    存在缓存语言模型的变体,其中不仅向单个单词而且向以前出现的多单词序列分配较高的概率(例如,如果“旧金山”出现在文本开头附近,则将为其分配后续实例更高的概率)。

    高速缓存语言模型最初是在1990年发表的一篇论文中提出的,之后,IBM语音识别小组对该概念进行了试验。该小组发现,一旦确定了文档的前几百个单词,实施某种缓存语言模型就会使单词错误率下降24%。对语言建模技术的详细调查得出的结论是,缓存语言模型是为数不多的比标准N-gram方法有所改进的新语言建模技术之一:“我们的缓存结果表明,缓存是迄今为止最有用的技术以减少中小型训练数据量的困惑”。

    缓存语言模型的发展引起了与一般计算语言学尤其是统计自然语言处理有关的人们的极大兴趣:最近,人们对在统计机器翻译领域中应用缓存语言模型感兴趣。

    高速缓存语言模型在改进单词预测方面的成功取决于人类以“突发”方式使用单词的趋势:当人们在特定上下文中讨论某个主题时,使用某些单词的频率将与在其他情况下讨论其他主题时的频率。传统的N-gram语言模型完全依赖于来自要分配概率的单词之前的极少数(四个、三个或两个)单词的信息,无法充分模拟这种“突发性”。

    最近,缓存语言模型概念(最初是为N-gram统计语言模型范例构想的)已经适应于在神经范例中使用。例如,最近在递归神经网络(RNN)设置中对连续缓存语言模型进行的工作已将缓存概念应用于比以前更大的上下文,从而显着减少了困惑。最近的另一项研究涉及将缓存组件合并到前馈神经语言模型(FN-LM)中,以实现快速域自适应。


    缓存语言模型

    相关推荐

    混合机器翻译

    目录 1 混合机器翻译 2 方法 ▪ 多引擎 ▪ 统计规则生成 ▪ 多次通过 ▪ 基于信任混合机器翻译混合机器翻译是的方法的机器翻译,其特征是使用多个机器翻译的一个单一的机器翻译系统内接近。开发混合机器翻译系统的动机源于任何一种技术都无法达到令人满意的准确性。许多混合机器翻译系统已经成功地提高了翻译的准确性,并且有几种使用混合方法的流行机器翻译系统。其中包括... (继续浏览)

    统计机器翻译

    目录 1 统计机器翻译 2 统计机器翻译好处 3 统计机器翻译缺点 4 实现统计机器翻译的系统统计机器翻译统计机器翻译(SMT)是一种机器翻译范例,其中翻译是根据统计模型生成的,统计模型的参数来自对双语文本语料库的分析。统计方法与基于规则的机器翻译方法以及基于示例的机器翻译方法形成对比。 沃伦·韦弗(Warren Weaver)于1949年提出了统计机... (继续浏览)

    移动翻译

    目录 1 什么是移动翻译 2 技术功能 ▪ 功能 ▪ 支持的语言 3 技术优势和制约因素 ▪ 优势 ▪ 挑战与劣势什么是移动翻译移动翻译是指提供音频翻译的任何电子设备或软件应用程序。它包括任何专门设计用于音频翻译的手持电子设备。它还包括用于手持设备(包括移动电话、Pocket PC和PDA)的任何机器翻译服务或软件应用程序。移动翻译为手持设备用户提供了从一种... (继续浏览)

    纳米生物技术

    目录 1 纳米生物技术 2 术语 ▪ 概念 3 应用 ▪ 纳米医学 ▪ 纳米生物技术 ▪ 生物技术纳米生物技术纳米生物技术,是指的交叉方面的纳米技术和生物。鉴于该主题是直到最近才出现的一个主题,生物纳米技术和纳米生物技术是各种相关技术的统称。 该学科有助于表明生物学研究与纳米技术各个领域的融合。通过纳米生物学增强的概念包括:纳米设备、纳米粒子和在纳米技... (继续浏览)

    分子逻辑门

    目录 1 分子逻辑门分子逻辑门分子逻辑门是基于一个或多个物理或化学输入和单个输出进行逻辑运算的分子。该领域已经从基于单一化学或物理输入的简单逻辑系统发展到能够进行组合和顺序操作(例如算术操作,即分子化器和存储器存储算法)的分子。 在类似的设置中,以下所示的分子逻辑门展示了从氧化还原荧光开关到具有电化学开关的多输入逻辑门的发展。此两输入与逻辑门结合了叔胺... (继续浏览)

    化学计算机

    目录 1 化学计算机 2 目前的研究化学计算机化学计算机,也称为反应扩散计算机,贝洛索夫-Zhabotinsky(BZ)计算机或gooware计算机,是一种非常规的计算机基于其中数据通过改变化学品的浓度表示的半固体化学“汤”。计算是通过自然发生的化学反应进行的。 目前的研究1989年,证明了光敏化学反应如何进行图像处理。这导致了化学计算领域的高涨。 英... (继续浏览)

    量子计算

    目录 1 什么是量子计算 2 事态发展 ▪ 量子计算模型 ▪ 物理实现什么是量子计算量子计算是利用诸如叠加和纠缠等量子力学现象来进行计算。执行量子计算的计算机称为量子计算机。Quantum计算机被认为能够解决某些计算问题,例如整数分解(它是RSA加密的基础),其速度比传统计算机快得多。量子计算的研究是量子信息科学的一个子领域。 量子计算始于1980年代... (继续浏览)

    开源许可证

    目录 1 开源许可证 2 比较 3 公共领域开源许可证开源许可证是一种为计算机软件和其它产品的许可证,其允许源代码、蓝图或设计使用、修改和/或在确定的条款和条件共享。这使最终用户和商业公司可以根据自己的自定义,好奇心或故障排除需求,查看和修改源代码、蓝图或设计。开源许可软件大部分都是免费提供的,尽管不一定是这种情况。 仅允许非商业性重新分发或修改供个人... (继续浏览)

    互联网档案馆

    目录 1 互联网档案馆 2 档案馆历史互联网档案馆互联网档案馆是美国数字图书馆与所陈述的使命“普及所有的知识。”它使公众可以免费访问数字化资料集,包括网站、软件应用程序/游戏、音乐、电影/视频、动态图像和数百万本书。除了存档功能外,Archives还是一个激进组织,倡导免费开放的Internet。互联网档案馆目前在Wayback Machine中拥有超过20... (继续浏览)

    网站地图

    目录 1 网站地图的类型 ▪ Google的网站地图 ▪ XML网站地图网站地图的类型Google的网站地图站点地图可以寻址到用户或软件。许多站点都有用户可见的站点地图,这些站点地图呈现了站点的系统视图,通常是分层视图。这些旨在帮助访问者找到特定的页面,并且爬虫也可以使用它们。按字母顺序组织的站点地图(有时也称为站点索引)是另一种方法。 供搜索引擎和其他爬网... (继续浏览)

    搜索引擎索引

    目录 1 搜索引擎索引 2 搜索引擎技术挑战 3 文件解析搜索引擎索引搜索引擎索引可收集、解析和存储数据,以促进快速、准确的信息检索。索引设计结合了来自语言学、认知心理学、数学、信息学和计算机科学的跨学科概念。在用于在Internet上查找网页的搜索引擎的上下文中,该过程的另一个名称是web indexing。 流行的引擎专注于在线自然语言文档的全文索... (继续浏览)

    搜索引擎抓取

    目录 1 搜索引擎抓取 2 检测 ▪ 刮除Google、Bing或Yahoo的方法 3 编程语言 ▪ 工具和脚本搜索引擎抓取搜索引擎抓取是从Google、Bing或Yahoo 等搜索引擎中收集URL,描述或其他信息的过程。这是专门用于搜索引擎的屏幕抓取或网络抓取的一种特定形式。 最常见的大型搜索引擎优化(SEO)提供商依赖于定期从搜索引擎(尤其是Goo... (继续浏览)

    离线阅读器

    目录 1 离线阅读器 2 离线邮件阅读器离线阅读器离线阅读器是计算机软件是下载电子邮件、新闻组帖子或网页,使它们可当计算机处于脱机状态:没有连接到互联网。离线阅读器对于便携式计算机和拨号访问很有用。 离线邮件阅读器离线邮件阅读器是计算机程序,使用户可以在与存储邮件的服务器建立连接时间最短的情况下,阅读电子邮件或其他邮件。这是通过服务器将多个消息打包成压... (继续浏览)

    脚本语言

    目录 1 什么是脚本语言 2 脚本语言特性 3 语言类型 ▪ 编辑器语言 ▪ 作业控制语言和外壳 ▪ GUI脚本 ▪ 特定于应用程序的语言 ▪ 扩展/可嵌入语言什么是脚本语言脚本语言是一种编程语言,一个特殊的运行时环境,它可以自动执行的任务的; 这些任务也可以由人工操作员一个接一个地执行。脚本语言通常是解释性的,而不是编译性的。 基元通常是基本任务或A... (继续浏览)

    IRC机器人

    目录 1 IRC机器人 2 功能IRC机器人IRC机器人是一组脚本或一个独立的程序连接到互联网中继聊天作为一个客户端,所以出现对其他IRC用户以其他用户。IRC机器人与常规客户端的不同之处在于,它不为人类用户提供对IRC的交互式访问,而是执行自动化功能。 功能通常,IRC机器人被部署为从稳定主机运行的分离程序。它位于IRC通道上以保持打开状态,并防止恶... (继续浏览)

    投票机器人

    目录 1 投票机器人 2 使用的技术 ▪ 目标分析 ▪ 准备 ▪ 人体动作模拟 3 通常目标 4 反投票机器人投票机器人投票机器人是一种类型的网络机器人,旨在自动投票网上以恶意的方式投票。投票机器人试图表现得像人一样,但是会以自动化方式进行投票,以影响投票结果。个人和团体可以在线销售各种各样的投票机器人程序,这些程序针对从普通网站到Web应用程序的各种服务。... (继续浏览)

    互联网机器人

    目录 1 互联网机器人 2 IM和IRC 3 社交机器人 4 商业机器人 5 恶意机器人 6 有用的机器人 7 人与社交机器人的互动互联网机器人互联网机器人是一个软件应用程序是运行自动化任务(脚本)在互联网。通常,机器人执行的任务是简单而重复的,比人的执行速度要快得多。僵尸程序最广泛的用途是用于Web爬网,其中自动脚本从Web服务器中获取,分析和归档信息。所... (继续浏览)

    聊天机器人

    目录 1 什么是聊天机器人 2 聊天机器人发展 3 应用 ▪ 消息传递应用程序 ▪ 作为公司应用程序和网站的一部分 ▪ 聊天机器人序列 ▪ 公司内部平台 ▪ 客户服务 ▪ 医疗保健 ▪ 玩具 4 恶意使用 5 聊天机器人的局限性 6 聊天机器人和工作什么是聊天机器人聊天机器人是一个软件来进行一个在线聊天应用的对话通过文本或文本到语音。聊天机器人系统旨在令人信... (继续浏览)

    API程序员

    目录 1 API程序员 ▪ 概述 2 资格 3 API编写过程 4 产品API程序员API程序员是一个技术人员,主要撰写API应用程序编程接口(API)软件。主要受众包括程序员、开发人员、系统架构师和系统设计师。 概述API是一个基本的库,由用于构建软件应用程序的接口、函数、类、结构、枚举等组成。开发团队使用它与软件交互和扩展。给定编程语言和系统的AP... (继续浏览)

    应用程序编程接口

    目录 1 应用程序编程接口 2 目的 3 用法 ▪ 库和框架 ▪ 操作系统 ▪ 远程API ▪ Web API 4 应用程序编程接口设计应用程序编程接口应用程序编程接口(API)是计算接口,其限定多个软件中介之间的相互作用。它定义了可以进行的调用或请求的类型,如何进行调用,应使用的数据格式,要遵循的约定等。它还可以提供扩展机制,以便用户可以通过各种方式扩展现... (继续浏览)