CTI论坛

电脑版
提示:原网页已由神马搜索转码, 内容由www.ctiforum.com提供.

首页>>厂商>>语音识别与合成>>科大讯飞

科大讯飞新一代语音合成系统Interphonic6.0

2010/02/04

InterPhonic系列简介

  InterPhonic 系列产品是业界顶尖级的语音合成软件产品。语音合成(Text To Speech,TTS)技术能够自动将任意文字实时转换为连续的自然语音,是一种能够在任何时间、任何地点,向任何人提供语音信息服务的高效便捷手段,非常符合信息时代海量数据、动态更新和个性化查询的需求。科大讯飞语音技术历经20年不懈创新,自90年代中期以来,在历次的国内国外评测中,各项关键指标均名列第一。InterPhonic 产品基于深厚的研究积累,经过长期广泛深入的应用实践,在多项关键技术上有重大创新突破,作为科大讯飞引领语音技术与市场发展的新一代主流语音合成产品,可为自助语音服务提供源源不断的核心动力。

InterPhonic 6.0产品介绍

  高质量的语音合成效果

  • 多语种,适应不断发展的业务需求

  提供普通话、广东话、英语、法语、德语、葡萄牙语、意大利语、荷兰语、西班牙语、瑞典语、挪威语、丹麦语、俄语、希腊语、朝鲜语、日本语等几十个语种,包含业界创新的普通话与英语同音混读、广东话与英语同音混读,适应不同语音应用业务的需求。多引擎管理接口可对不同语种的系统提供一致化的访问界面,应用层可以灵活透明的选择所需的语音合成语种,并支持实时语种切换。

  • 多音色,满足不同环境的个性化应用

  主导个性化语音服务新潮流,提供丰富、风格多样化的音色选择,如浑厚淳正的男声,成熟稳重、轻快活泼、或温柔甜美的女声,标准地道的英语女声,甚至童声、少男、少女、老年人等等,所有音色库均继承科大讯飞语音合成技术一贯的优良品质。可供用户根据不同应用业务需要,选择最适合应用场景的语音风格,并支持实时动态的音色切换。

  • 增强表现力,语音合成效果更自然

  InterPhonic产品拥有高智能的自然语言理解能力,自动进行文本分析和韵律描述,可以表现出典型的语气,如疑问和感叹等,合成效果更富表现力。语音合成效果对于语气的表现能力,是科大讯飞语音技术又一项重要的创新性突破,将帮助自动语音服务以更加人性化的语音用户界面提升客户体验。

  • 高准确度的智能文本分析与预处理

  InterPhonic语音合成产品所拥有的高准确度智能文本分析与预处理技术,有效保障语音合成准确、流畅、自然。得益于科大讯飞在语言学上的深厚积累、与相关权威科研机构的紧密合作,以及通过宽广的应用实践平台所积累的海量专业知识库,通过不断训练和优化,InterPhonic即使在面对针对语言分析处理的难点,如多音字、特殊符号、韵律短语、未登录词(如地名、人名)等等,也能保障得到高度准确的自动处理结果。

  • 数字、短语文本合成效果显著提升

  针对主流应用环境的普遍需求,科大讯飞广泛收集实际应用的语料,并进行细致分析和专业的优化,InterPhonic产品在数字数值、短语短句等最常见应用下效果提升显著,合成效果更加清晰准确、节奏感更强。

  全面完善的功能特性

  • 合理的架构

  采用基于TCP/IP的高效网络语音合成服务和集中式的资源管理机制,形成客户端-资源管理器-服务器有机结合的体系架构,构建可灵活伸缩的方案,其高可用性历经众多重点行业大规模关键业务的应用检验,确保提供值得信赖的7×24小时不间断自动化语音服务。

  • 灵活高效的开发接口

  InterPhonic SDK针对不同开发工具,不同集成要求和方案,提供多种形式的开发接口,包括:标准开发接口(DLL)、简单开发接口、COM组件、SAPI开发接口及Java开发接口,开发者可以根据实际需要灵活选择。提供丰富的开发例程和文档,帮助加速语音应用开发过程。

  • 丰富的参数设置与调节功能

  丰富完善的参数设置与调节功能和工具,帮助用户对语音合成效果进行灵活高效的控制与管理。提供对全局参数(如音量、语速、音高等)、用户词典、用户规则、定制资源包统一进行配置和管理的工具;数字、标点符号、英文发音方式的设定;中英文加词功能,可以指定每个字词的拼音或音标等等;提供统一的简单易用图形化用户界面进行操作设定,并可通过API参数进行动态设置和调整,还支持以CSSML(中文语音合成标记语言)进行标记、描述和控制。

  • 高效便捷的增强工具集

  InterPhonic的增强工具集套件包括了使用便捷的高效组件,如离线语音应用工具、CSSML可视化编辑工具、DOC/XLS文本格式转换工具等。

  • 智能Email预处理功能

  能够解析普通文本格式、MIME格式和html格式的Email,合成邮件主题、发件人、收件人、信件内容和文本附件,根据语境自动判断读法。

  • 实用的URI合成功能

  增加了URI合成功能。自动获取用户指定的网络URI文本,方便使用网络上的信息资源。

  • 字符集、语音数据格式支持

  全面支持GB2312、GBK、BIG5、GB18030、UTF-8和UNICODE编码字符集,自动识别UNICODE文本;支持直接输出多种采样率的语音数据格式(包括6K/8K/11K/16K)的线性Wav、A/U率Wav和Vox等多种格式的语音数据。

  • 操作系统支持

  服务器端支持Windows等主流操作系统,客户端支持Microsoft Windows、SUN Solaris、REDHAT Linux、SUSE Linux、HP TRUE64 UNIX、IBM AIX UNIX、VxWork等操作系统。

  • 平台支持

  与业内知名的相关平台和设备商均有过成功的集成案例。通过与众多平台和设备提供商、系统集成商及软件开发商的紧密合作,能够保证向用户提供围绕语音应用全程的专业服务。

  细致周到的优化方案

  • 优化定制,高效的应用效果方案

  提供以定制资源包(加载于合成引擎之上,有效提升既定应用领域语音效果的资源集合)、CSSML、虚拟不定长和语音合成模板等工具为代表的主流应用环境进行效果优化的高效解决方案,显著提升实际应用效果。科大讯飞专业服务体系提供高效的定制与优化方案,提升客户体验,帮助客户获得语音自助服务的持续成功。

  • CSSML,效果提升更自如

  CSSML(Chinese Speech Synthesis Markup Language)是由科大讯飞提出并牵头制订的中文语音数据描述规范。该标准得到了国家863专家组、国家信标委和国家技术监督局的大力关注与支持,2005年正式通过国家标准化组织的评审,成为中文语音合成技术标准与规范的重要内容。CSSML针对中文语音应用设计和扩展,可以对多种特性进行灵活标注与控制,并与SSML兼容。

  • 预录语音,衔接流畅应用简便

  InterPhonic提供业界创新的预录音统一管理功能,将预录音作为语音合成系统的资源,并通过提示音智能匹配和合成模板等方式使预录音与合成音匹配更加容易、衔接更加流畅,同时避免频繁处理提示音播放与语音合成的切换与过渡问题,简化应用流程的复杂程度,进一步提高服务效果与质量。

  • 背景音乐,快捷提升用户体检

  InterPhonic提供业界首创的背景音功能,通过系统提供的简单易用工具,可以便捷高效的添加背景音乐,调整背景音乐和合成语音的音量对比,并可直接试听实际效果,使语音服务更加亲切自然。

  作为语音市场的强大动力引擎,InterPhonic产品会为您带来如下收益:

  降低成本:高质量的效果、灵活的应用、经过应用验证的稳定性,可使您放心自如地应用自助语音服务来取代传统的人工服务。更高的自动化程度,意味着您将以更低的成本提供更高质量的服务。

  提高效率:有利于改变原有的语音信息制作方式,在规模语音应用系统中,多路并发的实时语音合成服务,将显著提高信息更新的时效性,并且提供的语音信息内容与范围将得以大大拓展。

  灵活扩展:标准Client/Server架构以及完善的系统设计,充分考虑了大规模语音应用的需求,具备良好的伸缩性。扩容时只需增加新的语音合成服务节点,无需对原有系统进行其它改动。

  实力保障:科大讯飞坚实的综合实力、高效的专业研发和技术支持服务团队、业界公认的领导者地位以及所获得的广泛赞誉,都是您得到稳定支持服务的有力保障。

InterPhonic 6.0在线演示

CTI论坛编辑



相关阅读: