研究院重点研究未来系统,网络技术与业务,分布式系统及管理,信息管理及交互和创新服务等方向,以下介绍了部分正在进行的项目。
重点针对数字媒体应用,研究小组构建了基于 CELL 的 BladeCenter-T 并在CELL上实施了数字媒体工作负载,以便深刻地了解如何充分利用 CELL 的计算能力,并构建各种库以简化编程工作。此外还研究了将CELL用作加速器构造块的可行性。目前,已使用 CELL 设计了会话启动协议的卸载引擎。
研究小组设计了一种可与 PowerPC 核或者其它用于数字介质市场的嵌入式处理器核进行集成的多媒体 IP 核。VMA2(Vector Media Accelerator,向量介质加速器)IP 核已经可用于进行客户合作或技术转让。在数字媒体应用方面的技术积累已可被不同客户项目采用。
独立磁盘的冗余阵列技术 (RAID, Redundant Array of Independent Disks)已经达到了一定的成熟程度,多家公司都在设计包括 RAID 及其它基本存储功能的系统集成芯片。小组正在研究如何利用系统集成芯片技术为存储系统构建 RAID 适配器,以及如何在低成本的存储系统中应用该技术。
该项目与某移动运营商密切合作,研究移动增值业务平台的平滑演进方案及其关键支撑技术,实现业务平台从单一业务分离、功能重复到支持跨网络、功能统一的转型。该项目提供一个能和遗留系统和谐工作的业务平台集成框架,以及一套系统科学的方法,针对新的业务需求,对运营商现有的分离业务系统进行能力成熟度评估,确定能力差距以及系统集成模式,帮助生成新系统架构设计。
该项目是一个与某国际知名设备制造商和国内某领先的固网运营商的三方合作研究。 作为该运营商 3G 业务平台的重要组成部分,它是一个基于 Web 服务技术的开放、安全、内置良好管理计费功能的平台,同时配备图形化应用开发和仿真测试的工具,使IT应用开发人员更为轻松地开发电信增值服务。
电信战略流程模型是一套基于 eTOM(enhanced Telecommunications Operations Map)框架的咨询方法和工具,用于电信战略和业务流程制定。模型中采用了组件业务模型、eTOM、能力成熟度模型、和基于商业运营元模型的能力库来进行能力评估,生成所需的业务流程和相应的关键绩效指标,以帮助缩短电信系统咨询项目的工作周期和提高项目质量。
会话初始协议是支持下一代网络中诸多应用的核心信令协议。下一代网络中有许多基于会话初始协议的实时多媒体应用,对于服务质量特别是极限状况(突发峰值和过载)下的质量保证有比较高的要求,例如低延时、低阻塞率、低会话失败率、高业务持续性等。该项目研究通过在应用服务器前置某些消息预处理功能来达到提升端到端服务质量的目的。
Java在电信中的应用日趋普及,但是由于Java进行垃圾收集带来的系统延迟,Java也暴露出无法满足很多电信应用的实时性需求的缺点。该项目研究如何将实时垃圾收集技术改造应用于电信应用,以提升系统吞吐量,同时研究实时Java虚拟机的有适应优化配置技术的支持不同特征的应用。
应用配置迁移旨在创建一种可靠的自动化技术,构成一种灵活扩展的框架及相关组件,提供一套自动化迁移的工具,从而帮助客户完成系统配置在AIX、Linux、HP-UX、Solaris和Tru64等多个操作系统之间的迁移,以及同一操作系统不同版本上系统配置的迁移。这些成果将显著降低从SUN/HP平台迁移到AIX/Linux的人工成本和时间代价,保证迁移的可靠性和正确性。
通过模型驱动和模型转换技术,简化分布式复杂应用在多种环境下和大型异构数据中心上的部署和配置,提供一种自动应用配置建模和验证的工具,在应用部署模型中描述软件配置和约束,并验证配置模型的完整性和一致性,从而减少部署错误。目前研究重点在于如何捕获部署模型的相互依赖性和约束的新方法,屏蔽繁杂的管理细节,而提供简单、清晰的表示和满足约束需求的能力。
该项目的长期目标是利用虚拟化和自动化技术隔离运行在共享基础架构上的应用。目前的研究重点是使Java中间件,如WAS,具有隔离工作单元(servlet、交易、应用等)的资源使用的能力,以防止工作单元之间发生资源使用干扰以及抢占。该项目所提出的内存分区技术以及中间件隔离机制提供以下高级功能以提高中间件的可靠性:隔离内存在运行时刻出现的内存故障;自动修复运行时刻出现的内存瞬时故障;简化内存持久故障的诊断方法和加速诊断过程;加快内存持久故障修复。
企业搜索及中文知识管理 随着企业规模的不断扩大以及信息化建设的不断发展,在企业中信息的总体拥有量越来越大,如何有效地组织和查找信息也变得越来越困难。为解决这一问题,该项目从自然语言处理及文本内容分析出发,重点关注两方面课题,即企业搜索和中文知识管理。同互联网搜索相比,企业搜索有不同的技术挑战,例如,企业文档缺乏链接信息;数据类型的多样性;结构与非结构数据的集成;企业知识的利用和个性化的搜索等,我们的研究侧重于如何利用深度的内容分析以及对用户搜索行为的分析来解决这些企业搜索的难题。在中文知识管理的研究中,其核心任务就是如何将企业内部的全部信息,按有效的信息分类体系的结构进行组织。在技术上,我们重点研究的是如何利用半监督学习技术来降低企业自动分类体系的构建成本。
开放研究课题:非结构化信息管理架构(Unstructured Information Management Architecture) 作为一个开源的中间件平台,UIMA(Unstructured Information Management Architecture)是IBM研究部门和软件部门共同设计和开发的非结构化信息管理架构。在UIMA中,各分析模块通过共享的类型系统,进行独立的开发,并对自己的功能进行自我描述,这样既保证了各引擎的开发者充分地使用自己的专业知识开发出高性能的模块,又能促进各项技术的快速对接。IBM公司的研究和开发部门已经在UIMA平台上实现了包括词法分析(支持英文和中文等一类语言)、句法分析、知识库、问答系统、文本检索、机器翻译等多种自然语言处理功能,算法上覆盖了统计算法、规则算法、机器学习。UIMA不仅对分析单篇文档提供了详尽的支持,它还对处理文档集合提供了从数据源收集、分析到最终应用的全程支持,UIMA SDK中有一个语义搜索引擎(Semantic Search Engine)的例子可以更好地展示UIMA的文档集合处理架构。 使用UIMA,不同开发者可以使彼此的文本分析功能实现无缝的互操作,方便地与搜索引擎、数据库等信息服务系统集成,从而支持开发更加高级的应用。UIMA SDK提供两种实现版本:Java和C++,任一种语言开发的UIMA应用都可以自由地使用这两种语言开发的UIMA分析引擎。例如,基于UIMA开放、可扩展的文本分析架构,IBM推出了企业级搜索软件“IBM WebSphere Information Integrator OmniFind”,客户可以在OmniFind已经提供的文本分析功能的基础上继续开发符合自己领域和行业应用的文本分析模块。 作为技术团队的一员,IBM中国研究院相关研究团队负责UIMA在中国学术界和企业界的合作与推广。我们非常希望同国内外研究同行能在这一开放平台下进行各种形式的合作,共同建立一个开放研究社区,以此推动在中文信息抽取,多媒体处理以及语义搜索等研究方向的共同发展。
相关链接: UIMA: http://www.research.ibm.com/UIMA/ UIMA 创新基金: http://www-900.ibm.com/cn/ibm/university/news/2006_uima.shtml http://www-304.ibm.com/jct09002c/university/scholars/products/eclipse/uima.html
在数据集成以及商务智能的应用中,数据源的质量问题一直是该类应用的一大技术瓶颈;与此同时,如何辨识多个实体是否重复也是一个必不可少的环节(例如,判定多条客户记录其实指向同一个人)。 该项目的目标就是通过对于数据内容的深度语义分析来解决这一技术难题。目前主要研究的课题包括中文数据语义分解;数据元的标准化以及多数据项的匹配。
在当今的银行业和金融市场,无论是法规制定者还是市场竞争者都在证券欺诈监督、反洗钱和管理信用风险集中方面面临着严重的挑战。这些任务的一个共同特征在于,它们都需要通过实时分析关联方之间的复杂而众多的关系,从而获得有用的信息。通过将现代化的语义建模、演绎数据库、可视化技术集成在一起,关系网智能分析可以为法规制定者和市场竞争者提供一个平台,以自动识别和跟踪可疑的关系和事务处理,并以可视化的方式分析和控制风险,从而提高效率和市场的自我恢复能力。基于关系网智能分析技术的解决方案原型已开始试用,使得用户可以基于公开的数据研究和提供对信息的深入了解。 关系网智能分析的演示可以从此处下载:http://www.research.ibm.com/cni/
未来的万维网将不仅主要包含HTML网页,还会由机器可处理的有意义数据来构成。这就是Tim Berners-Lee提出的语义网的概念。语义网通过以机器可理解的形式对网络资源的语义进行编码,从而自动整合数据,代替用户执行操作,以及根据意义(而非语法形式)搜索信息。这一构想要求针对与网络内容创建、访问、检索、整合和过滤相关的服务采用新的方法、模型、工具和系统。面对将语义网概念变成商业界现实,有以下研究:
该项目的重点是研发汉语语音合成相关的各种技术,提高语音合成语音质量;语音合成技术对于没有图形界面的任何交互式对话系统(如电话或者汽车)均具有十分关键的作用。2006年3月1日,IBM中国研究院语音小组参与了TC-STAR主持的汉语普通话语音合成系统质量评估,并在 TC-STAR 的正式评估中荣获第一。欧洲委员会主持的TC-STAR的使命是长期致力于研究语音到语音转换的所有高端核心技术,语音合成是其中的关键构成技术之一。 New! 该技术现已应用于IBM中国研究院的互联网主页及新闻中心,以实现文本内容的语音播报。
该项目的主要目标是开发世界一流的汉语语音听写系统。在 IBM ViaVoice 专有技术知识积累以及最新的大词汇连续话音识别研究成果的基础之上,正在研发并不断地改进普通话听写机系统。目前开发的声学模型训练环境,可以从机器自动采集的声学数据库中自动挖掘有用的训练数据,在应用了这一技术之后,我们在美国国防高级研究计划局发布的 RT04 测试集上,取得了 13.7% 的字误识率,比较其他研究机构发布的结果,这个数字代表了目前国际最高水准。
除了语音识别与合成的研究之外,研究小组也在探索如何利用语音技术服务于人们日常的生活和娱乐,包括音色转换技术和音乐哼唱查询技术。音色转换技术仅需少量的训练数据和人工干预,便可将一个标准口音的说话人的声音准确地转换成另一个人的声音,目前这项技术已经应用于多媒体网站和在线游戏领域。音乐哼唱查询在特征提取和音符识别方面已经取得了突破性进展,其应用前景非常广泛,包括电信用户的彩铃下载,数字媒体用户的音乐查询,卡拉OK用户的歌曲点唱等。
主要研究在新经济形式下支持知识型工人协同工作的创新一代网络协作方案。该方向侧重研究标准化方案支持下的网络协作共享对象,以及基于商业智慧的有效网络协作工具,和企业级知识共享及重用的方法。同时研究复杂网络的可视化工具,从而帮助企业创建相关的社会网络,以利于信息和知识的无缝流动。
面向服务架构系统的设计建模方法是目前的一个研究热点。业界普遍认为用面向服务的理念能够提高现有的软件架构的灵活性、可扩展性。我们正在研究一种能将业务层次的服务建模与系统层次的服务建模综合在一起的、通用的面向服务架构的建模方法。目前重点研究在服务构件架构协议框架下提高服务组件的可配置性、可调合性和可管理性。
服务资产监管Asset governance (ASG)是研究在全新的可复用服务交互平台之上,针对支持各种新颖的资产使用和付费方式,如何保护各个利益团体的服务资产安全和数据安全,以及监控资产的使用。针对资产构建和资产运营等多种应用场景,研究人员设计和开发了监管技术方案,该方案结合了策略管理、安全平台、软件安全等保护与追踪技术。
服务实验是指把实验理论应用到服务实践中,系统化地验证服务的业务模型和解决方案的设计,以持续性地提高服务的质量。服务实验技术贯穿服务实验生命周期中的各个重要环节,研究如何对实验进行建模,如何在实验中动态收集信息,如何最大程度地减轻实验对服务运作和性能的影响,如何保证实验结果的准确性等等。
SaS是一种通过互联网来交付软件的新模式,面临许多技术挑战。目前研究主要涉及两个方面:
多租户技术是指,在网络的服务托管体系中,在保证租户服务管理水平(SLA)和租户服务安全需求的前提下,如何实现在共享环境中的多租户服务流程的隔离;如何降低多租户特性对服务流程开发带来的复杂度。
Web2.0技术的发展使WWW从过去单纯的信息平台逐渐成为一个新的服务平台。企业Web2.0的研究方向是:将Web2.0的技术跟企业应用相接合,跟商业逻辑相接合,给企业客户创造出新的价值;并研发基于web 2.0技术的新的编程模式和支撑软件。
该研究主要从目前企业的项目管理中存在的现实问题出发,着重深入理解项目管理困境背后的协同、沟通效率等方面的原因,结合以活动为中心的新一代协同计算模式的理念,并利用RSS等技术设计并完成相应的项目管理工具原型。此研究可以促进项目成员的沟通协作,项目任务的追踪,第三方的项目更新提交,以及辅助项目经理生成项目进度报告, 并最终促进项目管理的成功,提高企业组织的生产率。
基于量化分析手段,该项目为供应链管理咨询提供了有力的分析工具,目前包含两个主要工具集:
网点智能分析与优化是指基于地理信息系统、通过对海量数据的分析与挖掘,帮助银行、零售、石化等行业客户进行战略决策:
在服务经济中,由于服务具有无形、边际成本低、不可储存等特点,同时,由于一些新的服务模式的不断出现(如托管服务,流程外包服务等),传统成本加成和基于竞争对手的定价方法在服务业中很难得以奏效。因此,越来越多的企业开始探索灵活的服务定价机制。 基于客户价值的定价优化模型,利用数学模型、模拟技术和数据分析技术,分析交易和其他客户数据以了解客户的价值需求,更准确地探求价格与购买之间的因果关系。从而使公司能在产品投入市场之前预测其销售计划,识别高价值客户,测试在各种打折或套餐服务情况下的定价和需求弹性,最终确定合适的价格以销售出更多的产品和服务,实现边际利润最大化。
传染病一直是社会经济发展的一大威胁,该研究采用了先进的数据分析技术,能够预测传染病爆发的可能性,以便及时的为传染病防治做准备。该研究根据人们出行的行为数据,分析不同控制策略下的传染病传播过程,提供了传染病防治的物质储备、资源分配、人员调度等优化方法,从而提高防治的运作效率。SARS 等传染病的历史数据检验表明,仿真和数学分析方法能够比较好地模拟传染病传播过程,并能够为传染病决策提供更科学的理论支持。
当前深海运输中有超过60%的货物是采用集装箱运输的,而在一些航线,尤其是经济发达国家及地区间的货物运输线甚至达到了100%。随着集装箱运输量的逐年增加,集装箱在物流中运输时间的准确性、运输成本的不断增加以及空箱需求不平衡性等问题已经成为各航运公司发展的重要阻碍。集装箱物流优化技术为解决上述问题,提出了一整套解决方案:对集装箱船实施优化调度,降低其运输成本,提高运输时间的准确性;另外,通过对全网络中的空箱进行分配规划,能够使得当前集装箱运输中的空箱不平衡性得以解决,进而提高整个船运公司的收益水平。