研究成果

一、生物医学

1、多性状关联分析软件mplink开发

咨询客户

某双生子研究中心。

客户关心问题

CREAM(Consortium for Refraction and Myopia)是世界近视全基因组关联分析(GWAS)最大的研究组织,目前参与的研究机构有38个,拥有的超过5万例全基因组测序样本。CREAM这种大规模的研究项目处理问题的特点:数据量巨大,每个研究机构都要分析几百G的Imputed测序数据。尽管目前已有大量文献研究多性状关联分析,但目前大多数文献都只是给出相应的方法或开发出相关R软件包,使得这些方法无法应用到像CREAM这种大规模的研究项目中去。因此该中心希望开发出像plink这样高效、规范化的多性状分析软件,以此应用在CREAM的多性状关联分析中。

解决方案
我们参考了plink的源代码,重新改写了plink的架构。plink原有的架构以plink类为核心,进行数据的读写和处理,这固然发挥了OOC模式的优势,但是由于plink本身功能众多,所以这种架构并不适合我们的项目,所以我们删繁就简,只保留原来plink类中核心数据成员。在这个基础上,我们开发了多性状关联分析软件mplink。

客户评价或应用收益
mplink在计算速度和精度上,都可以媲美plink,而且体积小巧(可执行文件只有234k);扩展性强,可以根据任务的需要,进一步扩展;可移植性强,目前已经有适用于x86架构和x64架构的版本。在不久的将来,mplink的功能还会得到进一步的加强。

 

2、高内涵筛选试验的统计方法应用

咨询客户
某全球知名的制药企业。该公司以科研为先导,一直致力于医药产品的研究及销售,其销售网络遍及近百个国家和地区,销售额已达上百亿欧元。

客户关心问题
高内涵筛选(high-content screening)是基于高通量筛选的一项多靶点多输出的新兴生物技术。在生物制药中,凭借该技术,能得到RNA干扰对基因表达在细胞层面上的多方面影响,同时对多个输出进行观察记录。然而,传统高通量筛选试验主要针对单变量进行分析,不适用于高内涵筛选得到的多元输出数据。如何利用先进技术带来的更为丰富的信息,使用更为有效的及稳健的统计方法对高内涵筛选试验进行质量控制并得到有效RNA干扰,成为了该制药公司的一个难题。

解决方案
我们向该制药公司相关研究人员了解药物(RNA干扰)筛选的试验背景和过程及以往高通量筛选的统计方法,对比分析了高内涵筛选相比传统高通量筛选的特点,明确高内涵筛选的统计分析面临的困难。从一元统计量SSMD的特点出发,考虑多元情况下两个控制组的location与scatter,采用了马氏平方距离对两个实验组进行质量度量。

客户评价或应用收益
把我们提出的方法应用于该公司的高内涵筛选分析,在模拟与实际数据中,将该度量方法与现有方法进行比较,以两类错误作为评价指标,我们的方法均优于现有方法。

 

3、骨异常疾病基因分析

咨询客户
某医院。

客户关心问题
该医院发现了一种骨异常疾病,这种疾病具有明显的遗传病特征,但目前仍然无法对这种疾病进行确诊。医院对病人及其家属进行了基因测序,希望通过对病人的基因突变进行分析。但是基因的突变成千上万,如何在大量的突变中找到与该疾病相关的突变,从而确定致病基因,是研究中最重要同时也是最复杂的工作。

解决方案
我们与医院的研究人员一起,对病人的基因数据进行了分析。由于基因数据来自高通量测序,所以数据当中有较多测序错误。我们的第一步工作就是筛去假阳性概率很高的突变。然后我们比较两个患者的基因数据,从中找出共同的基因突变。之后我们再将患者基因和非患者基因对比,筛去共同突变。经过以上筛选。我们成功地将可疑突变的数量降低到一个可以接受的水平。然后我们在数据库中查找可疑突变的资料,进一步确定突变的性质。

客户评价或应用收益
目前,通过我们的工作,我们已经在9号染色体上数万个突变当中筛选出90个可疑突变,正计划将同样方法应用与其他染色体上。预期可以确定该疾病的致病基因,以及相关基因的突变。

 

4、眼底图像智能化分析系统开发

咨询客户
某大学眼科中心。

客户关心问题

眼科医生一般通过病患者的眼底图进行对病患者进行初步诊断,如诊断青光眼、糖尿病等。然而,传统的诊断都必须由眼科医生对每一幅眼底图肉眼都进行病灶特征的识别和病灶区域的人工标注,这增加了眼科医生工作量的同时又降低了诊断的效率。如何让眼科医生能够摆脱机械的重复而更专注于确诊后的治疗,是该客户眼科中心近年来最关心的问题。

解决方案

我们与眼科中心一起讨论了所面临的问题,结合眼科中心的需求,融合数字图像处理、三维图像重建、机器学习等多项科学计算领域的高新技术,利用matlab和opencv平台作为支撑,开发了眼底图像智能化分析系统,该系统支持新型眼底照相机图像的识别与分析处理,能自动完成:视野图像拼接和全视野范围的三维重建、视神经区域的识别、血管树的生成、黄斑区域的标注、出血点与渗出点病灶的识别和标注。

客户评价或应用收益


"眼底图像智能化分析系统提供了的模块功能齐全,能进行眼底图主要区域的识别、病灶区域的识别和标注,效果很好,相信能大大提高眼科医生诊断的效率,未来要在眼科中心大力推广该系统,彻底改变传统的人工识别和标注模式。"

——某眼科医院主任

"眼底图像智能化分析系统界面友好,操作简单,只需简单地点击几下鼠标,就能完成眼底图像的自动识别。"

——某眼科医院医生

 

5、肿瘤分期优化

咨询客户

某医院。

客户关心问题

目前针对肿瘤最为权威的分期是TNM分期,这种方法通过观测细胞特征将病人分期并进行预后,但是这种方法较为粗略。某医院通过对18种biomarker的组织切片进行分析,测定了其含量。同时调查了病人的若干临床变量,如年龄,病史等。并希望能够通过这些变量,进行适当的建模,提出基于这些相关变量的新分期,从而对病人的生存时间进行更有效地预测。

解决方案

我们通过对数据的背景进行了解,建立了生存分析模型、生存树和随机生存森林模型,并通过变量选择得到最有意义的biomarker和临床变量,然后再通过聚类算法得出基于这些变量的新的分期。基于此,医院可以结合病人的多项指标对病人的病情进行更为全面的判断,从而更为精确地预测病人的生存时间,进一步采取更为有效的治疗方案。

客户评价或应用收益

经过检验,新的分期方法比原有的TNM分期方法表现地更好。

 

6、肿瘤致病基因检测

咨询客户

某医院。

客户关心问题

该医院发现了一种骨异常疾病,这种疾病具有明显的遗传病特征,但目前仍然无法对这种疾病进行确诊。医院对病人及其家属进行了基因测序,希望通过对病人的基因突变进行分析。但是基因的突变成千上万,如何在大量的突变中找到与该疾病相关的突变,从而确定致病基因,是研究中最重要同时也是最复杂的工作。

解决方案

我们与医院的研究人员一起,对病人的基因数据进行了分析。由于基因数据来自高通量测序,所以数据当中有较多测序错误。我们的第一步工作就是筛去假阳性概率很高的突变。然后我们比较两个患者的基因数据,从中找出共同的基因突变。之后我们再将患者基因和非患者基因对比,筛去共同突变。经过以上筛选。我们成功地将可疑突变的数量降低到一个可以接受的水平。然后我们在数据库中查找可疑突变的资料,进一步确定突变的性质。

客户评价或应用收益

目前,通过我们的工作,我们已经在9号染色体上数万个突变当中筛选出90个可疑突变,正计划将同样方法应用与其他染色体上。预期可以确定该疾病的致病基因,以及相关基因的突变。


二、银行金融

1、量化投资策略开发

咨询客户

某投资公司。该公司通过对经济指标、市场指数、公司数据、及各种全球资产参数的分析为客户提供精准的信息和易执行的建议,也为客户提供资产管理和理财服务。

客户关心问题

为公司进一步发展壮大,该公司决定与高校合作,以此项目作为与高校沟通平台,了解投资理财等领域的最新发展,为客户提供最新和最有创意的建议,以帮助他们创造更多价值。

解决方案

我们与该公司一起学习金融投资行业的最新学术研究,了解国外金融期货市场的特点,尝试各种投资策略,如统计套利、对冲等等。最后我们共同研发出一套新的投资策略和交易系统,并在试运行模拟交易几个月后投入使用,获得一定的收益,夏普比达到2.3。

客户评价或应用收益

项目完成后,公司为客户提供更多投资方向选择,优化客户的投资组合以提高经风险调整后的回报,收益率最高达到7.6%。

 

2、信用卡用户行为分析

咨询客户

某商业银行,该商业银行在北京拥有过千万的信用卡用户。

客户关心问题

尽管该银行在信用卡上占有市场上的绝对优势,但持信用卡消费的活跃用户偏少。该银行为了刺激用户持信用卡消费,使出浑身解数,联合化妆品店、美容美发中心、超市、餐馆等众多消费场所,推出持卡在指定场所消费享受折扣的优惠活动,并以短信群发的方式为该活动作宣传。然而,响应率却不尽如人意,活动的收效甚微。如何提高响应率,尤其是高消费用户的响应率成为该银行信用卡中心工作的重中之重。

解决方案

我们与该银行一起分析了信用卡用户消费记录及消费者的消费心理,以统计学习以理论基础,结合当今最先进的机器学习与数据挖掘技术,根据"物以类聚,人以群分"的规律,将该银行信用卡用户根据不同消费场所分成组间行为差异大而组内行为差异性小的‘高价值客户’与‘低价值客户’组,并在此基础上形成自动化数据挖掘系统支撑,该系统可以快速方便地完成数据提取-数据清洗和预处理-模型处理等数据挖掘流程,兼顾了效率和准确率,使该银行信用卡中心数据分析人员、市场营销人员可以方便地了解每个用户的消费行为特征、心理偏好特征、社会特征等,为银行和商户联合开展精准营销创造良好条件。同时,通过该系统还可以观察到不同细分用户群体的变化,市场活动对不同用户群的影响等,为合作商户及时采取相应的营销措施提供了决策依据。

客户评价或应用收益

项目完成后,该银行联合各商户进行了有针对性的营销活动,活动的响应率由原来的3%%显著地提高到5%,真正实现了精准营销。


三、人文社会

1、茶叶产地归属检测技术研究

咨询客户

某检验技术中心是检验系统至关重要的专业技术保障机构,承担着该地区大部分产品的检测任务。该中心下设多个大型专业实验室,服务涉及数十个行业,包括食品、电子电气、动植物、建材等,能够根据国际标准对产品进行评估。

客户关心问题

该地区盛产茶叶,但市面上却充斥着其它地区各种良莠不齐的茶叶,企图鱼目混珠,严重影响了茶叶的市场秩序。为了更好地维护茶叶的良性竞争秩序,促进该地区茶叶企业做大做强,该技术中心希望根据本地区采集的若干种茶叶,建立合适的模型,对茶叶所属类别进行判定分类。

解决方案

我们与该中心的研究人员仔细分析了该地区多种著名茶叶的特征,决定对上百种茶叶进行采样,同时借助现有的同位素质谱仪等先进技术,采集茶叶中元素及同位素含量,建立数据库。然后根据所采集数据的特征,选择合适的参数指标,并应用机器学习与数据挖掘中的分类技术,建立了茶叶所属类别分类器。

客户评价或应用收益

该技术中心根据我们建立的茶叶所属类别分类器,对该地区研究的上百种茶叶进行了盲样测定,准确率高达95%。

 

2、节能降耗指标分解研究

咨询客户

某省的节能降耗问题研究课题。

客户关心问题

节能降耗是我国现阶段的一项极为紧迫的任务。作为我国经济发展环节中一项重要举措,节能降耗对我国的产业转型和结构调整有重要的指导意义。大力淘汰落后产能,着力培养新兴产业是节能降耗最有效的措施之一,而合理有效地分解节能指标是目前最大的难题。

解决方案<

我们给出了五大行业节能指标分解模型,给出了若干种方案以及相应的测算依据和测算步骤,对结果进行了相应的分析和经济解释;我们给出了各个小行业的结构调整的若干种方案;给出了工业内部的37个小行业的节能指标分解的优化模型,得到若干种方案下工业增加值能耗降低率;我们还给出了省重点用能单位及六大高耗能行业的能耗分析。

客户评价或应用收益

本研究报告将规划优化的方法具体应用到某省的节能降耗问题研究之中,建立了相应的能源经济效益优化模型,将节能降耗的总指标合理有效地分解到各个产业中,给出了各个产业具体的节能目标,助力该省政府制定有关节能对策,确保实现至2015年该省单位GDP能耗在2010年的基础上下降18%的前提下,达到该省GDP增长的最大化。


四、互联网

1、手机游戏推荐系统模型开发

咨询客户

某软件公司。

客户关心问题

该软件公司开发了一款专业的手机游戏下载平台,为智能手机玩家提供最新最全的游戏下载资源,游戏超过五万款。但玩家面对琳琅满目的游戏,很难在短时间内找到自己最喜欢的游戏,常常是搜索了很久却没能下载到一款心仪的游戏。客户希望该平台在提供海量游戏任玩家选择的同时,能针对不同的玩家推荐适合的游戏,让玩家能在资源丰富的游戏里最方便、最快捷地找到自己喜欢的游戏。

解决方案

我们与该软件公司一起分析了玩家心理和使用习惯,结合玩家曾经下载以及浏览过的游戏,利用基于物品和基于用户的协同过滤算法,从海量游戏中精挑细选、发掘推荐高品质游戏,例如:为热衷大型网络游戏的玩家专门设置大型游戏专区、针对不同类别的游戏做了更加细致贴心的分类处理、为每个玩家推荐10款最心仪的游戏。

客户评价或应用收益

"下载平台推荐的10款游戏都很符合我的胃口。"

——玩家甲

"以前搜索游戏常常都是望文生义,下载了发现不喜欢又马上卸载了。现在通过下载平台的推荐,下载的游戏都让我爱不释手。"

——玩家乙

"我很热衷大型手机游戏,平台的大型游戏专区真的很棒!"

——玩家丙