从目前中国的现状来看,临床的病例基本上记录在ERP或者S系统里,甚至少量的医院还记录在纸质的病例上,这些数据结构我们把它称为是半结构化的病例数据。比如说住院病历首页只看到处方的遗嘱系统,化验系统都已经做到了结构化,但是临床研究比较重要的病史病重程度,以及药物的不良反应等都习惯性的记录在病史中。我们需要对它进行一个重新的处理,而且病例的内容模版化最好的Ctrl+v、Ctrl+c的操作,现在也有很多的错误发现,有些男性病例里面还写着子宫附件,女性病例里还写着前列腺检查无异常,这都是Ctrl+v、Ctrl+c出来的,现在给这种黑色系统数据标准化,国家也在不断的强化。
对于数据存储的现状来说,大家的格式就更多样。数据质量差异会非常大,而且目前临床上做科研数据整理的管理人员,我们观察到流动性还是非常大的,所以导致往往一个科室科研性的数据库,数据处理差异也很大。还有一个数据可重复利用度往往的也不是特别高,最后到知识专业环节有些统计方法,或者说有些医生为了写文章往往会有选择性的去相信一些病例,得出一个P<0.01差异,然后就写在文章上,没意识到病已经作了选择性的筛选了。还有第三块也会鱼龙混杂,这是我们在数据处理的临床研究过程中中国存在的一些现象。
实际上要建一个数据库要去考虑两个大的因素,第一怎么样去解决临床科研要求的数据标准。另外怎么样满足我自身领域里面的研究领域里的专业标准和专业的术语,把这两个结合起来,一个是数据标准,一个是专业标准,结合起来形成的这个数据模型,这个数据库的结构就是能满足我们未来科研临床研究的科研数据的标准模型,这样的话,能满足每一个领域里的科研,同时也能满足监管成员的一些要求。这样的话我们除了做一些临床实验以外,这个库也会支持我们自己的非注册类的以及观察性的研究,增值试点研究都可以来实现。而不需要今天一个课题一个库。
我们要创造数据的话尽量带数据源,如果我们还是习惯用CRF表的方式去存储数据的话,其实你已经在使用假设条件了,那么你的研究方向是什么?所以如果要进行某一个增值试点研究的话,尽量不要带一些假设条件,只要把这个病例的数据原原本本拆开放在那里就可以了。
另外数据是用来积累自己的科研财富的。我想分析一下大数据的一些特点,第一个数据源比较大,而且在持续增长,因为病人会源源不断的进来,第二个是病例的整体结构是比较复杂,而且包含了很多的语意,每一份病例是医生受过专业训练之后书写的,它不是像我们日常生活的自然语言,它的文字之间有很多语意在里面,很多的医学逻辑在里面。第三个特点是个体差异比较大,第四个数据定义和数据标准变化很快。刚才我谈的一些医学标准每年都在变,第五个信息不同现象比较严重,现在医院跟医院之间的信息共享还是比较难的,如果说对这些数据进行处理的话,现在基本上是XML的格式文档,如果对这些数据进行处理最好的整理方法,当然是人工智能语音识别加数据化安全,但是这样做在今天的计算代价还是比较高的。第二个如果我们去做一个结构化的关系性数据库,它能满足我们预定好的或者日常的研究需求,但是使用结构化数据存储会把大量的语音关系丢掉,因为计算机并不知道两个词之间的是什么关系。
最后跟大家分享大数据的隐私和安全问题。数据的一个特性是有去无回的,因为它可以零成本的复制,你再也拿不回来。我可以拿到数据做任何其他科研的工作,所以我们跟很多专家也包括做一些或者技术上来解决这个问题,我们怎么样在保护数据和医学科研之间达到一个平衡,前提就是数据的分级分层,我们有一个数据分级分层的框架,现在也正在研发中,我们想在今年九月份公布这样一个标准化的体系和分享的机制。就是把每一份病人的数据通过人工智能拆成隐私信息、描述性事件和分类分解的数据分解出去,我们称之为PBCI模型。不同的数据层级你可以去规范不同的分享和协作的权限。我举一个例子,很多人担忧数据共享出去有去无回,其实他担忧的是第三层数据,这份基础数据分享出去以后,我就没办法掌控了,隐私系统是不管谁都不能共享的不能分享的,基础性描述性的事件其实是产生其他任何分类分级描述性事件的源头,都想把这份数据传到自己手里,我们可以从分析性数据的共享开始,或者分类分级的数据共享开始,如果双方建立足够的信任,也可以把描述性事件也做分享,这些分类分级的这样的分享,另外一个利益的分享机制,我们当中也是这个建议,谁发起了一个课题,他就是通信作者,谁贡献了病例被采纳的多就是第一作者依次排序。当初在讨论中很多人都比较认同这个机制,因为相对比较公平的兼顾大家的利益,另外一个我们其实也在跟国家信息部沟通,做到不能多次的利用,来约束大家对这些共享数据的使用范围。