医疗健康大数据的种类、性质及有关问题
数据可利用性中国与西方发达国家一样,正在步入医疗健康大数据时代,现在,每时每刻都有大量新的有关疾病、医疗和健康的信息在产生和流动,并储存于某个地方,等待着被挖掘、分析和应用。由于中国是接近于14亿人口的大国,人数占全世界总人数的1/5,所以产生积累的医学数据量,世界各国无法比拟。截止2013年11月底,全国医疗机构总数为96.2万个(其中医院为2.4万个,其他医疗机构为92.3万个),2012年全国诊疗人数达69亿人次。目前,中国的互联网上也正在实时产生大量难以计数的关于疾病和健康的信息。特有的巨量医疗和健康数据,赋予了中国一个能接触并深入了解更多疾病、诊疗和健康信息的好机会,但同时也给数据使用者带来了更严峻的应用挑战。
本文描述和讨论了医疗健康大数据的基本概念、种类、性质及有关问题,以便读者能迅速了解有关知识,正确利用医疗健康大数据,避免出错,真正能使有关各方从大数据应用中获益。
1.医疗健康大数据的基本概念
医疗健康大数据泛指所有与医疗和生命健康相关的数字化的极大量数据。数据究竟大到何种程度才可称为大数据,早在九十年代中期,世界著名统计学家休伯(Huber P J)就对此进行过专门讨论[2]。当时,休伯建议可按以10为底2为指数递增的数据存储单位字节大小来进行划分,即微小数据为102(100字节),小数据为104(10K字节),中数据为106(977K),大数据为108(95MB),巨大数据为1010(9.3GB),和非常巨大数据为1012(932GB≈1TB)。这种数据大小按物理存储单位划分,虽然属于人为主观界定,但显示了一定合理性,有助于对数据源大小的认识。现在,人们对大数据有了更深层次的认识。狭义上,它被定义为难以用现有的一般技术管理的大量数据的集合;广义上,它的数据量(Volume)含义可以延伸至数据的产生速度(Velocity)、多样性(Variety)和价值(Value)。扩展的大数据定义符合于当前信息时代的特点,体现了数据的更新速度、复杂性和有用性。
现在有一种说法,似乎只有太字节那样大的数据才可称为大数据,但从实际应用角度,大数据的大应该为相对的大,特别是当数据还同时具备产生速度、多样性或价值等其它特征。
理论上,医疗健康大数据可以是涉及一个国家或地区全部医院或所有人群的数据,具有几个、几十个或更多TB甚至PB级的数据量,但其实也可以只是一个地区几家医院或一部分健康人群的数据,甚至更可以只是一个医院的全部临床医疗数据。关键是,目前一个中型医院1年医疗数据包括影像数据等加起来,就可达到几十个TB数据量,剔除主要的影像数据量后,仍有大概数百G级以上数据量。而且,医院很多年份或很多临床科室数据都已可以相互关联,使单一医院的数据性质和应用价值获得突破性提升,完全不同于以往单一年份或单独临床科室的数据。所以,不能机械地光是从数据量来界定什么是大数据,什么不是大数据,而应该同时考虑是否数据性质等方面已经发生了根本的变化。
2.医疗健康大数据的种类、性质及有关问题
医疗健康大数据只是一个笼统的称呼,有时候也简称为医疗大数据或医学大数据。按照
不同来源,医疗健康大数据可以分成医院医疗大数据、区域服务平台医疗健康大数据、疾病监测大数据、自我量化大数据、网络大数据和生物大数据等六大类。这些不同种类数据具有不同的性质、医学价值及问题。
2.1医院的医疗大数据
通常所说的医疗大数据指的就是医院医疗大数据。医院医疗数据是最主要的医疗健康大数据,产生于医院常规临床诊治、科研和管理过程,包括各种门急诊记录、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录和医保数据等。这些医疗数据中的大多数都是用医学专业方式记录下来的,以临床实践自然随机形式存在,是最原始的临床记录。从临床管理或研究角度看,这些数据是关于病人就医过程的真实记录,或者也可以说是临床医疗行为留存的痕迹,每一个数据都是有价值的,包括记录不完善或错误的数据,都可能隐藏了有待发掘和利用的重要医学信息。
与其他行业数据比较,医疗行业数据既重要又特别,不仅数据与人的健康、疾病和生命息息相关,而且具有更复杂的多样性,以及更多需要研究探讨的未知事件。这些特征促使医疗行业拥有了一大批医学研究专家和统计学家,并由此建立了一系列的数据统计分析方法,开展了各种各样的医学研究。
医疗数据的复杂性表现在于,一方面包含了大量的专业医学用语,光是疾病名称就有3万多种,另外还有数以万计的诊断、手术和药物名称,以及大量影像、医嘱等非结构化数据。另一方面,由于医疗数据是不同临床诊疗服务过程中的产物,所以数据之间关系复杂,并且也很容易会受到各种因素的影响,致使某些数据带有偏倚性。一般来说,医院之间在很多方面是会有差别的,比如病人的个体特征和疾病程度、医院的诊断和治疗水平、医疗数据的记录和编码水平等。如果研究者没有注意到医院间的这些差别,就有可能导致错误结论,并进一步误导临床诊治工作。因为专家一般都非常重视大数据研究结果,会立即将其纳入临床诊治规范中加以推广应用。所以大数据研究一旦发生错误,可能会对临床实践造成巨大损害。另外,除了包含病人隐私信息,医疗数据也包含了大量关于医院运转、诊疗方法、药物疗效等信息。这些信息一般都很敏感,某些可能会涉及商业利益,有时候,即使分析很到位,但如果解释不严谨,仍会引发争议,甚至导致法律纠纷。
2.2依托区域健康服务平台的医疗健康大数据
依托于区域健康服务平台的大数据是重要的医疗健康大数据之一,也是未来医疗健康大数据的发展方向。一方面,服务平台汇集整合了区域内很多家医院和相关医疗机构的医疗健康数据,致使数据量大幅度增加。另一方面,服务平台数据的收集事先都经过充分的科学论证和规划,数据比原先的医院数据更为规范。
区域健康服务平台在我国已经起步,正在往深度发展。目前,有些服务平台是由政府管理部门委托建立,有些是由第三方IT公司建立。两者虽然都有同样目的,即通过整合各医院诊疗数据,使病人就诊数据在不同医院之间可以互相交流,但第三方服务平台更为创新一点,正在尝试针对重点疾病和特殊人群,打造基于医疗圈的个性化诊疗模式、基于健康圈的个性化健康管理与促进模式等。第三方服务平台中的数据及内容在医学上会更为合理、有用。健康服务平台的大数据具有地区人群代表性,研究结果适用于当地人群。然而,即使在同一区域内,医院之间的某些差别,尤其是病人个体特征和医院诊疗水平等差别,依然存在,需要特别注意。
2.3基于大量人群的医学研究或疾病监测的大数据
除了上述原生态医疗大数据以外,另有一些医疗健康大数据来自于专门设计的基于大量人群的医学研究或疾病监测。例如国家卫生部近年开展的脑卒中筛查与防治项目,计划在全国各地筛检100万脑卒中高危人群,随后对筛检出的高危人群的疾病及其治疗后果进行长期追踪。另一项近年刚启动的重大专项研究是,中国环境与遗传因素及其交互作用对冠心病和缺血性脑卒中影响的超大型队列研究,其包括了50余万人的自然人群,评估遗传和环境危险因素及其复杂的交互作用。专项设计的大数据还包括各种全国性抽样调查和疾病监测数据,比如全国营养和健康调查、出生缺陷监测研究、传染病及肿瘤登记报告等数据。因为这些研究或监测都是经过仔细的专业设计,所以数据内容较多,数据质量也较高,能够导致较为理想的研究结果。这些专项大数据与医疗过程数据相互融合后,可在疾病治疗和预防中发挥更大的作用,但是这些大数据只限于局部人群,纯属研究目的,无法对全国范围人群或整个地区人群的疾病进行个性化诊疗和防控。
2.4自我量化大数据
基于移动物联网的个人身体体征和活动的自我量化数据是一种新型的医疗健康大数据。自我量化数据包含了血压、心跳、血糖、呼吸、睡眠、体育锻炼等信息,除了有利于帮助了解自身健康状况以外,经过一定时期累积,在医学上会变得很有用,不仅有助于识别疾病病因或防控疾病,而且也有助于个性化临床诊疗,塑造全新的医疗或健康管理模式。
2.5网络大数据
网络大数据指的是互联网上与医学相关的各种数据。经常,这类网络大数据被与其他各类医疗健康大数据混为一谈,造成了对大数据效用的误解。网络大数据产生于社交互联网关于疾病、健康或寻医的话题、互联网上购药行为、健康网站访问行为等等。网络大数据非常杂乱无章,同一主题的数据既可来自于同一网站众多不同的网络用户,也可来自大量不同的网站,而且又会包含大量音视频、图片、文本等异构性数据。与自我量化等数据相比较,网络大数据是被动性存在,随机性很大,数据中蕴含的信息缺乏稳定性。由于信息噪声很高,缺乏医学专业规律,所以大部分数据都不会有医学价值。即使少部分可被用于挖掘分析,但也必须要了解,除非经过专业设计,一般来说,上传信息的网络使用者只代表了全部人群中一小部分特殊人群,比如只代表了部分年轻人、嗜好上网者、疾病焦虑者、久病不治者、或特别关注健康者。
包罗万象的网络大数据目前被发现最有用的医学价值是对疾病传播的监控和预防。最著名的例子是谷歌利用搜索引擎内容分析来预测全球范围流感传播状况,通过提前确定未知疾病流行,为疫情控制争取时间。但谷歌流感趋势研究由于预测结果不稳定而受到了广泛质疑。谷歌出错的主要原因是内容搜索者不一定是患病者,再加上地理位置的不准确。相对于谷歌的被动监测,一些国家的流行病学专家正在改用主动监测,即鼓励普通民众利用网络主动报告自己或家人的流感疑似症状。这种经过专业设计的基于特定目的的全球或全国网络大数据,虽然数据量会远低于基于搜索内容的网络大数据,但数据质量获得了极大提升,可以与变动监测结果一起,作为官方传统的流感监测系统的补充。
2.6生物信息大数据
生物信息大数据是一类比较特殊的医疗健康大数据。这类数据具有很强的生物专业性,主要是关于生物标本和基因测序的信息。虽然在信息内容表达方式上,生物信息大数据与上述所有大数据大不相同,但它直接关系到临床的个性化诊疗及精准医疗,所以可归入医疗健康大数据一类。生物信息数量巨大,据估计,人类基因测序一次,产生的数据量可高达100至600个G左右。生物信息大数据目前面临的最大难题是,如何能使标本及数据标准化、测定结果实用化、以及测定结果与病人临床数据的无缝连接等。
3结语
综上所述,医学是一门经验学科,各路医疗健康大数据提供了一个能迅速获取大量医学经验和知识的机会,另外也提供了一个能更为可靠地解决各种医学问题的新途径,造福于患者并保障人民健康。然而,不同种类的医疗健康大数据的性质是不同的,并且它们的价值和问题也是不同的。在进行医疗大数据分析前,数据分析者应该对不同类型的数据进行有效甄别,同时由于医疗健康数据属于复杂和敏感类数据,所以使用者一方面需要具备足够的专业知识,另一方面也需要抱有谨慎小心的态度。
看方案、学案例、找产品、寻专家,学习培训、下载报告、参加会议,发布企业产品、宣传企业方案、推广大数据活动、开展大数据培训,请搜索“数邦客”或(databankers)微信公众号或扫描右侧二维码关注我们!
联系我们请点击:http://www.databanker.cn/contactUs/Index.html
QQ群:8994580加入QQ群
微信群:请关注“数邦客”公众号,并加群主(liudan-85)入群
若您觉得本条信息不错,请动动手指分享给其它好友。
免责声明:数据资产网(www.databanker.cn)除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
相关知识
19 个顶级医疗保健数据集:机器学习项目的关键开放数据集
国内外健康医疗大数据建设及应用发展现状分析
关于疫苗及接种的7大科学问题
大数据为健康医疗赋效能
数据显示过度医疗问题仍需引起重视,如何进行协同治理?
健康大数据,从而开启医疗保健新契机
国家数据局:尽快推进一批医疗健康试点,加快数据要素开发利用
人工智能与医疗健康产业系列研究之七:人工智能医用软件的注册及监管问题
女性最关心的6大减肥问题,一定有一个是你想问的!
李克强:从老百姓迫切需求领域发展健康医疗大数据
网址: 医疗健康大数据的种类、性质及有关问题 https://www.trfsz.com/newsview43383.html
推荐资讯
- 1从出汗看健康 出汗透露你的健 3689
- 2早上怎么喝水最健康? 3513
- 3习惯造就健康 影响健康的习惯 3208
- 4五大原因危害女性健康 如何保 3095
- 5连花清瘟、布洛芬等多款感冒药 2909
- 6男子喝水喉咙里像放了刀子一样 2406
- 7第二轮新冠疫情要来了?疾控中 2170
- 810人混检核酸几天出结果?1 2163
- 9转阴多久没有传染性?满足四个 2119
- 10打完新冠疫苗后能喝绿豆汤吗? 2021