统计学概论和医疗临床大数据分析


王晓刚:任正非曾说人工智能就是统计学。我们一般对统计的认知有两个层面。第一个层面,很多人认为统计是一个非常容易的事情,就是数数。比如统计门诊接待了多少病人,其中有多少人是高血压。但是统计的另外一个层面,或者叫统计学,其实它有更深层的含义。

在解释更深层的含义之前,我们先说一下医工结合,这也是我的研究之一。医工结合是非常辛苦的一件事,世界上最远的距离是医和工的距离。因为从根本上讲,工程师认为世界上什么事情都是确定的,但医生认为是不确定的。而统计学正好是医工之间很好的桥梁,因为统计学是在不确定的情况下找到确定性——既承认有不确定性又要在杂乱无章当中找到模式或者说确定性。

统计讲的是一种朴素的哲学思想,虽然有几百年的历史但也是一个比较新的学科,人们对它的认识有很多误区,就是因为statistics在英文是两个含义:一个含义是你可能在数的数,还有一个含义是统计学这门课程。如果你查字典,会看到统计是唯一一门能够科学地收集数据、处理数据和作为预测的一个学科。统计是唯一一个能够处理不确定性的科学,而在诊断的时候有大量的不确定性,所以统计才是医工结合的桥梁。统计第一要处理不确定性,第二要给出可预测性。

统计学和人工智能也有很大的联系。在国外,人工智能逐渐步入理性阶段。在AlphaGo出现之后,人们认为人工智能无所不能,当跳进无数坑之后发现虽然不是什么都能干但挺有用。一个很典型的例子,就是很多有名的项目说得很好,到最后没办法实现。

国外发现人工智能的问题有时候不在于算法而在于概念不清,界定不对,维度不高。当维度根本不够高的时候,无论机器有多强,无论算法有多好,都算不精准。有些人说他们算得精准因为他们只会想哪些case我算得准,算不准的就不说了。而维度不高的原因,大部分是在收集数据之前没有对问题进行透彻的分析,收集数据时也没有下太多功夫。

现在深度学习在医学图像上取得了革命性突破,但依然存在很多问题,比如准确度衡量标准的问题。一般来说准确率的衡量标准有特异性和敏感性,在数学上和统计上可以证明,敏感性、特异性经常是不能兼顾。

以前做人工智能的人认为敏感性越高越好,但他们没有考虑医疗费用的维度,如果发病率是10%,特异性是70%,也就是说这个人没有病的准确率是70%,那意味着90%没病当中的人,其中30%有误报,这样会把20%的人吓到医院里,造成医院拥堵,淹没真正需要救治的人。此时算法的敏感性越高,造成的问题越多。

过去很多文章说的准确度其实都是敏感度。以前很多号称高敏感度的其实并不可靠。因为是有一定的“作弊”嫌疑。比如有一个模型,调参一定是用模型的数据。再用这个调完的参数模型,反回来预测那些数据,一般来说效果不会差。所以现在深度学习要么特别管用,要么特别不管用。

从表面上来看,统计无非就是数据整理、数据挖掘、模型建立,知识转化和预测未来,然而真实的统计不是这样的。很多人都集中在模型的建立和算法这里,然而对数据整理和挖掘的重视程度不够。

但是对于统计学,还要关注什么样的数据支撑你的问题、采集数据的方式及数据的整理;如何处理缺失数据、高噪声数据和违反常理的数据;数据挖掘的时候,如何选取有效维度,如何判定噪声;模型建立后,模型的适用范围和优缺点都要考虑。

以统计的观点,所有的模型都是错误的,因为会有数据采集的偏差、维度的缺失以及性能刻画不足,但并不影响使用,只要知道模型有缺陷就好。还有就是要多和医生交流,不断迭代模型。

中国的文化博大精深,下面从道和术的角度讲讲统计。你要有战术,也要有战略。宏观和局部都要有考虑,或者说是维度和度量的使用是不是正确。要尽可能包含所有维度,选取合适的度量标准。

下面讲下统计当中常见的问题:
  • 大家总认为统计显著性是线性,但在医学中这种关系经常是非线性。

  • 在医学统计中,要关注这个人他跟普通人的区别在什么地方,不能直接用统计规律。

  • 这种乱的线点做统计分析的话,根本不会有任何显著性。

但如果按人群细分,会得到不一样的结果。比如逛商场的时间和年龄的关系,假设女性年龄越大,逛商场时间越长,男性年龄越大,逛商场时间越短,这两条线是交叉的。如果你做线性回归并不显著,因为根本就不是一类人,如果你做两条线,你会发现特别显著。

统计学如同写诗、作画、雕塑、烹调。统计绝对不是下载数据、训练模型、调参就结束了,而是一个反复的过程。你要考虑到所有的因素,以烹调为例,我有一个特别好的锅,功率特别大,我有充足的油。可是如果你不洗菜,菜里全是沙子,没人能吃这个东西。你首先得要选择好的食材并认真清理,然后你的火候还要到,肉的品质还要好。如果原始数据就有很大的问题,无论怎么做最后都是有问题。

我基本上就讲这么多,希望大家能对统计学有了一个初步的了解,谢谢大家。

源链接   来源:机器之心   日期:2019-12-09 09:30:00  

推荐文章

视觉感知与运动规划技术结合,「如本科技」要提高机器人易用性

公司当前还有多款产品正在研发中,未来计划在现有核心产品基础上,推出高性能和高性价比的解决方案,将视觉与机器人紧密结合起来,为更多自动化领域客户提供优质解决方案。深圳市如本科技有限公司于2018年初创建,从事视觉感知与机器人运动规划领域产品的研发、生产、销售。机器人软件算法和视觉产品难题突破后,将更容易应用在3C家电、建筑、餐饮、医疗等任务复杂多变的行业


到海外去| S1E19 出海是新热潮?看跨国大公司亚马逊是怎么做的

往期节目12个月从零到一百万美金,这家出海电商创业公司做了些什么投资出海三年,他们说中国企业出海会是一个新常态40亿美元撬开东南亚市场,阿里和Lazada有何心得。


​最前线 | Snapchat也推出换脸功能,但监管仍是红线

据TechCrunch报道,Snapchat正准备推出  “换脸”功能Cameo,目前该功能还在内测阶段,法国为其首个测试点。无论是FaceApp  还是Zao都面临着侵犯用户隐私的指责,换脸技术的大众化源头“Deepfakes社区”也早已被Reddit以传播色情内容为由封杀。不管怎么说,如何提高用户对应用的信任度,是包括Snapchat在内的一众社交平台引入AI技术时都应该面对的问题


领英2019中国职场趋势盘点: 就业市场活力相对减弱,职场人更加积极求变

基于全球超过6.6亿职场人、3000万家公司和超过3.6万个技能等海量数据资源,同时运用成熟的底层技术支持,全球领先的职场社交平台LinkedIn得以真实揭示当前中国劳动力市场重要的趋势变化,并利用数据洞察帮助职场人了解机会所在、并指导个人职业发展。基于全球海量数据优势和强大的技术底蕴,领英“一站式职业发展平台”为职场人提供着优质的职场内容和行业洞见,帮助建立活跃的关系网络、进而沉淀出有竞争力的个人人职业品牌,最终助力个人与机会更有效地双向连接。


2019全球车企裁员10万+,这很可能还只是个开始

预期在电气化转型投入至少120亿欧元的宝马,近期投资约51亿元,与长城汽车合资组建新能源品牌光束汽车。据未来汽车日报不完全统计,今年以来,全球头部车企至少已宣布裁员10万人,人数超过2008年金融危机时。宝马则在今年9月向德国媒体透露,将在2022年之前裁员5000-6000人,目标是在2022年前节省120多亿欧元,以应对电气化转型和自动驾驶技术的支出