宜远智能CEO吴博:医学影像的数据标注、算法方法与算力优化

2026-03-12 15:30:00
miadmin
原创
11

雷锋网AI掘金志《改日医疗大课堂——医学影像专题》第四期总结文:一个只给医疗AI从业者、影像科医师、名校师生、CFDA职业职员看的系列课程。

注:90分钟的视频音讯量庞大,作品仅为冰山一角,激烈提倡旁观完美版视频(含57页PPT),请点击链接:

他指出,医疗数据的代价评估与钻石好像,可能从数据质地、同漫衍原因的影像数据尺寸和数据标注水准这三大维度来考察。没有经由标注的数据就像未经加工的原石,无法外现其代价,以是数据标注是AI医学影像落地进程中至合紧要的一环。

吴博对数据标注器械实行了分类,并分享了自身正在斥地数据标注器械方面的心得。他指出,通过自筑器械可能更好地知足项目饱动进程中的用户办理、权限办理、众人合营审核,以及模子迭代标注安排等需求。

数据层面,企业能做的决议不众,只可“看菜用饭”,但正在算力层面,企业有许众的遴选,例如遴选什么样的框架,遴选品牌装备如故DIY装备,遴选云供职如故自筑机房等。正在课程的结果片面,吴博周密先容了很众选型决议和算力优化方面的技能。

学术配景:吴博先后正在清华大学、香港浸会大学修业,并正在英邦利兹大学落成博士后,师从预备机视觉专家唐远炎老师等人。与此同时,他也正在ICML/ACL等顶级聚会发布众篇人工智能论文。

工业界体味:2017年创立医疗AI公司:宜远智能,该公司咸集了20众名流工智能博士以及浩瀚海外里医学照顾,为医疗壮健范畴供应AI巩固办理计划,并与众家著名病院告终合营,并推出成型产物。

创立宜远智能之前,吴博曾正在爱立信大数据斟酌院任职。还主导过百亿级虚拟品电商、数字钱币编制的生意及数据架构兴办与运营。

医疗人工智能征战正在海量数据的根基之上,但优质的医疗数据相等稀缺,其代价随之凸显。奈何精确评估数据的代价,是医师和投资人出格合怀的话题,对此业内尚未酿成共鸣。

吴博以为,医疗数据可能类比为钻石。钻石的代价评估对应着颜色、净度、切工和克拉这四个维度,医疗数据也可这样类比。

颜色越纯、净度越高的钻石,代价也就越高。看待医学影像数据来说,它的代价也取决于其洁净、标准、明了和准绳化的水准。假如是从胶片、PACS编制和诊断陈述中翻拍而来的数据,肯定会包罗极少杂质,其代价将大打扣头。吴博指出,高质地的数据需倘使Raw Data,例如mhd款式的DICOM影像和openslide病理图像。

钻石单颗克拉数越高,代价也就越大。吴博以为,钻石的克拉数可类比同漫衍原因的影像数据尺寸。所谓同漫衍原因的影像数据,对CT来说即是来自统一装备的,参数和曝光强度都相通的影像数据;对病理图像来说,则指采用统一染色门径和色度、统一扫描仪及倍数,以及相通存储款式的影像数据。

固然AI企业的最终目的是斥地出一套通用性强的算法,能通吃各类数据;但行为数据资产方,同漫衍同原因的影像数据范畴越大,其代价就越高。

有些病院固然具有巨额数据,但它们来自差别的科室,款式也不尽相通,这种数据的代价是要打极少扣头的。

钻石成为商品前必要经由切割等加工,医疗数据同样要经由标注等惩罚才干开释其代价。钻石的切割工艺分为很众个层级,医疗影像数据的标注亦是这样。从根基的种别标注到种别+病灶方框标注,再到种别+像素级勾勒,标注的细密度逐级擢升,数据的代价亦水涨船高。

吴博将标注器械划分成了三大种别,他将最根基的一类称作“pc+文献夹惩罚”,即让医师正在pc和职业站上对数据实行分拣。看待医师来说,专业的数据标注软件有必定的练习本钱,原始的分拣惩罚省略了练习本钱,并且往往行之有用,还具有不受汇集影响、平和性较上等所长。不敷之处则正在于,对后期的数据洗涤哀求更高,并且进程繁杂,相等花费人工物力。

更高阶的有专用IT编制和器械,包罗第三方器械和自筑器械。以MIT 的 Pascal VOC 准绳标注器械 labelImg为代外的第三方器械固然性能壮健,但正在通用性和圆活性方面又有所毛病,以是企业往往不得不斥地极少自筑器械。

宜远智能正在斥地数据标注器械方面积聚了很众心得。吴博指出,通过自筑器械可能更好地知足项目饱动进程中的用户办理、权限办理、众人合营审核,以及模子迭代标注安排等需求。

特别是正在医学影像范畴,标注的数据人人为图片,自然具备便于揭示的所长,以是可能本着简单易用的法则采用H5的canvas来打算标注器械,同时集合css3的变换,知足图像缩放、标注的需求。标注职员只需翻开浏览器即可标注,无需杂乱软件布置。

鉴于有些标注图片太大(例如一例CT数据众达几十以至上百兆,一例病理数据有可以众达1G),汇集传输服从低下,有岁月必要对标注数据做当地惩罚。小的项目可能采用数据当地化的体例,运用fiddler等代庖软件将汇集图片央求代庖到当地。大的项目则可能做内网的漫衍式布置,将标注编制布置正在内网供职器上,由标注职员正在内网实行标注。

基于这些自筑器械,标注职员可能按照需求遴选当地标注或正在线标注,操作聚积于鼠标,交互出格友谊。标注职员可按照差别标注需求绘制点/线/框,无需杂乱配置,翻开浏览器即可标注,也可能分明看到哪些已标哪些未标。

跟着本事起色,数据标注自己也发现出了AI化的趋向。例如基于以往的标注,可能通过AI模子对数据实行预惩罚,然后由标注职员正在此根基上做极少校正。

吴博以为,算力优化素质上是跟预算做斗争,由于任何一家企业的预算和资源都是有限的,务必做许众的决议,要有所选择。

数据层面,企业能做的决议不众,只可“看菜用饭”,有众少数据就做众大的事。但正在算力层面,企业有许众的遴选,例如遴选什么样的框架,遴选品牌装备如故DIY装备,遴选云供职如故自筑机房等。

就框架而言,Intel CPU + Nvidia GPU的框架是目前为止的首选,极端是正在必要做模子锻练的景况下。但企业也可能按照自己需求遴选其他框架,例如IBM系统的Power CPU + Nvidia GPU框架,本能也很优异,正在CPU与CPU、CPU与GPU、GPU与GPU之间都可能供应出格精华的带宽接济,组成对照高端办理计划。

并且为了追逐Intel CPU + Nvidia GPU的框架,Power CPU + Nvidia GPU供应了许众扶植谋划。看待研发团队来说,插手它们的foundation取得算力上的接济是个不错的遴选。并且Power和海潮的合营出格周密,这意味着它的邦产化将不可题目。

别的,又有Intel CPU、Intel + ASIC、FPGA等众种框架,它们各有优差池,企业可能视自己景况作出遴选。

雷锋网AI掘金志线上直播了结后,学员从差别维度提出了18个题目,吴博对众半题目实行了耐心解答。

1.众疾病分类的岁月,针对紧要不屈衡的数据,除了过采样以外,又有没有算法层面的冲破?紧要不屈衡的数据聚集会不会形成分类时baseline担心宁?

文章分类
联系我们
联系人: 王先生
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号