1. 简介
对于“民科(民间科学家)”,即使没有昂贵的试验设备,是否可能开展科学研究?
答案是肯定的!在本文中,我们提出了一种灵活且低廉的方法来解决生物学问题,该方法非常适合业余科学家。我们充分利用了低成本的图像设备(FoldScope显微镜)、公共图像数据(Kaggle 数据库)和免费的数据分析工具(Kaggle Kernels)。
将来,我们将建立一种解决生物学分类问题的通用框架,并希望这些工作能激励更多的数据科学家公布他们的生物数据库及研究成果。
2. 获取数据
高通量、高精度的显微技术在细胞生物学研究中价值非凡,但该方法对于大多数研究人员而言都是非常昂贵的。万幸的是,新兴的FoldScope显微技术可以大大减小研究费用。
Foldscope 是一款超级便宜的折纸显微镜,通常售价仅为1.5美元,大大的激励了“民科”们对生物学的研究热情。自从面世以来,它已经被广泛应用于各种地方。有人用它研究植物细胞和昆虫幼虫,有人用它检验当地的水质量,有人用它检验药品的真实性,也有人用它检验牛奶的微生物含量。
首先,用折纸显微镜获取细胞图片,可以选择市面上零售的医学玻片,其中含有苏木素染色的蛔虫细胞。显微镜采用500x的镜头,照片采用iPhone5(8x数字镜头)拍摄。采用这种方法,我们可以用非常少的投入就获得了细胞分裂的一系列照片。
3. 分享图片集
利用折纸显微镜,我们获得了90张子宫蛔虫的分裂照片。这些照片连同部分初始代码,并我们分享到了Kaggle上,用以演示我们是如何处理并应用这些数据的。
90张图像的数据集非常有限,因为我们引入了Jurkat细胞数据集,该数据集包含了大量的细胞分裂图像。有了这32000张照片后,我们就可以有效的应用Kaggle Kernel进行复杂的计算分析了。
4. 分析图像数据
深度学习算法在生物医学领域巨大的应用前景,使其备受生物学家的瞩目。比如,深度学习算法可以自动处理乳腺病理图像中的有丝分裂结构,该过程通常需要人工处理,非常耗时。
细胞分裂速率和各分裂阶段耗时的差异是区分健康细胞和癌细胞的重要标识。通常,癌细胞在分裂时会形成错误的有丝分裂构型,并刺激疾病的恶化。因此,研究细胞分裂及其机理,对于抗癌药物的开发有着重要意义。
本文利用图2中的细胞分裂数据集,训练了一个深度学习模型,并用来识别细胞分裂周期。
该研究在Kaggle Kernel上完成,Kaggle Kernel提供了一个免费的云计算平台,非常方便进行模型训练。
在这种新方法下训练的深度学习模型得到的结果,与原始分析结果相当(图4)。有趣的是,这两个模型在识别一些罕见的细胞周期阶段方面仍有优化的空间,但这需要通过扩大数据集来改进。
图4B中的代码是通用的,能够很好地处理不同类型的图像:你可以使用fastai.ImageDataBunch.from_folder()函数加载和处理任何兼容的图像,可以使用fastai.create_cnn()函数自动训练新的模型。
代码语言:javascript复制# Code to generate Figure 4A: https://github.com/theislab/deepflow
# Code to generate Figure 4B: (below)
from fastai import *
from fastai.vision import *
from fastai.callbacks.hooks import *
import numpy as np; import pandas as pd
import matplotlib; import matplotlib.pyplot as plt
img_dir='../input/'; path=Path(img_dir)
data=ImageDataBunch.from_folder(path, train=".",valid_pct=0.3,
ds_tfms=get_transforms(do_flip=True,flip_vert=True,max_rotate=90,max_lighting=0.3),
size=224,bs=64,num_workers=0).normalize(imagenet_stats)
learn=create_cnn(data, models.resnet34, metrics=accuracy, model_dir="/tmp/model/")
learn.fit_one_cycle(10)
interp=ClassificationInterpretation.from_learner(learn)
interp.plot_confusion_matrix(figsize=(10,10), dpi=60)
本项目介绍了一种可应用于细胞数据库,并解决细胞分类问题的通用方法。该方法利用了低廉的医学设备(折纸显微镜)、免费的计算平台(Kaggle Kernel)和公开的算法(Fastai),是一种业余爱好者开展细胞生物学研究的有效途径。你只需利用折纸显微镜拍摄想要的细胞照片,然后将图片添加到已有数据集的对应分类中,并利用Fastai代码进行训练即可获得自己想要的结果。
原文地址:
https://towardsdatascience.com/low-cost-cell-biology-experiments-for-data-scientists-45fab25867b