脑电机器学习数据处理业务

2020-05-11 10:57:51 浏览数 (1)

一、数据质量检查和预处理

数据质量检查包括:检查是否存在坏的导联、Marker信息是否完整、信号是否有过大的波动或漂移等。

数据预处理包括:数据导入(格式转换)、定位电极、滤波、重参考、分段、手工去除伪迹(坏段、坏导联)、伪迹校正(基于ICA去眼电等)。

注:预处理步骤可根据实际实验任务加以调整。

二、EEG基础指标计算

(1)计算ERP波幅。对于事件相关的实验数据,通过叠加平均的方式,计算特定刺激诱发的ERP波幅。

(2)计算功率谱。对于静息态实验数据,通过傅里叶变换,计算各波段(delta ~ gamma)的功率谱密度(PSD)。

(3)计算时频特征。通过短时傅里叶变换(或小波变换),计算时频图(power)。

(4)计算功能连通性(脑网络)。对于静息态实验数据,计算通道之间的功能连通性,所有通道之间的功能连通性可构成脑网络。功能连通性的计算方式可选:相干(Coherence)、相位锁定值(PLV)等。

注:上述内容包含了常见的脑电指标,如果您需要其他指标来构建后续的脑电特征,可以参考我们的脑电数据处理业务(请直接点击以下文字),也可联系我们进行协商:

思影数据处理业务四:EEG/ERP数据处理

三、特征构建与特征筛选

3.1 特征构建

  1. ERP特征。计算感兴趣通道的ERP幅值后,每个时间点的ERP幅值可以作为一个特征。

2. 功率谱特征。计算各区域(或各通道)在每个波段(delta ~ gamma)的功率谱。单一区域(或通道)的某波段的平均绝对/相对功率谱密度(PSD/rPSD),可以作为一个特征。区域的分辨率可调节(如按照10-5、10-20系统选择通道)。

图示.各组别各波段的功率谱密度分布。

3.信息论特征。计算各区域(或各通道)的排列熵,Kolmogorov复杂度等指标,每个区域(或通道)的信息论指标可以作为一个特征。

4.地形图特征。计算时域或频域幅值的地形图,使用地形图或其衍生指标(如GFP,Global Field Power)作为特征。

5.脑网络。将每个通道视为一个节点,节点之间的联系(功能连通性)视为一条连边,每条连边即为一个特征。

图示. 频谱、信息论、功能连通性等多种特征的组合。

6.RQA特征。对于各通道的静息态数据,基于相位空间构建递归图,进行递归量化分析(Recurrence quantification analysis),提取递归率(RR)、决定论(DET)、熵(ENTR)、分层性(LAM)等作为特征。

3.2 特征筛选

1. 相关法。计算每个特征与量表的相关性(如皮尔逊相关),保留相关值高的特征。

2. 参数检验法。对不同组别人群的特征做假设检验(比如对两组人群的特征做双样本T检验),保留通过假设检验的特征。

3. 主成分分析(PCA)法。将所有特征分解成一系列主成分,保留排名靠前的主成分作为特征。

4. 递归特征消除法。循序渐进地删除影响最小的特征,直至保留特定数目的最重要的特征为止。

注:我们可以提供的特征构建、特征筛选方法包括但不限于上述描述,您可以选择其中一种或多种进行组合。

三、机器学习模型

1. K近邻(k-Nearest Neighbor,KNN)。K近邻是一个比较基础的分类算法,该算法计算测试样本与已知样本之间的距离,并将测试样本判定为与其距离最近的类别。

2. 决策树(Decision Tree)。该模型选用一些特征作为决策变量,基于特定的阈值形成决策分支,最终形成树状的决策链条。

3. 支持向量机(SVM)。在许多情况下,支持向量机都是二分类模型的首选。通过使用核函数,即使基于线性不可分的数据,也可获得较好的分类精度。引入投票机制后,亦可将该模型应用于多分类场景。

图示.使用SVM进行训练的过程。

4. 集成学习。当单一的分类器性能不良时,可以考虑集成多个弱分类器,形成一个强分类器。可选的集成学习模型有随机森林等。

图示.随机森林分类过程。

5. 回归模型。回归模型主要用于预测连续变量(如量表得分)。可选的回归模型有线性回归(GLM)、多项式回归等,也包含其变种,如LASSO回归、岭回归、Elastic Net等。

6. 神经网络。当没有良好的手工选择的特征时,可以考虑选用深度神经网络(主要基于CNN来实现)模型。该模型可以自动从原始数据中提取特征,用于后续的预测任务。

图示.一种卷积神经网络架构。

7. 聚类。当数据没有标签时,可以选择无监督学习算法,如K-means聚类。

注:思影可以提供的机器学习模型包括但不限于以上内容。其他模型如朴素贝叶斯(Naive Bayes)、线性判别分析(LDA)、主成分分析(PCA)、或上述模型的变种,亦可根据需求实现。您可以选择其中的一种或多种进行尝试。

一、结果汇报&可视化

结果汇报内容包括:

(1)对于分类模型,可汇报敏感性、特异性、总精度、曲线下面积等精度指标;

(2)对于回归模型,可以汇报相关值、MSE、MAE等精度指标;

(3)置换检验的结果,如p值。

图示.精度结果可视化案例。

图示.ROC曲线可视化。

结果可视化内容包括:

(1)对于分类模型,可绘制ROC曲线图;

(2)对于回归模型,可绘制相关图;

(3)对于模型训练过程中发现的贡献较大的特征,可绘制曲线图、矩阵图、圈状图、地形图等。

图示.频谱特征结果可视化案例。

五、定制化服务

图示.工程师在讨论。

1. 分析方法可定制。思影科技可根据您提供的模板文献,基于您的实验数据,实现文献中使用的数据分析方法。此外,未列出的分析方法,只要在思影科技的能力范围内,尽力实现您的想法。

2. 分析代码可定制。在没有现有的软件适用于您的数据分析需求时,思影科技会与您协商,通过编写代码实现您的想法,并提供代码的完整实现。

3.可视化方案可定制。如果您有特殊的可视化方案要求,也可与我们协商实现。

0 人点赞