一个可扩展的深度属性图聚类的统一代码框架

:watermelon: 概述

我在ADGC的基础上重构了代码，让深度聚类的代码实现了更高的统一。具体来说，我重新设计了代码的架构，让你可以在我的框架中轻松运行不同模型的代码，并且提升了可扩展性。此外，我定义了一些工具类和函数来简化代码并使一些配置更加清晰。

该项目的框架如下：

:page_with_curl: main.py: 该框架的程序入口文件。
:page_with_curl: requirements.txt: 需要被安装的第三方库环境。
:file_folder: dataset: 该目录包含你所需要的数据集，其中子目录用数据集名称命名，存放的文件为特征文件、标签文件和邻接矩阵文件，分别命名为 {数据集名}_feat.npy、 {数据集名}_label.npy 和 {数据集名}_adj.npy, 例如 acm_feat.npy、 acm_label.npy 和 acm_adj.npy。此外，该目录还包含一个dataset_info.py文件，其中存放了数据集的相关信息。
:file_folder: module: 该目录包含了模型最常用的基础模块，例如自动编码器（AE.py）、图卷积层（GCN.py）、图注意力层（GAT.py）等。
:file_folder: model: 该目录包含你想要运行的模型。目录格式为：子目录是以模型名称的大写字母命名的，其中包含两个文件，分别是model.py用于存储模型类，train.py用于训练模型。我们的框架会根据输出模型的名称，自动导入模型对应的训练模块。此外，预训练模型也存放在这里，并且目录格式为： pretrain_{模块名}_for_{模型名}，该目录是完全小写的，其中存放一个train.py文件。例如，如果你想要预训练SDCN中的AE模块，你可以将其命名为pretrain_ae_for_ sdcn，存放在model中，其中只有一个train.py文件即可。其中, model.py文件和train.py文件可以根据template目录中提供的模板进行编写，explanation.txt文件提供了argparse所具有的属性，你可以根据自己的需要使用它们。
:hammer_and_wrench: utils: 该目录包括一些工具类和函数。
- :floppy_disk: load_data.py: 它包含加载用于训练的数据集的相关函数。
- data_processor.py: 它包含数据存储类型转换以及其他变换的函数，例如numpy转torch、对称归一化等。
- ~~calculator.py: 它包含计算均值和标准差的函数。~~ 该文件已经合并到utils.py中。
- :bar_chart: evalution.py: 它包含计算聚类指标的函数，例如ACC、NMI、ARI和F1_score。
- ~~formatter.py: 它包含对输入变量进行格式化输出的函数。~~ 该文件已经合并到utils.py中。
- :page_with_curl: logger.py: 它包含一个用于输出日志信息的日志类。
- ~~parameter_counter.py: 它包含统计模型参数量的函数。~~ 该文件已经合并到utils.py中。
- :file_folder: path_manager.py: 它包含根据需要将相对路径转化为绝对路径的函数。当然，如果不需要转换，也需要调用这个函数，因为该函数可以配置一些文件存储路径，例如日志存储路径、预训练参数文件存储路径、聚类可视化图像存储路径等。
- plot.py: 它包含一个绘制聚类TSNE可视化以及保存图像的函数。稍后也会开发特征热图的图像绘制函数。
- :stopwatch: time_manager.py: 它包含一个用于记录模型耗时的时间类以及一个格式化时间的函数。
- :game_die: rand.py: 它包含设置随机数种子的函数。
- :hammer_and_wrench: utils.py: 它包含来自之前的文件中的工具函数，如来自formatter.py中的get_format_variables()。
- :gear: options.py: 它包含argparse对象。用于在命令行输入参数。
- :dash: kmeans_gpu.py: 它包含经GPU加速的Kmeans算法，来自HSAN。
:file_folder: logs: 该目录用于存储日志输出文件，它的子目录用模型名称命名，日志文件用模型启动时间命名。
:file_folder: pretrain: 该目录用于存储预训练参数文件，它的子目录用pretrain_{模块名}命名，用数据集命名的参数文件存放在以模型名命名的目录下。
:framed_picture: img: 该目录用于存储输出的图像，其子目录为clustering和heatmap。

:strawberry: 快速上手

在将该项目克隆到本地后，可以根据以下步骤进行运行：

:airplane: 步骤1：检查环境或者直接运行requirements.txt安装第三方库。

代码语言：javascript复制

pip install -r requirements.txt

:airplane: 步骤2：准备数据集。如果你没有我们代码所需要的格式的数据集，可以在Liu的仓库中下载。 [yueliu1999 | Google Drive | Nutstore] 。然后将其解压放到dataset目录中。

:airplane: 步骤3：在命令行中进入main.py所在目录，并用python运行main.py文件。如果是在集成开发环境中可以直接运行main.py文件。

:star: 样例

例1

以训练DAEGC为例：

我们需要先预训练GAT模块：

代码语言：javascript复制

python main.py --pretrain --model pretrain_gat_for_daegc --dataset acm  --t 2 --desc pretrain_the_GAT_for_DAEGC_on_acm
# or the simplified command:
python main.py -P -M pretrain_gat_for_daegc -D acm -T 2 -DS pretrain_the_GAT_for_DAEGC_on_acm

然后训练DAEGC：

代码语言：javascript复制

python main.py --model DAEGC --dataset cora --t 2 --desc Train_DAEGC_1_iteration_on_the_ACM_dataset
# or the simplified command:
python main.py -M DAEGC -D cora -T 2 -DS Train_DAEGC_1_iteration_on_the_ACM_dataset

例2

以训练SDCN为例：

我们需要先预训练AE模块：

代码语言：javascript复制

python main.py --pretrain --model pretrain_ae_for_sdcn --dataset acm --desc pretrain_ae_for_SDCN_on_acm
# or simplified command:
python main.py -P -M pretrain_ae_for_sdcn -D acm -DS pretrain_ae_for_SDCN_on_acm

然后训练SDCN：

代码语言：javascript复制

python main.py --model SDCN --dataset acm --norm --desc Train_SDCN_1_iteration_on_the_ACM_dataset
# or simplified command:
python main.py -M SDCN -D acm -N  -DS Train_SDCN_1_iteration_on_the_ACM_dataset

:airplane: 步骤4：如果你成功运行代码，并且觉得该项目不错，给个:star:鼓励一下！:wink:

:unlock: 目前支持的模型

No.	Model	Paper	Analysis	Source Code
1	DAEGC	《Attributed Graph Clustering: A Deep Attentional Embedding Approach》	论文阅读02	link
2	SDCN	《Structural Deep Clustering Network》	论文阅读03	link
3	AGCN	《Attention-driven Graph Clustering Network》	论文阅读04	link
4	EFR-DGC	《Deep Graph clustering with enhanced feature representations for community detection》	论文阅读12	link
5	GCAE	:exclamation: In fact, it's GAE with GCN.	-	-
6	DFCN	《Deep Fusion Clustering Network》	论文阅读09	link
7	HSAN	《Hard Sample Aware Network for Contrastive Deep Graph Clustering》	-	link
8	DCRN	《Deep Graph Clustering via Dual Correlation Reduction》	-	link
9	CCGC	《Cluster-guided Contrastive Graph Clustering Network》	-	link
10	AGC-DRR	《Attributed Graph Clustering with Dual Redundancy Reduction》	-	link

:exclamation: Attention

根据论文，DFCN 的训练过程分为三个阶段。首先，分别预训练 ae 和 igae 也就是我们代码中的 pretrain_ae_for_dfcn 和 pretrain_igae_for_dfcn 30 个 epoch。其次，同时对 ae 和 igae 进行 100 个 epoch 的预训练，也就是 pretrain_both_for_dfcn。最后，正式预训练 DFCN 至少 200 个 epoch。
HSAN 不需要进行预训练。

之后我会陆续更新其他模型代码。如果你很喜欢我的框架并希望让它更强大，可随时提交你的代码。

:robot: 运行命令

:alien: DAEGC

代码语言：javascript复制

# 预训练
python main.py -P -M pretrain_gat_for_daegc -D acm -T 2 -DS balabala -LS 1
# train
python main.py -M DAEGC -D acm -T 2 -DS balabala -LS 1 -TS -H

:alien: SDCN

代码语言：javascript复制

# 预训练
python main.py -P -M pretrain_ae_for_sdcn -D acm -DS balabala -LS 1
# 训练
python main.py -M SDCN -D acm -N -DS balabala -LS 1 -TS -H

:alien: AGCN

代码语言：javascript复制

# 预训练
python main.py -P -M pretrain_ae_for_agcn -D acm -DS balabala -LS 1
# 训练
python main.py -M AGCN -D acm -N -DS balabala -LS 1 -TS -H

:alien: EFR-DGC

代码语言：javascript复制

# 预训练
python main.py -P -M pretrain_ae_for_efrdgc -D acm -DS balabala -LS 1
python main.py -P -M pretrain_gat_for_efrdgc -D acm -T 2 -DS balabala -LS 1
# 训练
python main.py -M EFRDGC -D acm -T 2 -DS balabala -LS 1 -TS -H

:alien: GCAE

代码语言：javascript复制

# 预训练
python main.py -P -M pretrain_gae_for_gcae -D acm -N -DS balabala -LS 1
# 训练
python main.py -M GCAE -D acm -N -DS balabala -LS 1 -TS -H

:alien: DFCN

代码语言：javascript复制

# 预训练。依次执行以下命令。
python main.py -P -M pretrain_ae_for_dfcn -D acm -DS balabala -LS 1
python main.py -P -M pretrain_igae_for_dfcn -D acm -N -DS balabala -LS 1
python main.py -P -M pretrain_both_for_dfcn -D acm -N -DS balabala -LS 1
# 训练
python main.py -M DFCN -D acm -N -DS balabala -LS 1 -TS -H

:alien: HSAN

代码语言：javascript复制

# 训练
python main.py -M HSAN -D cora -SLF -A npy -F npy -DS balabala -LS 1 -TS

:alien: DCRN

代码语言：javascript复制

# pretrain. Execute the following commands in sequence.
python main.py -P -M pretrain_ae_for_dcrn -D acm -S 1 -DS balabala -LS 1
python main.py -P -M pretrain_igae_for_dcrn -D acm -N -SF -S 1 -DS balabala -LS 1
python main.py -P -M pretrain_both_for_dcrn -D acm -N -SF -S 1 -DS balabala -LS 1
# train
python main.py -M DCRN -D acm -SLF -A npy -S 3 -DS balabala -LS 1 -TS -H

:alien: CCGC

代码语言：javascript复制

python main.py -M CCGC -D acm -SLF -SF -A npy -S 0 -LS 1 -DS balabala

:alien: AGC-DRR

代码语言：javascript复制

python main.py -M AGCDRR -D acm -F npy -S 0 -LS 1 -DS balabala

:orange: 进阶

:exclamation: 可选参数

:wine_glass: 帮助文档

代码语言：javascript复制

> python main.py --help
usage: main.py [-h] [-P] [-TS] [-H] [-N] [-SLF] [-SF] [-DS DESC]
               [-M MODEL_NAME] [-D DATASET_NAME] [-R ROOT] [-K K] [-T T]
               [-LS LOOPS] [-F {tensor,npy}] [-L {tensor,npy}]
               [-A {tensor,npy}] [-S SEED]

Scalable Unified Framework of Deep Graph Clustering

optional arguments:
  -h, --help            show this help message and exit
  -P, --pretrain        Whether to pretrain. Using '-P' to pretrain.
  -TS, --tsne           Whether to draw the clustering tsne image. Using '-TS'
                        to draw clustering TSNE.
  -H, --heatmap         Whether to draw the embedding heatmap. Using '-H' to
                        draw embedding heatmap.
  -N, --norm            Whether to normalize the adj, default is False. Using
                        '-N' to load adj with normalization.
  -SLF, --self_loop_false
                        Whether the adj has self-loop, default is True. Using
                        '-SLF' to load adj without self-loop.
  -SF, --symmetric_false
                        Whether the normalization type is symmetric. Using
                        '-SF' to load asymmetric adj.
  -DS DESC, --desc DESC
                        The description of this experiment.
  -M MODEL_NAME, --model MODEL_NAME
                        The model you want to run.
  -D DATASET_NAME, --dataset DATASET_NAME
                        The dataset you want to use.
  -R ROOT, --root ROOT  Input root path to switch relative path to absolute.
  -K K, --k K           The k of KNN.
  -T T, --t T           The order in GAT. 'None' denotes don't calculate the
                        matrix M.
  -LS LOOPS, --loops LOOPS
                        The Number of training rounds.
  -F {tensor,npy}, --feature {tensor,npy}
                        The datatype of feature. 'tenor' and 'npy' are
                        available.
  -L {tensor,npy}, --label {tensor,npy}
                        The datatype of label. 'tenor' and 'npy' are
                        available.
  -A {tensor,npy}, --adj {tensor,npy}
                        The datatype of adj. 'tenor' and 'npy' are available.
  -S SEED, --seed SEED  The random seed. The default value is 0.

:tropical_drink: 细节

以下是可修改的argparse参数的细节：

标记	参数	短选项	描述	类型/动作	默认值
1	--pretrain	-P	是否是预训练，如果是请使用’--pretrain‘或'-P'	"store_true"	False
2	--tsne	-TS	如果需要绘制聚类TSNE图像，请使用'--tsne'或'-TS'	"store_true"	False
2	--heatmap	-H	如果需要绘制嵌入热力图，请使用’--heatmap‘或'-H'	"store_true"	False
1	--norm	-N	是否归一化邻接矩阵，默认不归一化。如果用GAT则不需要归一化，GCN需要。如果同时用了以上两个，建议先获得没有归一化的邻接矩阵，	"store_true"	False
3	--self_loop_false	-SLF	邻接矩阵是否带有自环，默认是有的。使用'--self_loop_false'或'-SLF'取消自环。	"store_false"	True
3	--symmetric_false	-SF	归一化采用对称归一化还是非对称，默认对称。使用'--symmetric_false'或'-SF'取消对称。	"store_false"	True
1	--model	-M	需要训练的模型，应与模型文件夹中名称对应。	str	"SDCN"
1	--dataset	-D	需要训练的数据集，应与数据集文件夹中名称对应。	str	"acm"
3	--k	-K	用于区别图数据和非图数据，图数据为None，非图数据应设置KNN的k值。	int	None
3	--t	-T	GAT中的M矩阵的t值，默认为None，表示不使用。如果模型需要用到M，请设置t的值。	int	None
1	--loops	-LS	模型训练轮数，默认只训练1轮。	int	1
1	--root	-R	默认使用相对路径，如果需要将相对路径改为绝对路径，请将该值设置为根路径，结尾不包含'/'。	str	None
4	--desc	-DS	本次实验的描述。注意描述不应包含空格，如需空格，请用符号替代空格，如'_'，'@'	str	"default"
3	--feature	-F	属性特征加载时的数据类型，可以是'tensor'或'npy'，默认是'tensor'	str	"tensor"
3	--label	-L	标签数据加载时的数据类型，可以是'tensor'或'npy'，默认是'npy'	str	"npy"
3	--adj	-A	邻接矩阵加载时的数据类型，可以是'tensor'或'npy'，默认是'tensor'	str	"tensor"
1	--seed	-S	The random seed. It is 0 if not specified.	int	0

提示：

用1标记参数通常是需要指定的
用2标记的是绘制图像的功能
用3标记的通常和数据加载相关
用4标记的是作者推荐的用于记录实验描述的参数

:satellite: 可扩展性

强大的可扩展性是该框架的一个突出特点。如果你想在这个框架中运行你自己的代码，你可以按照以下步骤操作：

扩展模型

:airplane: 步骤1: 使用Pytorch重写model.py文件和train.py文件，我们在template目录下提供了模板，然后将这两个文件放在以模型名称大写字母命名的目录下，最后放到model目录下。

:airplane: 步骤2: 如果你的模型中包含需要预训练的模块，请编写预训练代码，将其放到train.py文件里，然后将train.py文件放到一个以pretrain_{模块名(小写)}_for_{模型名(小写)}的目录下，然后同样放到model目录下。template中也提供了相应的模板。

此外，在编写代码过程中，如果遇到一些参数是可变的，可参考explanation.txt文件中提供的argparse对象的属性，或者在train.py中直接定义argparse对象的属性并赋初值，而不需要修改options.py文件。

:airplane: 步骤3: 修改path_manager.py文件第38行中的pretrain_type_dict变量，将你的模型中需要预训练的部分加到其中，具体格式可以参照已经写好的其他模型的预训练部分。注意，要把模型所有需要预训练的部分都写到其中，如果没有，请将列表设置为空而不能删除，因为后面的代码要判断是何种类型的预训练，如果是空的则表示不需要预训练，这一点很重要，否则代码不能正常运行。同时，注意检查你的预训练类型是否在if-else语句中，如果不在，请手动添加。

:airplane: 步骤4: 运行你的代码！

扩展数据集

:airplane: 步骤1: 确保你的数据集是处理过的，并且是用.npy文件存储的numpy数组。如果扩展的数据集是图数据，则需要三个文件，分别是：{dataset name}_feat.npy、{dataset name}_label.npy、{dataset name}_adj.npy。如果扩展的数据集是非图数据，有两种扩展方法。第一种是将该数据集作为非图数据集，只需要两个文件，分别是：{dataset name}_feat.npy、{dataset name}_label.npy，此外，还需要在load_data.py的第167行中添加构造图的方式，如果该方式不存在，还需要在data_processor.py的construct_graph函数中手动添加该方式。另一种扩展方法是，手动进行KNN，然后将图保存为{dataset name}_adj.npy，将其当作图数据加到数据集中。

:airplane: 步骤2: 将数据文件放入以数据集名称小写字母命名的目录下，然后放到dataset目录下。

:airplane: 步骤3: 无论是什么数据集，无论是哪种方式，都别忘记在data_info.py文件中添加数据集的信息，否则程序会运行错误。

:airplane: 步骤4: 使用你的数据集！

:apple: 结束语

图深度聚类目前正处于快速发展阶段，在未来会有更多的图聚类方法被提出，因而提供一个统一的代码框架，可以节省研究人员的编码和实验时间，而将更多的精力放在理论创新上，相信未来图聚类会达到更高的水平。

最后，如果该仓库对你有帮助，别忘了Star~。

函数框架论文模型数据

0 人点赞

一个可扩展的深度属性图聚类的统一代码框架

:watermelon: 概述

:strawberry: 快速上手

:star: 样例

例1

例2

:unlock: 目前支持的模型

:robot: 运行命令

:alien: ​DAEGC

:alien: ​SDCN

:alien: ​AGCN

:alien: ​EFR-DGC

:alien: ​GCAE

:alien: ​DFCN

:alien: HSAN

:alien: DCRN

:alien: CCGC

:alien: AGC-DRR

:orange: 进阶

:exclamation: 可选参数

:wine_glass: 帮助文档

:tropical_drink: 细节

:satellite: 可扩展性

扩展模型

扩展数据集

:apple: 结束语

:alien: DAEGC

:alien: SDCN

:alien: AGCN

:alien: EFR-DGC

:alien: GCAE

:alien: DFCN