1、来源:得到
樊登 | 367 |
---|---|
听书番外篇 | 100 |
熊逸书院 | 81 |
顾衡好书榜 | 56 |
何帆的读书俱乐部 | 51 |
精英日课2 | 42 |
精英日课 | 25 |
精英日课4 | 19 |
精英日课3 | 17 |
吴军·硅谷来信 | 12 |
2、内容粘贴到excel、合并
3、正则表达式提取书名号
代码语言:javascript复制import pandas
import re
from DataRecorder import Recorder # 记录器
采集表 = pandas.read_excel('2022.5.6-得到书单合并.xlsx',sheet_name='总表',header=None)
for 行 in 采集表.values:
全部书名 = re.findall('(?<=《).*?(?=》)',str(行[1]))
if 全部书名!= []:
print(全部书名)
r = Recorder('results.xlsx',50) # 50表示每50条记录写入一次文件
r.add_data((行[0],行[1],全部书名)) # 插入一条数据(也可一次插入多条)
4、excel去重、数据透视
5、计划做一个多书籍点评网站的合集