微信的商城捡漏群有没有漏2022.5.20

2022-09-22 11:27:50 浏览数 (1)

0、大钱没有,看看漏能不能有。

1、知乎上、快递单加了一些京东、天猫的捡漏群

2、采集了3天,3530条数据

3、看词云

4、把商品内容识别为商品类型

代码语言:javascript复制
from DrissionPage import MixPage
import pandas
from DataRecorder import Recorder  # 记录器
from time import sleep
from pprint import pprint
from paddlenlp import Taskflow

#schema = ['金额', '商品名称', '品牌', '规格', '价格','商品类型','折扣'] # Define the schema for entity extraction
#ie = Taskflow('information_extraction', schema=schema)

商品类型表 = pandas.read_excel(r'C:UsersAdministratorDesktop商品类型.xlsx',sheet_name='Sheet1',header=0)
#p = MixPage('s')
采集表 = pandas.read_excel(r'C:UsersAdministratorDesktop2022.5.20.xlsx',sheet_name='数据清洗',header=None)  #,header=0, nrows=200
r = Recorder('2022.5.20-商品数据清洗-2.xlsx', 1)
for 行 in 采集表.values:
#    sleep(2)
#    print('-'*80)
#    print(行[2])
    本商品类型 = ''
    for 商品类型 in 商品类型表.values:
#        print(商品类型[0])
        if 商品类型[0] in 行[2]:
#            print(行[2],'--------------------',商品类型[0])
            本商品类型 = 商品类型[0]
#    r = Recorder('2022.5.20-商品数据清洗.xlsx', 50)  # 50表示每50条记录写入一次文件
    r.add_data((行[0],行[1],行[2],行[3],本商品类型))

5、都有哪些优惠的商品?

6、0.01元

7、下一步,手动计算价格?

8、清洗品牌、商品名称、金额

代码语言:javascript复制
from DrissionPage import MixPage
import pandas
from DataRecorder import Recorder  # 记录器
from time import sleep
from pprint import pprint
from paddlenlp import Taskflow

schema = ['金额', '商品名称', '品牌', '规格', '价格','商品类型','折扣'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)


#p = MixPage('s')
采集表 = pandas.read_excel(r'C:UsersAdministratorDesktop电商大数据2022.5.202022.5.20.xlsx',sheet_name='数据清洗',header=0, nrows=3)  #
for 行 in 采集表.values:
#    sleep(2)
    print('-'*80)
    print(行[2])
    pprint(ie(行[2]))

9、

0 人点赞