PaddleNLP通用信息抽取有点强2022.5.18

2022-09-22 11:27:21 浏览数 (1)

1、代码

代码语言:javascript复制
# 实体抽取
from pprint import pprint
from paddlenlp import Taskflow
schema = ['时间', '选手', '赛事名称'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)
pprint(ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!")) # Better print results using pprint

2、结果

代码语言:javascript复制
[{'时间': [{'end': 6, 'probability': 0.9857378532924486, 'start': 0, 'text': '2月8日上午'}],
  '赛事名称': [{'end': 23,'probability': 0.8503089953268272,'start': 6,'text': '北京冬奥会自由式滑雪女子大跳台决赛'}],
  '选手': [{'end': 31,'probability': 0.8981548639781138,'start': 28,'text': '谷爱凌'}]}]

3、网址

https://github.com/PaddlePaddle/PaddleNLP/blob/develop/model_zoo/ernie-3.0/deploy/python/README.md

ERNIE 3.0 Python部署指南

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-3.0

ERNIE 3.0 轻量级模型

https://github.com/PaddlePaddle/PaddleNLP/blob/develop/README_cn.md

@@@PaddleNLP

https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/model_zoo/taskflow.md

PaddleNLP一键预测功能:Taskflow API

https://aistudio.baidu.com/aistudio/projectdetail/4036930?forkThirdPart=1

@@@三行代码,一键预测:开放域信息抽取,还有更多NLP场景能力_副本

https://aistudio.baidu.com/aistudio/education/lessonvideo/2445602

三行代码即可完成一键预测 @实战视频教程

4、

代码语言:javascript复制
# 实体抽取
from pprint import pprint
from paddlenlp import Taskflow
schema = ['时间', '地区', '金额', '网址', 'https', '实付', '链接', '商品名称'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)

pprint(ie("先领50-2全品券
https://u.jd.com/EMRogAI
再领66-44券
http://coupon.m.jd.com/coupons/show.action?key=22f2e3a61910421c8e0467a1292e46a9&roleId=75838176&to=mall.jd.com/index-11646053.html
金冠  蜜饯果干芒果片80g/袋
https://u.jd.com/ECRonkB
拍4件,实付21.6元,折5.4/件"))

5、

代码语言:javascript复制
[{'商品名称': [{'end': 182,
            'probability': 0.3555175847832004,
            'start': 171,
            'text': '金冠  蜜饯果干芒果片'}],
  '实付': [{'end': 222,
          'probability': 0.9918931892368619,
          'start': 217,
          'text': '21.6元'}],
  '金额': [{'end': 222,
          'probability': 0.9058667298034564,
          'start': 217,
          'text': '21.6元'}]}]

6、安装库遇到一点小问题

代码语言:javascript复制
# 首次更新完以后,重启后方能生效 
!pip install --upgrade paddlenlp
!pip install pypinyin
!pip install LAC

用
!pip3 install --upgrade paddlenlp

6、需要下载450MB的训练集

0 人点赞