AI读书2023.5.6

2023-08-16 20:44:42 浏览数 (2)

1、我想做一个Python软件,gui界面,读取TXT文件,按照章节拆分内容,将内容上传到openai的gpt,让AI总结文字的概要,传回来,把每个章节的概要再合并为一个TXT。如何架构好,写一个伪代码。

代码语言:javascript复制
# 导入所需库
import os
import tkinter as tk
from tkinter import filedialog
import openai

# 初始化OpenAI API
def init_openai_api(api_key):
    openai.api_key = api_key

# 读取TXT文件
def read_txt_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        content = file.read()
    return content

# 按章节拆分内容
def split_content_by_chapter(content):
    chapters = content.split("章节分隔符")  # 替换为实际的章节分隔符
    return chapters

# 使用OpenAI GPT生成摘要
def generate_summary(chapter):
    response = openai.Completion.create(
        engine="davinci-codex",
        prompt=f"请为以下内容生成摘要:n{chapter}",
        max_tokens=50,
        n=1,
        stop=None,
        temperature=0.5,
    )
    summary = response.choices[0].text.strip()
    return summary

# 将摘要合并为一个TXT文件
def merge_summaries_to_txt(summaries, output_file_path):
    with open(output_file_path, 'w', encoding='utf-8') as file:
        for summary in summaries:
            file.write(summary   'nn')

# 主函数
def main():
    # 初始化OpenAI API
    init_openai_api("your_api_key")

    # 创建GUI界面
    root = tk.Tk()
    root.withdraw()
    file_path = filedialog.askopenfilename(filetypes=[("Text files", "*.txt")])

    # 读取TXT文件
    content = read_txt_file(file_path)

    # 按章节拆分内容
    chapters = split_content_by_chapter(content)

    # 生成摘要
    summaries = []
    for chapter in chapters:
        summary = generate_summary(chapter)
        summaries.append(summary)

    # 将摘要合并为一个TXT文件
    output_file_path = os.path.splitext(file_path)[0]   "_summaries.txt"
    merge_summaries_to_txt(summaries, output_file_path)

if __name__ == "__main__":
    main()

2、重新写一个python程序。功能是读取一个word文件,拆分文件每次传输1千字,获取文字的概要,保存在excel文件中

代码语言:javascript复制
# -*- coding: utf-8 -*-
"""
Created on Tue May 16 16:12:17 2023

@author: Administrator
"""
import requests
import pandas as pd
from docx import Document

# Step 1: 读取Word文件
document = Document('【R083】前沿课吴军讲GPT12讲全).docx')
text = ''
for para in document.paragraphs:
    text  = para.text

# Step 2: 拆分文件每次传输1000个字
chunks = [text[i:i 1000] for i in range(0, len(text), 1000)]

# Step 3: 获取文字概要并保存在列表中
url = 'https://api.zhishuyun.com/chatgpt?token=6b41b59cd66c30e1ae5a0d'
headers = {
    'accept': 'application/json',
    'content-type': 'application/json'
}
result_list = []




for chunk in chunks:
    chunk  = "归纳文本概要:"
    payload = {
        'question': chunk,
        'retry_times': 2
    }
    response = requests.post(url, json=payload, headers=headers)
    print(response.text)
    result_list.append(response.text)

# Step 4: 将结果保存到Excel文件中
df = pd.DataFrame({'result': result_list})
df.to_excel('result.xlsx', index=False)

3、4万字压缩为4千字

代码语言:javascript复制
{"answer":"ChatGPT是一个基于深度学习算法训练的语言模型,它的发展源于语言模型的历史,是一个被神化的语言模型的衍生品。"}
{"answer":"ChatGPT是一种语言模型,基于深度学习技术,能够生成自然语言文本。"}
{"answer":"听懂科学原理需要耐心和动脑筋,而不是追求快速结论或行动指南。这门课程将让你了解ChatGPT及类似产品的原理和能力,不是商业机会的课程。听完课后,你会像哥伦布一样,能够理解ChatGPT的能力和局限性,而不是盲目跟风。"}
{"answer":"自然语言处理的发展历程。"}
{"answer":"计算机的语言能力越来越强大,可以回答更多复杂的问题,甚至能够写作。"}
{"answer":"计算机写作水平越来越高,但仍有改进空间。编程训练语言模型可写唐诗,但需加入更多信息。ChatGPT能做更多事,但其发展也是科技顺理成章的结果。Google早在三年前就能做类似产品,但有法律问题。"}
{"answer":"ChatGPT是一个自然语言处理系统,能够理解和产生自然语言的文本。它的表现在产生内容方面不稳定,需要依赖好的训练数据和格式。"}
{"answer":"本文主要讲述了ChatGPT的底层技术——语言模型,以及语言模型的概念和作用。同时,强调了新技术往往不神秘,很多爆红的产品和服务使用的技术都是半个世纪之前的。"}
{"answer":"贾里尼克选择语音识别这个课题是因为语音识别是一个历史悠久、具有挑战性的问题,而且在过去的二十多年里,尽管已经有人在研究语音识别,但仍然没有取得重大突破。贾里尼克的独特视角是将语音识别看作一种通信问题,因为在通信中,信息源产生的原始信息需要经过编码和解码才能被正确接收。同样地,在语音识别中,人们的语音需要被编码成计算机可以理解的形式,然后计算机才能将其解码成正确的文字。因此,贾里尼克的数学背景使他能够将语音识别问题转化为数学模型,并从通信的角度来解决这个问题。"}
{"answer":"这段文字介绍了语言模型的基本原理和发展历程。语言模型通过统计大量文本中每个词出现的概率来预测下一个词的可能性,从而生成连贯的语句。随着技术的不断进步,语言模型的上下文信息和准确性也不断提高,使得生成的语句越来越接近自然语言表达。"}
{"answer":"语言模型是通过大量的文本数据训练出来的,可以预测一个单词或者一句话在上下文中出现的概率。为了提高模型的准确性,需要增加数据量并保证数据质量。利用语言模型写唐诗的方法是将诗句拆分成“2-3”或者“2-2-3”组合,以两个或三个字作为统计单元进行统计,然后根据每个词的语义进行归类,写出符合同一个主题的诗句。类似地,可以让计算机写每周汇报,因为这类文章几乎都遵循固定的模版。"}
{"answer":"本文讲述了语言模型的发展历程和自然语言处理的要点,介绍了语音识别的早期阶段和 IBM 的语音识别系统的进步,以及李开复利用该方法实现语音识别系统的经历。下一讲将继续探讨语言模型的发展和其对人工智能的影响。"}
{"answer":"本文讲述了语言模型的发展历程,从最初的语音识别到机器翻译,再到加入语法和语义信息提高模型能力。其中介绍了彼得·布朗的翻译系统和他的后续发展。"}
{"answer":"语言模型越来越复杂,加入更多信息需要更大的计算量,但计算能力的提升跟不上。自适应语言模型可以根据用户输入不断迭代优化,但需要大量存储空间。ChatGPT也有这个功能,可以学习用户的行文习惯,但如果输入垃圾信息,输出的文本质量会下降。"}
{"answer":"语言模型发展经历三个阶段:挖掘更深层信息,提高算法效率和利用深度学习工具。GPT是一种产生式语言模型,能够生成大量输出,但需要输入补充的信息。其训练数据包括大量图书和维基百科内容,因此其表现优异。"}
{"answer":"ChatGPT是一种语言模型,可以计算句子出现在一起的概率,但需要模版限制。它可以理解语法结构和实词的含义,但在丰富的人类语言中仍有局限性。ChatGPT的能力边界在于扩大应用领域,可以解决很多原本需要人类才能解决的问题。"}
{"answer":"了解语言模型的能力边界,包括信息形式转换、损失信息和基因测序等。语言模型也可以用于让计算机写简单的程序。"}
{"answer":"ChatGPT是一个大型语言模型,能够根据要求产生文本,如回答问题、回复邮件和书写段落。然而,从信息论的角度看,这类工作需要额外补充信息,这就需要语言模型中包含相关信息。虽然类似的写作软件能够产生高质量的文本,但在背后有一个由人组成的编辑团队和评估内容质量的外包公司。最大化发挥ChatGPT写作能力的做法是反复迭代,提出新的修改要求,几次迭代后文章质量就大有提高了。不同的人对ChatGPT写出来的文章评价差异很大,但对于非母语英语的人来说,它写得不错,省了很多时间。"}
{"answer":"ChatGPT是一款强大的语言模型,它可以回答许多专业问题,但它的答案仍然需要人类专家的干预和支持。此外,ChatGPT在信息精简方面也非常有用,可以将大量信息精简为较少的信息,但这也需要算法的设计和语言模型的支持。总的来说,ChatGPT可以减少人类工作量,但它仍然需要人类专家的支持和指导。"}
{"answer":"你好!很高兴和你交流。你提到了选择数据时可能会忽略重要信息的问题,以及机器算法缺乏个性化的问题。确实,机器在处理任务时可能会缺乏人类的主观性和创造力。但是,随着技术的不断进步,机器在某些方面已经可以胜过人类,比如处理大规模的数据和重复性任务。我们可以利用机器的优势来提高工作效率和质量,同时也要注意机器算法的局限性,保持人类的主观性和创造力,取长补短。"}
{"answer":"语言模型回答问题不是简单的匹配,而是建立一个知识框架,给出多个答案,根据概率排序返回最可能的答案。复杂问题的回答需要计算机进行推理和分析,与人有很大不同。"}
{"answer":"人类回答问题有三种途径:知道答案直接给出,利用基本知识推出答案,需要做研究工作。计算机也有类似的能力,但在某些情况下受限于知识和数据的不足。"}
{"answer":"ChatGPT works by extracting and integrating existing facts from a vast corpus of language data, such as the entire Wikipedia. It uses a knowledge graph to find possible answers to questions and may need to search through multiple articles to find relevant information for complex questions."}
{"answer":"下节预告:文本分类与情感分析"}
{"answer":"本文讨论了ChatGPT的固有缺陷问题,其中一些问题可以通过改进解决,如信息量不足和写作乏味,但其他问题则是机器学习方法固有的难题,需要更多技术进步才能解决。"}
{"answer":"语言模型的质量取决于所提供的数据质量,噪音会导致模型质量下降,而语言模型本质上是利用已有信息预测其他信息的模型,需要足够的信息支持才能工作。因此,数据质量是影响语言模型表现的一个重要因素。"}
{"answer":"信息过载和噪音是机器学习的两大问题。解决方法包括增加训练数据量和过滤噪音,但有些噪音是随机产生的。另一个问题是自适应的正反馈可能导致错误。在信息过载的时代,人们很难判断信息的真假,机器学习也无法解决这个问题。"}
{"answer":"本文讲述了人工干预在语言模型中的难点和潜在风险,以及ChatGPT对于垃圾输入和输出的处理能力。同时,指出了当前基于机器学习的智能系统存在的问题和限制。下一讲将会探讨ChatGPT所需要的资源和限制。"}
{"answer":"讨论 ChatGPT 的全民大炼并不必要也不可能。数据、算力、算法三个方面都有限制,只有极少的互联网大厂能够越过这些限制。"}
{"answer":"人工智能的发展需要不断提高的要求和增加的算力,算力永远是一个瓶颈。举例说明,即便算法有大幅改进,仍需要大量的计算资源。"}
{"answer":"ChatGPT是一个使用了大量计算资源和优质算法的语言模型,它的成功不仅仅在于算力,还在于聪明的算法。如果想要开发类似的技术,需要考虑到自己的算力和算法是否能够支持。"}
{"answer":"本文讨论了训练语言模型的三个限制,分别是数据、算力和算法。只有极少的互联网大厂才能跨越这三道坎。即便跨过了这三道坎,人工智能也有能力边界,不能解决所有问题。"}
{"answer":"这段文本讨论了人工智能的边界和数学的边界,以及哥德尔和马季亚谢维奇对数学边界的贡献。它指出了数学不是万能的,人工智能也有其边界,不能解决所有问题。"}
{"answer":"讨论了数学问题的边界和计算机的能力,包括马季亚谢维奇的定理和图灵机的概念。同时指出了人工智能的边界,即有些问题不是数学问题,有些问题无法计算。"}
{"answer":"讨论了计算机和数学领域中的可判定问题和可计算问题,以及人工智能能够解决的问题的范围。同时也提到了人工智能的边界和计算能力的提升并不意味着所有问题都可以解决。最后,指出了一些人对人工智能的边界存在误解的原因。"}
{"answer":"本文讨论了原住民传说中的神和人工智能领域从业者夸大自己的成就的问题,同时强调了了解人工智能细节的重要性。下一讲将探讨为什么ChatGPT会被热炒。"}
{"answer":"热炒技术背后有利益、恐惧、无知。投资者看到技术潜力,股价暴涨。但靠炒作的股市收益很快会还回去。苹果公司能够成为全球市值最大、利润最高公司的原因。"}
{"answer":"这段文字讨论了人工智能技术 ChatGPT 的发展和影响,从投资者、从业者和媒体的角度进行了分析和探讨。其中提到了苹果公司的谨慎策略和技术创新,以及人工智能领域的机遇和挑战。"}
{"answer":"报道称,美国主流媒体对ChatGPT的评价褒贬不一。国内媒体存在互联网和AI行业偏见,忽视其他行业的技术发展。普通人对ChatGPT的反应存在狂热,类似于印第安原住民对哥伦布的神化。"}
{"answer":"你好!非常感谢你与我进行对话。我会尽力以自然、流畅的方式回答你的问题或者与你进行交流。"}
{"answer":"我是 ChatGPT,非常赞同您所说的。机器学习模型的确可以帮助我们处理大量信息,但是对于那些只是整理现有信息的职业来说,机器的确会更有效率。而对于那些需要创造新知识、解决问题的职业,机器只能是一个辅助工具。同时,我们也需要注意到低端IT从业者的前景可能会越来越暗淡,因此需要不断提升自己的技能和知识。"}
{"answer":"文章讨论了在智能时代中,哪些工作容易被取代,哪些工作不容易被取代。作者认为,需要费脑力和创造性的工作不容易被取代,因为知识和信息是由人创造的。相反,费体力的工作却很难找到人做,因为这些工作并没有减少,反而在增加。作者认为,创造性的工作越来越重要,因为机器无法替代人类的思想和个性。"}
{"answer":"许多科学论文只有少数引用,大多数人停留在口头上,正确的思维和做事方式比技术更重要。全球智商测试分数逐年下降,机器智能越来越先进,但教育程度较低的人智商下降幅度更大。"}
{"answer":"这是一篇关于如何理性看待 ChatGPT 的文章,从投资人的角度出发探讨 ChatGPT 带来的机会和风险。作者认为,虽然 ChatGPT 是一个大机会,但也存在泡沫和风险,需要理性看待。"}
{"answer":"ChatGPT是一个大语言模型,可以进行自然对话。"}
{"answer":"ChatGPT认为人工智能只是技术革命的一个涟漪,对从业者来说,做好本职工作回报最高。普通人应理性看待新技术,不要放弃自己擅长的事情去寻找机会。新技术是意外的惊喜或奖励,有帮助就好,没有也不会失望。"}
{"answer":"ChatGPT提供的机会有限,需要把握机会的能力才能真正获得成功。恐惧本身比恐惧的结果更可怕,大环境是最重要的,而不是某个新技术的出现。"}
{"answer":"吴军讲GPT第12讲:还有哪些人工智能和科技值得关注?探讨人工智能的范围和应用,介绍多任务人工智能等技术。"}
{"answer":"GPT-3是以数量实现质量的代表,而多任务的人工智能则是以质量取代数量。实现多任务的人工智能需要具备知其然还要知其所以然、对身边事物的好奇、具有常识和信息处理能耗降低等条件。"}
{"answer":"多任务人工智能需要具备语言理解、好奇心、常识和低能耗等条件,目前尚未实现算法内部打通,拼接多个系统成本高。"}
{"answer":"讨论了多任务人工智能和深度学习在生物医学中的应用。"}
{"answer":"AlphaFold使用深度学习算法预测蛋白质结构,准确率高达70%,对生物学和制药学有重大影响。担心人工智能的问题不在技术本身,而在于背后的公司和控制它们的人。"}

0 人点赞