使用chatgpt进行文本分类指令 如何运用 ChatGPT 进行金融文本情感分析?
作为一款由 训练的大型语言模型, 对中文文本的情绪判断能力非常出色。它通过预先处理大量的中文文本,学习了人类的语言表达方式,以及对不同话题的积极、消极、中性的语气评价。这使得 具有较高的准确率和可靠性,在情绪判断方面具有显著的优势。通过使用 ,我们可以更好地了解中文文本中隐含的情感倾向。
本文旨在简单测试 对中文金融文本情感分析的能力,探索 能否帮助我们更高效地完成特定的文本分析任务,主要分为直接输入文本判断情感、在 辅助下撰写代码两种形式来测试其对金融文本情感分析能力。
辅助代码
首先,询问 如何进行金融文本情感分析,得出了以下步骤:
1. 收集数据:收集你感兴趣的金融文本数据,例如新闻、社交媒体评论、财报等。
2. 数据清洗和预处理:清洗数据以去除无用信息和噪声,例如 HTML 标记和停用词。预处理数据以提高模型的准确性,例如标记化、词干提取和词向量化。
3. 情感分析:使用情感分析算法来确定每个文本段落的情感倾向。情感分析可以是基于规则的,例如使用情感词典和规则,也可以是基于机器学习的,例如使用支持向量机、朴素贝叶斯或深度学习算法。输出可以是二元情感(正面/负面)或多元情感(例如高兴、悲伤、愤怒等)。
4. 可视化结果:将情感分析结果可视化,例如制作词云图、热力图、情感趋势图等,以便更好地理解数据。
我们按照 的指引一一开展工作:
从公开的 金融文本数据集获得金融新闻数据集样本,提取 title 列进行下一步分析。
于是接着询问数据清洗与情感分析的相关代码,得到了代码反馈。简单浏览代码后,发现这个代码并不适用于我们的测试,原因在于这个代码中提及了情感标签“label”,将样本分割为训练集和测试集进行有监督的学习。然而我们的样本并不具备情感标签,需要开展无监督学习,因此需要进一步追问无监督学习的流程。
给出的答复为:
如果您的数据集没有情感标签,那么您需要使用一些方法来生成这些标签。以下是一些常用的方法:
人工标注:您可以找一些人工标注员来手动标注每个文本的情感类别。这种方法是最准确的,但也是最耗时的。
基于词典的方法:您可以使用情感词典,将每个文本中出现的情感词与情感词典中的词进行匹配,并统计出每个文本中正向情感词和负向情感词的数量,然后根据数量大小判断该文本的情感类别。这种方法比较简单,但是可能会因为情感词库的局限性而产生误判。
机器学习方法:您可以使用一些机器学习算法,例如朴素贝叶斯、支持向量机、神经网络等,来训练一个情感分类器。训练的数据可以是已经被人工标注好情感类别的数据,或者使用情感词典生成的数据。这种方法相比前两种方法更加普适性和灵活性,但是需要更多的计算资源和技术支持。
需要注意的是,无论使用何种方法生成情感标签,都需要在生成标签的过程中保证标注质量和标注准确性。
我们选择基于词典的方法进行情感标注,选择互联网上公开的情感词典(Fuwei Jiang, Lee, , and Guofu Zhou.“ and Stock ” of 132(1), 2019,126-149)开展分析,该词典具有积极情感词和消极情感词两类。
文本信息准备就绪后,给 发送指令获得分析代码:
运行代码后,并未得到理想的结果。原因在于生成的代码在分词时采用了英文文本的分词规则,即把空格作为标记来划分出每一个单词,并未考虑到中文文本的实际情况。从而这段代码并不能将中文文本进行分词,也就不能与情感词典进行匹配。
本着 all in one 的原则,我们继续询问 如何解决这个问题。从答复中我们获得了可靠的答案,运用 jieba 分词包替换原先的分词代码即可。
但结果仍不理想,排查原因后发现是情感词典的读取环节出了问题, 生成的代码未能去除字符串两端的换行符(n),进一步追问优化代码进行替换。
经过几轮修改后,我们最终得到了情感分类结果,绘制可视化图表查看分类结果:
直接判断
接下来,我们运用 的大型语言模型能力,直接将文本输入聊天框询问分类结果。简单比较语言模型生成的结果与词典法计算的结果,二者均出现了判断错误的情况。
例如,对“中信资本旗下逾 30 亿元私募产品踩雷 投资人应如何理性维权?”这则标题的判断,人工判断倾向于认为这则新闻是中性偏消极的情感色彩, 认为其为 ,词典法认为其为 ,此时 的判断会更准确一些。对“喧嚣后的困境:自动驾驶在现实挑战前踩刹车”这则标题,人工判断会认为消极色彩更重, 认为其为 ,词典法认为其为 ,此时词典法的判断更加准确。
最后总结利用 进行金融文本情感分析的两种方式的优劣:
直接询问: 作为大型语言模型,对中文金融文本情感的判断具有一定的能力,使用起来较为简单,只需要输入要求和文本即可。最后的结果仍然需要人工复核,黑箱般的使用方式难以解释结果的输出原理。
辅助代码:要求对话人具备识别 答复中不可靠的部分,有的放矢进行多轮对话优化。可以帮助缺乏基础的人快速写出代码,但 debug 的工作仍然离不开人的判断与干预。
无论是直接询问还是辅助代码,基于概率生成的答复都不是完全准确的,但也足够惊艳, 为信息技术小白提供了一条便捷的学习路径,大型语言模型的发展带来如此深刻的影响值得人们欣喜。
因为公众号平台更改了推送规则。如果你不想错过内容,记得点下“赞”和“在看”,这样,每次新文章推送,就会第一时间出现在你的订阅号列表里了~