随着人工智能水平不断提升,尤其是近年来ChatGPT等大模型技术的发展,人工智能技术在各行业发挥的作用越来越大,改变着传统行业工作模式。随着全球化和信息化的加速发展,知识管理已经成为企业和组织的核心竞争力之一。如谷歌提出知识图谱,并率先将其应用于搜索引擎中,取得了不错的效果。国内外企业界和学术界对知识图谱技术在多个领域的应用进行了探索,并取得了丰富的成果。目前,知识图谱已经成为智能搜索、智能问答、个性化推荐、医疗卫生、金融安全等领域的关键支撑技术,是学术界和工业界的热点。
《中国市场监管报》稿件管理采用传统数据库方式,基本实现了稿件的数字化管理,但稿件信息化、知识化管理方面难以适应当前新闻媒体智能化管理需求。
自然语言解析是计算机理解和处理人类语言的过程,是目前人工智能领域最成熟的应用之一。通过自然语言解析技术,计算机可以识别、理解和处理人类使用的自然语言,从而实现与人类之间更加自然和智能的交互。自然语言解析涉及词法分析、句法分析、语义分析、语言模型和信息抽取等技术,能帮助计算机更好地理解和处理人类语言。这些技术的应用范围广泛,包括机器翻译、智能问答系统、文本分类、信息抽取等领域。
知识图谱的概念最早由谷歌提出,并在2012年推出知识图谱(Knowledge Graph)项目。知识图谱是一种用于表示和存储知识的图形化数据结构,它包含实体、关系和属性之间的关联信息。知识图谱旨在捕捉世界上的实体和事实之间的关系,以便计算机能够更好地理解和推理知识。在知识图谱中,实体通常表示现实世界中的个体,如人、qy千亿体育官方网站地点、组织等;关系表示实体之间的联系或关联;属性则描述实体的特征或属性。通过将这些元素以图形结构的方式表示,知识图谱可以帮助计算机理解实体之间的关系,从而支持语义搜索、推荐系统、智能问答等应用。
大模型技术指的是使用庞大数量的参数和更深层次的神经网络结构来训练和构建机器学习模型的技术。这种技术的兴起主要得益于计算能力的增强、数据集规模的扩大以及算法的改进。在大模型技术中,通常会使用数十亿甚至上百亿个参数来构建深度神经网络模型,这些模型可以在大规模数据集上进行训练,以实现更准确的预测和更复杂的学习任务。大模型技术已经在自然语言处理、计算机视觉、推荐系统等领域取得了显著的成就,如国外的ChatGPT、Gemini ,国内的盘古大模型、百度文心一言等。这些模型在各自领域表现出色,为机器学习和人工智能应用带来了新的突破和进展。
文档管理技术已经很成熟,可实现文档检索功能,支持关键词、日期、文件类型、创建者等多种检索条件进行检索查阅。用户可以通过系统提供的检索框输入关键词或选择日期范围,自动展示与关键词相关的文档列表,同时还支持模糊化查询和全文检索,方便用户快速找到所需文档。
但是,市场监管系统的新闻媒体稿件信息化管理既需要传统文档管理功能,也有其专业独特性,因此需要针对性的信息化管理思路。市场监管系统新闻稿件需要进行时间、空间、管理多维度统计分析,也需要掌握稿件质量、稿源、时政贴合度、热点黏合度、专业分类等稿件本身的信息。对于新媒体稿件,还需要对点击量、用户反馈等信息进行分析。针对以上需求,需要构建新闻媒体稿件元数据,进行多维度索引,进而实现稿件统计、趋势分析,以全面掌握稿件信息和动态(稿件元数据信息如表1所示)。
基于稿件元数据表,进行稿件多维统计分析,采用统计图、表、空间分布图等实现稿件统计和趋势分析;同时,与稿件数据库实时同步,动态更新相关图表。此外,开发数据看板,实现稿件信息可视化管理。
对稿件进行知识化管理是传统媒体提升自身智能化水平、发展新质生产力的必然要求。新华社、搜索引擎、头部互联网媒体、学术网站等都已开始进行新闻媒体信息化管理,尤其是搜索引擎,采用知识图谱进行信息管理,更是建立了千亿级以上的知识三元组(见图1),极大提高了搜索结果的匹配度、效率等智能化指标。
本文建议采用知识图谱技术,提升市场监管稿件管理的智能化水平。首先,基于稿件数据库和元数据信息,由媒体编辑专业人员标注数据单元标签,建立市场监管信息语料库;其次,建立机器学习模型,利用语料库进行模型训练,不断提高模型智能化水平;最后,开发知识化引擎和知识平台,实现稿件知识化管理,提供智能问答、质量评价等功能,为稿件智能化管理提供工具。
在稿件信息化和知识化管理基础上,开发稿件管理知识平台,集成多种数据统计算法和自然语言解析模型,利用热词分析、网络图谱图等工具实现知识图谱可视化管理(见图2)。利用热词分析,可以实现稿件关注对象的直观呈现,进行同类型稿件关注区域、期次稿件关注对象、时间维度热点变化的分析。
在稿件内容知识库的基础上,建立稿件信息知识图谱拓扑图(见图3),可进行稿件信息关联分析,进行稿件信息多维度探索、关注信息深度探索。
智能问答是知识平台的成熟功能之一,也是大模型最成功的应用。但大模型的通用性也限制了其在专业领域的准确性。因此可采用多种技术融合策略,以实现智能问答效果。
首先,根据问题,在稿件数据库中检索,如果查询到匹配结果,则以此为答案,如果无法在数据库中直接检索,则利用大模型的自然语言处理优势,对问题进行结构化,然后从稿件数据库中提取匹配的文字,再利用大模型组织成通顺的语言;如果前两次匹配失败,则利用大模型通用功能进行回答,但需对问题做出明确标识“该答案未在稿件数据库中检索到,由大模型给出答案”(智能问答技术流程如图4所示)。
排查稿件差错是行业媒体编排业务中的重要环节,但目前主要靠专业人士审读。利用知识平台功能,可以对一篇稿件自然语言进行结构化处理,然后从稿件库中进行匹配,如无匹配结果,则对该结构化部分及上下文语境进行提醒,从而快速判别可能存在的错别字、语句搭配、非常用表达等问题。另一方面,本文建立的知识库中的易错信息,也可发挥为编辑人员提供易错信息培训的功能。
针对各类新闻、文章、社交媒体内容等进行分析,发现当前热门话题和关注度高的内容。这种分析可以帮助媒体机构、市场营销团队、舆情监测机构等更好地了解公众关注的焦点,及时调整内容策略和营销方向。
新闻媒体:新闻机构可以利用热点分析来了解当前社会热门话题,及时报道热点事件,吸引读者关注。同时,也可以根据热点话题制定更有针对性的报道计划。
市场营销:营销团队可以通过分析社交媒体和网络上的热点话题,了解消费者的兴趣和需求,从而制定更具吸引力的营销活动和广告策略。
舆情监测:政府部门、企业等可以通过热点分析监测公众舆论,及时了解社会热点和舆情走向,从而作出相应的应对措施。
内容推荐:在线平台可以根据用户的浏览和搜索行为,结合热点分析结果,为用户推荐更符合其兴趣的内容,提升用户体验。
品牌声誉管理:企业可以通过热点分析了解公众对其品牌的看法和评价,及时发现负面舆情并应对。
稿件关联性分析包括几个层面:第一,对于某一篇稿件,首先可以起到查重效果,对稿件库中的稿件进行相似性匹配,通过主题、关键词、实体对象、时间、内容、引用关系等特征,通过文本相似度算法或自然语言处理技术来判断稿件之间的关联性,给出评分,根据评分进行相似度排序;第二,按照行业特点,根据稿件的核心主题、报道对象等关注信息,构建稿件相似度评价模型,对稿件专业内容进行相似度评价。
情感分析是自然语言处理的重要领域,它涉及对文本数据进行情感判断,以确定文本中的情感倾向。情感分析可以帮助新闻机构更好地理解受众的情感需求,提升用户体验和新闻传播效果,同时也为企业、政府等组织提供了更深入的舆情分析和管理手段。
在网络平台上基于浏览者的兴趣和行为数据,结合知识图谱技术,可以实现个性化的新闻推荐,提高用户对新闻内容的满意度和黏性。利用知识图谱的图结构连接浏览者和稿件、稿件和稿件之间的关系,从而发现浏览者的兴趣,通过挖掘图谱中的这些路径来构建可解释理由。通过知识图谱就可以在给出推荐的同时也给出推荐理由,增强用户对推荐系统的满意度和接受度。
生成式人工智能可以分析大量的文本数据和信息,自动生成新闻报道和稿件。相较于人工资料收集与整理,它能够快速地通过数据库获取和整合信息,依据既有文章与报道生成结构化的新闻内容,提高稿件的生产效率。尤其对于资讯类的新闻,人工智能可以取代人类完成大量简单传达信息的工作,从而解放新闻编采生产力并提高编发效率,使得人们的精力聚焦于更具有挑战性和智慧的工作上。
本文针对市场监管行业稿件管理,采用数据治理、机器学习等人工智能相关技术,进行稿件资源的信息化提升和知识化提升,初步实现了稿件资源的智能化管理,但距离真正实现自动化、智能化管理还有很长的路要走,这需要大量语料库、中文语言解析模型、大算力等各方面资源的支持。在人工智能技术快速发展的背景下,大模型技术的出现为各行业提升生产力水平提供了新的契机,采用大模型技术提升稿件管理智能化水平,是未来的突破方向之一。本文是作者结合行业需求开展的探索,其中的思路和技术方法,可供其他行业媒体稿件智能化管理借鉴和参考。