News Extraction
该工作流通过自动抓取指定新闻网站的最新内容,提取新闻的发布时间、标题和正文,并利用AI技术生成每条新闻的摘要及关键技术关键词,最终将整理后的数据存入数据库。这一过程实现了对无RSS新闻源的高效监控与分析,适用于媒体监控、市场调研和内容管理等多种场景,大幅提升了信息获取的效率与准确性。
流程图

工作流名称
News Extraction
主要功能和亮点
解决的核心问题
- 目标新闻网站不提供RSS订阅,传统订阅方式无法获取最新资讯。
- 新闻页面只提供新闻链接和发布日期,缺少新闻正文摘要和关键词信息。
- 手动筛选和整理新闻信息耗时且易遗漏。
- 需要定期自动更新最新新闻数据,确保信息时效性。
应用场景
- 技术媒体监控与资讯聚合。
- 企业或研发团队的行业动态跟踪。
- 市场调研人员快速获取竞争对手新闻要点。
- 自动化内容管理系统的数据输入。
主要流程步骤
- 定时触发:通过每周定时任务自动启动流程。
- 网页抓取:抓取新闻列表页HTML内容。
- 数据提取:利用CSS选择器分别提取新闻链接和发布日期。
- 数据拆分:将提取的链接和日期拆分为独立条目,便于后续循环处理。
- 筛选最新新闻:筛选最近7天内发布的新闻。
- 单条新闻抓取:依次访问每条新闻链接,提取新闻标题和正文内容。
- 智能分析:调用ChatGPT API生成新闻摘要和提取3个关键技术关键词。
- 数据整合:将标题、日期、链接、摘要和关键词合并为完整记录。
- 存储输出:将最终结构化数据写入NocoDB数据库,方便后续查询和分析。
涉及的系统或服务
- n8n自动化平台:工作流的设计与调度。
- HTTP Request节点:抓取网页内容。
- HTML提取节点:基于CSS选择器提取页面数据。
- OpenAI ChatGPT API:生成摘要和关键词提取。
- NocoDB数据库:存储新闻数据,支持SQL查询。
适用人群或使用价值
- 媒体监控人员和内容编辑,希望自动获取和整理无RSS源新闻站点的资讯。
- 企业市场分析师和技术研发团队,快速掌握行业最新动态和技术关键词。
- 自动化工作流开发者,学习基于网页抓取与AI文本处理的整合方案。
- 任何需要定期批量采集、分析新闻内容并结构化存储的用户。
此工作流通过结合网页爬取技术与AI文本理解,实现了无RSS新闻站点的智能新闻采集与摘要,极大提升了信息获取效率和内容价值,适合多种行业资讯自动化需求。