Page 1 of 1

如果您已正确清理数据

Posted: Tue Dec 24, 2024 6:53 am
by rakibhasan
经过这次清理,我原来的 all_inlinks.csv 文件从 50 多 MB(包含 136,873 行)缩小到了 2 MB(包含 11,338 行和 4 列)。

步骤 5:将向量嵌入转换为有用信息(即相关 URL)
访问 Google Colab
为了处理向量嵌入,我使用了 Google Colab。我这样做了:访问由 Gus Pelogia 创建的Google Colab 笔记本,然后单击“文件”>“在云端硬盘中保存副本”。此笔记本本质上是浏览器中运行的 Python,因此您无需安装任何东西。
接下来,我获得了 Gus 的 Python 脚本的副本,该脚本使用 Pandas、Numpy 和 Scikit-learn 来处理我使用 Screaming Frog 和 OpenAI API 生成的 file.csv。

运行脚本
并且 CSV 文件的命名和格式正确,则您应该能够:

按下 Colab 笔记本中的“播放”按钮。
Google Colab 笔记本界面 阿根廷电话号码库 的屏幕截图,其中运行用于处理向量嵌入的 Python 脚本
上传您的 file.csv 文件(包含“URL”和“Embeddings”列的文件)。

屏幕截图显示了在 Google Colab 中启动脚本后在何处选择 CSV 文件。
等待其处理,不要离开浏览器窗口。

屏幕截图显示 Google Colab 脚本已完成 50%。
排除错误
通常会出现一些问题。但不用担心,点击“解释错误”通常会指导您进行修复。

错误解释帮助我弄清楚我需要打开 CSV 文件并查找嵌入列中的异常情况。结果发现有一个空白单元格。在此阶段可能导致错误的其他示例包括:额外的列 错误的文件名 错误的列名 嵌入列中的错误数据(如果您对列进行排序并查看它,您会发现它)。
错误解释帮助我弄清楚了我需要打开 CSV 文件并查找 Embeddings 列中的异常。结果发现有一个空白单元格。