Files
MediaCrawler/docs/原生环境管理文档.md
程序员阿江(Relakkes) e83b2422d9 feat: 支持playwright通过cdp协议连接本地chrome浏览器
docs: 增加uv来管理python依赖的文档
2025-06-25 23:22:39 +08:00

1.7 KiB
Raw Blame History

使用python原生venv管理依赖不推荐了

创建并激活 python 虚拟环境

如果是爬取抖音和知乎需要提前安装nodejs环境版本大于等于16即可
新增 uv 来管理项目依赖使用uv来替代python版本管理、pip进行依赖安装更加方便快捷

# 进入项目根目录
cd MediaCrawler

# 创建虚拟环境
# 我的python版本是3.9.6requirements.txt中的库是基于这个版本的如果是其他python版本可能requirements.txt中的库不兼容自行解决一下。
python -m venv venv

# macos & linux 激活虚拟环境
source venv/bin/activate

# windows 激活虚拟环境
venv\Scripts\activate

安装依赖库

pip install -r requirements.txt

查看配置文件

安装 playwright浏览器驱动 (非必需)

playwright install

运行爬虫程序

### 项目默认是没有开启评论爬取模式如需评论请在config/base_config.py中的 ENABLE_GET_COMMENTS 变量修改
### 一些其他支持项也可以在config/base_config.py查看功能写的有中文注释

# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
python main.py --platform xhs --lt qrcode --type search

# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
python main.py --platform xhs --lt qrcode --type detail
  
# 打开对应APP扫二维码登录
  
# 其他平台爬虫使用示例,执行下面的命令查看
python main.py --help