mirror of
https://github.com/NanmiCoder/MediaCrawler.git
synced 2025-11-25 11:29:27 +08:00
333 lines
14 KiB
Markdown
333 lines
14 KiB
Markdown
<div align="center" markdown="1">
|
||
<sup>Special thanks to:</sup>
|
||
<br>
|
||
<br>
|
||
<a href="https://go.warp.dev/MediaCrawler">
|
||
<img alt="Warp sponsorship" width="400" src="https://github.com/warpdotdev/brand-assets/blob/main/Github/Sponsor/Warp-Github-LG-02.png?raw=true">
|
||
</a>
|
||
|
||
### [Warp is built for coding with multiple AI agents](https://go.warp.dev/MediaCrawler)
|
||
|
||
|
||
</div>
|
||
<hr>
|
||
|
||
# 🔥 MediaCrawler - 自媒体平台爬虫 🕷️
|
||
|
||
<div align="center">
|
||
|
||
<a href="https://trendshift.io/repositories/8291" target="_blank">
|
||
<img src="https://trendshift.io/api/badge/repositories/8291" alt="NanmiCoder%2FMediaCrawler | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/>
|
||
</a>
|
||
|
||
[](https://github.com/NanmiCoder/MediaCrawler/stargazers)
|
||
[](https://github.com/NanmiCoder/MediaCrawler/network/members)
|
||
[](https://github.com/NanmiCoder/MediaCrawler/issues)
|
||
[](https://github.com/NanmiCoder/MediaCrawler/pulls)
|
||
[](https://github.com/NanmiCoder/MediaCrawler/blob/main/LICENSE)
|
||
[](README.md)
|
||
[](README_en.md)
|
||
[](README_es.md)
|
||
</div>
|
||
|
||
|
||
|
||
> **免责声明:**
|
||
>
|
||
> 大家请以学习为目的使用本仓库⚠️⚠️⚠️⚠️,[爬虫违法违规的案件](https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China) <br>
|
||
>
|
||
>本仓库的所有内容仅供学习和参考之用,禁止用于商业用途。任何人或组织不得将本仓库的内容用于非法用途或侵犯他人合法权益。本仓库所涉及的爬虫技术仅用于学习和研究,不得用于对其他平台进行大规模爬虫或其他非法行为。对于因使用本仓库内容而引起的任何法律责任,本仓库不承担任何责任。使用本仓库的内容即表示您同意本免责声明的所有条款和条件。
|
||
>
|
||
> 点击查看更为详细的免责声明。[点击跳转](#disclaimer)
|
||
|
||
|
||
|
||
|
||
## 📖 项目简介
|
||
|
||
一个功能强大的**多平台自媒体数据采集工具**,支持小红书、抖音、快手、B站、微博、贴吧、知乎等主流平台的公开信息抓取。
|
||
|
||
### 🔧 技术原理
|
||
|
||
- **核心技术**:基于 [Playwright](https://playwright.dev/) 浏览器自动化框架登录保存登录态
|
||
- **无需JS逆向**:利用保留登录态的浏览器上下文环境,通过 JS 表达式获取签名参数
|
||
- **优势特点**:无需逆向复杂的加密算法,大幅降低技术门槛
|
||
|
||
## ✨ 功能特性
|
||
| 平台 | 关键词搜索 | 指定帖子ID爬取 | 二级评论 | 指定创作者主页 | 登录态缓存 | IP代理池 | 生成评论词云图 |
|
||
| ------ | ---------- | -------------- | -------- | -------------- | ---------- | -------- | -------------- |
|
||
| 小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
|
||
| 抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
|
||
| 快手 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
|
||
| B 站 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
|
||
| 微博 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
|
||
| 贴吧 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
|
||
| 知乎 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
|
||
|
||
|
||
|
||
### 🚀 MediaCrawlerPro 重磅发布!
|
||
|
||
> 专注于学习成熟项目的架构设计,不仅仅是爬虫技术,Pro 版本的代码设计思路同样值得深入学习!
|
||
|
||
[MediaCrawlerPro](https://github.com/MediaCrawlerPro) 相较于开源版本的核心优势:
|
||
|
||
#### 🎯 核心功能升级
|
||
- ✅ **断点续爬功能**(重点特性)
|
||
- ✅ **多账号 + IP代理池支持**(重点特性)
|
||
- ✅ **去除 Playwright 依赖**,使用更简单
|
||
- ✅ **完整 Linux 环境支持**
|
||
|
||
#### 🏗️ 架构设计优化
|
||
- ✅ **代码重构优化**,更易读易维护(解耦 JS 签名逻辑)
|
||
- ✅ **企业级代码质量**,适合构建大型爬虫项目
|
||
- ✅ **完美架构设计**,高扩展性,源码学习价值更大
|
||
|
||
#### 🎁 额外功能
|
||
- ✅ **自媒体视频下载器桌面端**(适合学习全栈开发)
|
||
- ✅ **多平台首页信息流推荐**(HomeFeed)
|
||
- [ ] **基于自媒体平台的AI Agent正在开发中 🚀🚀**
|
||
|
||
点击查看:[MediaCrawlerPro 项目主页](https://github.com/MediaCrawlerPro) 更多介绍
|
||
|
||
|
||
## 🚀 快速开始
|
||
|
||
> 💡 **开源不易,如果这个项目对您有帮助,请给个 ⭐ Star 支持一下!**
|
||
|
||
## 📋 前置依赖
|
||
|
||
### 🚀 uv 安装(推荐)
|
||
|
||
在进行下一步操作之前,请确保电脑上已经安装了 uv:
|
||
|
||
- **安装地址**:[uv 官方安装指南](https://docs.astral.sh/uv/getting-started/installation)
|
||
- **验证安装**:终端输入命令 `uv --version`,如果正常显示版本号,证明已经安装成功
|
||
- **推荐理由**:uv 是目前最强的 Python 包管理工具,速度快、依赖解析准确
|
||
|
||
### 🟢 Node.js 安装
|
||
|
||
项目依赖 Node.js,请前往官网下载安装:
|
||
|
||
- **下载地址**:https://nodejs.org/en/download/
|
||
- **版本要求**:>= 16.0.0
|
||
|
||
### 📦 Python 包安装
|
||
|
||
```shell
|
||
# 进入项目目录
|
||
cd MediaCrawler
|
||
|
||
# 使用 uv sync 命令来保证 python 版本和相关依赖包的一致性
|
||
uv sync
|
||
```
|
||
|
||
### 🌐 浏览器驱动安装
|
||
|
||
```shell
|
||
# 安装浏览器驱动
|
||
uv run playwright install
|
||
```
|
||
|
||
> **💡 提示**:MediaCrawler 目前已经支持使用 playwright 连接你本地的 Chrome 浏览器了,一些因为 Webdriver 导致的问题迎刃而解了。
|
||
>
|
||
> 目前开放了 `xhs` 和 `dy` 这两个使用 CDP 的方式连接本地浏览器,如有需要,查看 `config/base_config.py` 中的配置项。
|
||
|
||
## 🚀 运行爬虫程序
|
||
|
||
```shell
|
||
# 项目默认是没有开启评论爬取模式,如需评论请在 config/base_config.py 中的 ENABLE_GET_COMMENTS 变量修改
|
||
# 一些其他支持项,也可以在 config/base_config.py 查看功能,写的有中文注释
|
||
|
||
# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
|
||
uv run main.py --platform xhs --lt qrcode --type search
|
||
|
||
# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
|
||
uv run main.py --platform xhs --lt qrcode --type detail
|
||
|
||
# 打开对应APP扫二维码登录
|
||
|
||
# 其他平台爬虫使用示例,执行下面的命令查看
|
||
uv run main.py --help
|
||
```
|
||
|
||
<details>
|
||
<summary>🔗 <strong>使用 Python 原生 venv 管理环境(不推荐)</strong></summary>
|
||
|
||
#### 创建并激活 Python 虚拟环境
|
||
|
||
> 如果是爬取抖音和知乎,需要提前安装 nodejs 环境,版本大于等于:`16` 即可
|
||
|
||
```shell
|
||
# 进入项目根目录
|
||
cd MediaCrawler
|
||
|
||
# 创建虚拟环境
|
||
# 我的 python 版本是:3.9.6,requirements.txt 中的库是基于这个版本的
|
||
# 如果是其他 python 版本,可能 requirements.txt 中的库不兼容,需自行解决
|
||
python -m venv venv
|
||
|
||
# macOS & Linux 激活虚拟环境
|
||
source venv/bin/activate
|
||
|
||
# Windows 激活虚拟环境
|
||
venv\Scripts\activate
|
||
```
|
||
|
||
#### 安装依赖库
|
||
|
||
```shell
|
||
pip install -r requirements.txt
|
||
```
|
||
|
||
#### 安装 playwright 浏览器驱动
|
||
|
||
```shell
|
||
playwright install
|
||
```
|
||
|
||
#### 运行爬虫程序(原生环境)
|
||
|
||
```shell
|
||
# 项目默认是没有开启评论爬取模式,如需评论请在 config/base_config.py 中的 ENABLE_GET_COMMENTS 变量修改
|
||
# 一些其他支持项,也可以在 config/base_config.py 查看功能,写的有中文注释
|
||
|
||
# 从配置文件中读取关键词搜索相关的帖子并爬取帖子信息与评论
|
||
python main.py --platform xhs --lt qrcode --type search
|
||
|
||
# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
|
||
python main.py --platform xhs --lt qrcode --type detail
|
||
|
||
# 打开对应APP扫二维码登录
|
||
|
||
# 其他平台爬虫使用示例,执行下面的命令查看
|
||
python main.py --help
|
||
```
|
||
|
||
</details>
|
||
|
||
|
||
## 💾 数据保存
|
||
|
||
支持多种数据存储方式:
|
||
- **CSV 文件**:支持保存到 CSV 中(`data/` 目录下)
|
||
- **JSON 文件**:支持保存到 JSON 中(`data/` 目录下)
|
||
- **数据库存储**
|
||
- 使用参数 `--init_db` 进行数据库初始化(使用`--init_db`时不需要携带其他optional)
|
||
- **SQLite 数据库**:轻量级数据库,无需服务器,适合个人使用(推荐)
|
||
1. 初始化:`--init_db sqlite`
|
||
2. 数据存储:`--save_data_option sqlite`
|
||
- **MySQL 数据库**:支持关系型数据库 MySQL 中保存(需要提前创建数据库)
|
||
1. 初始化:`--init_db mysql`
|
||
2. 数据存储:`--save_data_option db`(db 参数为兼容历史更新保留)
|
||
|
||
|
||
### 使用示例:
|
||
```shell
|
||
# 初始化 SQLite 数据库(使用'--init_db'时不需要携带其他optional)
|
||
uv run main.py --init_db sqlite
|
||
# 使用 SQLite 存储数据(推荐个人用户使用)
|
||
uv run main.py --platform xhs --lt qrcode --type search --save_data_option sqlite
|
||
```
|
||
```shell
|
||
# 初始化 MySQL 数据库
|
||
uv run main.py --init_db mysql
|
||
# 使用 MySQL 存储数据(为适配历史更新,db参数进行沿用)
|
||
uv run main.py --platform xhs --lt qrcode --type search --save_data_option db
|
||
```
|
||
|
||
|
||
[🚀 MediaCrawlerPro 重磅发布 🚀!更多的功能,更好的架构设计!](https://github.com/MediaCrawlerPro)
|
||
|
||
---
|
||
|
||
### 💰 赞助商展示
|
||
|
||
<a href="https://www.swiftproxy.net/?ref=nanmi">
|
||
<img src="docs/static/images/img_5.png">
|
||
<br>
|
||
Swiftproxy - 90M+ 全球高质量纯净住宅IP,注册可领免费 500MB 测试流量,动态流量不过期!
|
||
> 专属折扣码:**GHB5** 立享九折优惠!
|
||
</a>
|
||
|
||
<br>
|
||
<br>
|
||
|
||
<a href="https://h.wandouip.com">
|
||
<img src="docs/static/images/img_8.jpg">
|
||
<br>
|
||
豌豆HTTP自营千万级IP资源池,IP纯净度≥99.8%,每日保持IP高频更新,快速响应,稳定连接,满足多种业务场景,支持按需定制,注册免费提取10000ip。
|
||
</a>
|
||
|
||
|
||
|
||
### 🤝 成为赞助者
|
||
|
||
成为赞助者,可以将您的产品展示在这里,每天获得大量曝光!
|
||
|
||
**联系方式**:
|
||
- 微信:`yzglan`
|
||
- 邮箱:`relakkes@gmail.com`
|
||
|
||
|
||
## 🤝 社区与支持
|
||
|
||
### 💬 交流群组
|
||
- **微信交流群**:[点击加入](https://nanmicoder.github.io/MediaCrawler/%E5%BE%AE%E4%BF%A1%E4%BA%A4%E6%B5%81%E7%BE%A4.html)
|
||
|
||
### 📚 文档与教程
|
||
- **在线文档**:[MediaCrawler 完整文档](https://nanmicoder.github.io/MediaCrawler/)
|
||
- **爬虫教程**:[CrawlerTutorial 免费教程](https://github.com/NanmiCoder/CrawlerTutorial)
|
||
|
||
|
||
# 其他常见问题可以查看在线文档
|
||
>
|
||
> 在线文档包含使用方法、常见问题、加入项目交流群等。
|
||
> [MediaCrawler在线文档](https://nanmicoder.github.io/MediaCrawler/)
|
||
>
|
||
|
||
# 作者提供的知识服务
|
||
> 如果想快速入门和学习该项目的使用、源码架构设计等、学习编程技术、亦或者想了解MediaCrawlerPro的源代码设计可以看下我的知识付费栏目。
|
||
|
||
[作者的知识付费栏目介绍](https://nanmicoder.github.io/MediaCrawler/%E7%9F%A5%E8%AF%86%E4%BB%98%E8%B4%B9%E4%BB%8B%E7%BB%8D.html)
|
||
|
||
|
||
---
|
||
|
||
## ⭐ Star 趋势图
|
||
|
||
如果这个项目对您有帮助,请给个 ⭐ Star 支持一下,让更多的人看到 MediaCrawler!
|
||
|
||
[](https://star-history.com/#NanmiCoder/MediaCrawler&Date)
|
||
|
||
|
||
|
||
## 📚 参考
|
||
|
||
- **小红书客户端**:[ReaJason 的 xhs 仓库](https://github.com/ReaJason/xhs)
|
||
- **短信转发**:[SmsForwarder 参考仓库](https://github.com/pppscn/SmsForwarder)
|
||
- **内网穿透工具**:[ngrok 官方文档](https://ngrok.com/docs/)
|
||
|
||
|
||
# 免责声明
|
||
<div id="disclaimer">
|
||
|
||
## 1. 项目目的与性质
|
||
本项目(以下简称“本项目”)是作为一个技术研究与学习工具而创建的,旨在探索和学习网络数据采集技术。本项目专注于自媒体平台的数据爬取技术研究,旨在提供给学习者和研究者作为技术交流之用。
|
||
|
||
## 2. 法律合规性声明
|
||
本项目开发者(以下简称“开发者”)郑重提醒用户在下载、安装和使用本项目时,严格遵守中华人民共和国相关法律法规,包括但不限于《中华人民共和国网络安全法》、《中华人民共和国反间谍法》等所有适用的国家法律和政策。用户应自行承担一切因使用本项目而可能引起的法律责任。
|
||
|
||
## 3. 使用目的限制
|
||
本项目严禁用于任何非法目的或非学习、非研究的商业行为。本项目不得用于任何形式的非法侵入他人计算机系统,不得用于任何侵犯他人知识产权或其他合法权益的行为。用户应保证其使用本项目的目的纯属个人学习和技术研究,不得用于任何形式的非法活动。
|
||
|
||
## 4. 免责声明
|
||
开发者已尽最大努力确保本项目的正当性及安全性,但不对用户使用本项目可能引起的任何形式的直接或间接损失承担责任。包括但不限于由于使用本项目而导致的任何数据丢失、设备损坏、法律诉讼等。
|
||
|
||
## 5. 知识产权声明
|
||
本项目的知识产权归开发者所有。本项目受到著作权法和国际著作权条约以及其他知识产权法律和条约的保护。用户在遵守本声明及相关法律法规的前提下,可以下载和使用本项目。
|
||
|
||
## 6. 最终解释权
|
||
关于本项目的最终解释权归开发者所有。开发者保留随时更改或更新本免责声明的权利,恕不另行通知。
|
||
</div>
|