tgparser-cli 0.1.0__tar.gz
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- tgparser_cli-0.1.0/LICENSE +21 -0
- tgparser_cli-0.1.0/PKG-INFO +278 -0
- tgparser_cli-0.1.0/README.md +247 -0
- tgparser_cli-0.1.0/pyproject.toml +60 -0
- tgparser_cli-0.1.0/setup.cfg +4 -0
- tgparser_cli-0.1.0/src/tgparser/__init__.py +3 -0
- tgparser_cli-0.1.0/src/tgparser/auth/__init__.py +6 -0
- tgparser_cli-0.1.0/src/tgparser/auth/mtproto_auth.py +130 -0
- tgparser_cli-0.1.0/src/tgparser/auth/web_auth.py +260 -0
- tgparser_cli-0.1.0/src/tgparser/cli.py +637 -0
- tgparser_cli-0.1.0/src/tgparser/config.py +55 -0
- tgparser_cli-0.1.0/src/tgparser/models/__init__.py +1 -0
- tgparser_cli-0.1.0/src/tgparser/models/message.py +33 -0
- tgparser_cli-0.1.0/src/tgparser/parsers/__init__.py +6 -0
- tgparser_cli-0.1.0/src/tgparser/parsers/mtproto_parser.py +244 -0
- tgparser_cli-0.1.0/src/tgparser/parsers/web_parser.py +620 -0
- tgparser_cli-0.1.0/src/tgparser/storage/__init__.py +15 -0
- tgparser_cli-0.1.0/src/tgparser/storage/sqlite.py +118 -0
- tgparser_cli-0.1.0/src/tgparser/storage/writer.py +214 -0
- tgparser_cli-0.1.0/src/tgparser/utils.py +69 -0
- tgparser_cli-0.1.0/src/tgparser_cli.egg-info/PKG-INFO +278 -0
- tgparser_cli-0.1.0/src/tgparser_cli.egg-info/SOURCES.txt +31 -0
- tgparser_cli-0.1.0/src/tgparser_cli.egg-info/dependency_links.txt +1 -0
- tgparser_cli-0.1.0/src/tgparser_cli.egg-info/entry_points.txt +2 -0
- tgparser_cli-0.1.0/src/tgparser_cli.egg-info/requires.txt +12 -0
- tgparser_cli-0.1.0/src/tgparser_cli.egg-info/top_level.txt +1 -0
- tgparser_cli-0.1.0/tests/test_cli_storage.py +256 -0
- tgparser_cli-0.1.0/tests/test_mtproto_auth.py +171 -0
- tgparser_cli-0.1.0/tests/test_mtproto_parser.py +370 -0
- tgparser_cli-0.1.0/tests/test_sqlite.py +219 -0
- tgparser_cli-0.1.0/tests/test_web_auth.py +180 -0
- tgparser_cli-0.1.0/tests/test_web_parser.py +264 -0
- tgparser_cli-0.1.0/tests/test_writer.py +371 -0
|
@@ -0,0 +1,21 @@
|
|
|
1
|
+
MIT License
|
|
2
|
+
|
|
3
|
+
Copyright (c) 2026 borodatych
|
|
4
|
+
|
|
5
|
+
Permission is hereby granted, free of charge, to any person obtaining a copy
|
|
6
|
+
of this software and associated documentation files (the "Software"), to deal
|
|
7
|
+
in the Software without restriction, including without limitation the rights
|
|
8
|
+
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
|
|
9
|
+
copies of the Software, and to permit persons to whom the Software is
|
|
10
|
+
furnished to do so, subject to the following conditions:
|
|
11
|
+
|
|
12
|
+
The above copyright notice and this permission notice shall be included in all
|
|
13
|
+
copies or substantial portions of the Software.
|
|
14
|
+
|
|
15
|
+
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
|
|
16
|
+
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
|
|
17
|
+
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
|
|
18
|
+
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
|
|
19
|
+
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
|
|
20
|
+
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
|
|
21
|
+
SOFTWARE.
|
|
@@ -0,0 +1,278 @@
|
|
|
1
|
+
Metadata-Version: 2.4
|
|
2
|
+
Name: tgparser-cli
|
|
3
|
+
Version: 0.1.0
|
|
4
|
+
Summary: Telegram channel parser — extract messages from open (MTProto) and closed (web) channels
|
|
5
|
+
Author: borodatych
|
|
6
|
+
License-Expression: MIT
|
|
7
|
+
Project-URL: Homepage, https://github.com/borodatych/tgparser
|
|
8
|
+
Project-URL: Repository, https://github.com/borodatych/tgparser
|
|
9
|
+
Project-URL: Bug Tracker, https://github.com/borodatych/tgparser/issues
|
|
10
|
+
Classifier: Development Status :: 3 - Alpha
|
|
11
|
+
Classifier: Programming Language :: Python :: 3.11
|
|
12
|
+
Classifier: Programming Language :: Python :: 3.12
|
|
13
|
+
Classifier: Operating System :: OS Independent
|
|
14
|
+
Classifier: Topic :: Communications :: Chat
|
|
15
|
+
Classifier: Topic :: Internet :: WWW/HTTP :: Indexing/Search
|
|
16
|
+
Requires-Python: >=3.11
|
|
17
|
+
Description-Content-Type: text/markdown
|
|
18
|
+
License-File: LICENSE
|
|
19
|
+
Requires-Dist: telethon>=1.35
|
|
20
|
+
Requires-Dist: playwright>=1.45
|
|
21
|
+
Requires-Dist: beautifulsoup4>=4.12
|
|
22
|
+
Requires-Dist: lxml>=5.2
|
|
23
|
+
Requires-Dist: click>=8.1
|
|
24
|
+
Requires-Dist: python-dotenv>=1.0
|
|
25
|
+
Requires-Dist: pyyaml>=6.0
|
|
26
|
+
Provides-Extra: dev
|
|
27
|
+
Requires-Dist: pytest>=8.2; extra == "dev"
|
|
28
|
+
Requires-Dist: pytest-asyncio>=0.23; extra == "dev"
|
|
29
|
+
Requires-Dist: ruff>=0.4; extra == "dev"
|
|
30
|
+
Dynamic: license-file
|
|
31
|
+
|
|
32
|
+
# TgParser
|
|
33
|
+
|
|
34
|
+
**Telegram-канал парсер** — утилита для извлечения сообщений из открытых (MTProto API) и закрытых (Web HTML) Telegram-каналов.
|
|
35
|
+
|
|
36
|
+
[](https://www.python.org/)
|
|
37
|
+
[](LICENSE)
|
|
38
|
+
[](https://github.com/astral-sh/ruff)
|
|
39
|
+
|
|
40
|
+
---
|
|
41
|
+
|
|
42
|
+
## Возможности
|
|
43
|
+
|
|
44
|
+
- **Авторизация** через QR-код (Web) или MTProto (Telethon) с сохранением сессии
|
|
45
|
+
- **Парсинг открытых каналов** — прямое чтение через MTProto API (Telethon)
|
|
46
|
+
- **Парсинг закрытых каналов** — чтение через web-версию Telegram (Playwright + BeautifulSoup)
|
|
47
|
+
- **Обход защиты от копирования** — автоматическое снятие CSS `user-select: none`, блокировки контекстного меню
|
|
48
|
+
- **Вывод данных** в JSON, CSV, plain-text или SQLite
|
|
49
|
+
- **Инкрементальный парсинг** — сохранение только новых сообщений
|
|
50
|
+
- **CLI-интерфейс** на базе Click
|
|
51
|
+
|
|
52
|
+
---
|
|
53
|
+
|
|
54
|
+
## Установка
|
|
55
|
+
|
|
56
|
+
### Из исходного кода
|
|
57
|
+
|
|
58
|
+
```bash
|
|
59
|
+
# Клонировать репозиторий
|
|
60
|
+
git clone https://github.com/borodatych/tgparser.git
|
|
61
|
+
cd tgparser
|
|
62
|
+
|
|
63
|
+
# Создать виртуальное окружение
|
|
64
|
+
python -m venv .venv
|
|
65
|
+
source .venv/bin/activate # Linux/macOS
|
|
66
|
+
.venv\Scripts\activate # Windows
|
|
67
|
+
|
|
68
|
+
# Установить пакет с dev-зависимостями
|
|
69
|
+
pip install -e ".[dev]"
|
|
70
|
+
|
|
71
|
+
# Установить Playwright браузеры (требуется для web-парсера)
|
|
72
|
+
playwright install chromium
|
|
73
|
+
```
|
|
74
|
+
|
|
75
|
+
### Через pip (после релиза)
|
|
76
|
+
|
|
77
|
+
```bash
|
|
78
|
+
pip install tgparser-cli
|
|
79
|
+
playwright install chromium
|
|
80
|
+
```
|
|
81
|
+
|
|
82
|
+
---
|
|
83
|
+
|
|
84
|
+
## Настройка
|
|
85
|
+
|
|
86
|
+
### 1. Переменные окружения
|
|
87
|
+
|
|
88
|
+
Скопируйте `.env.example` в `.env` и заполните:
|
|
89
|
+
|
|
90
|
+
```bash
|
|
91
|
+
cp .env.example .env
|
|
92
|
+
```
|
|
93
|
+
|
|
94
|
+
Обязательные переменные:
|
|
95
|
+
|
|
96
|
+
| Переменная | Описание |
|
|
97
|
+
|-----------|----------|
|
|
98
|
+
| `API_ID` | API ID из [my.telegram.org](https://my.telegram.org/apps) |
|
|
99
|
+
| `API_HASH` | API Hash оттуда же |
|
|
100
|
+
| `PHONE_NUMBER` | Номер телефона для MTProto-авторизации (в международном формате) |
|
|
101
|
+
|
|
102
|
+
### 2. Конфигурационный файл (опционально)
|
|
103
|
+
|
|
104
|
+
Создайте `config.yaml` в корне проекта:
|
|
105
|
+
|
|
106
|
+
```yaml
|
|
107
|
+
parsing:
|
|
108
|
+
scroll_delay_ms: 1500 # задержка между скроллами (web-парсер)
|
|
109
|
+
max_messages: 1000 # лимит сообщений за один запуск
|
|
110
|
+
rate_limit_sleep: 30 # пауза при FloodWait (сек)
|
|
111
|
+
|
|
112
|
+
storage:
|
|
113
|
+
output_dir: data/output
|
|
114
|
+
session_dir: data/sessions
|
|
115
|
+
```
|
|
116
|
+
|
|
117
|
+
---
|
|
118
|
+
|
|
119
|
+
## Использование
|
|
120
|
+
|
|
121
|
+
### Авторизация
|
|
122
|
+
|
|
123
|
+
```bash
|
|
124
|
+
# Web-авторизация (QR-код) — для закрытых каналов
|
|
125
|
+
tgparser auth
|
|
126
|
+
|
|
127
|
+
# Принудительная переавторизация
|
|
128
|
+
tgparser auth --force
|
|
129
|
+
|
|
130
|
+
# MTProto-авторизация — для открытых каналов
|
|
131
|
+
tgparser auth --type mtproto
|
|
132
|
+
```
|
|
133
|
+
|
|
134
|
+
### Парсинг открытого канала (MTProto)
|
|
135
|
+
|
|
136
|
+
```bash
|
|
137
|
+
tgparser parse open @channel_username
|
|
138
|
+
```
|
|
139
|
+
|
|
140
|
+
Опции:
|
|
141
|
+
- `--limit N` — максимум сообщений (по умолчанию 100)
|
|
142
|
+
- `--since YYYY-MM-DD` — фильтр по дате (сообщения не старше указанной)
|
|
143
|
+
- `--until YYYY-MM-DD` — фильтр по дате (сообщения не новее указанной)
|
|
144
|
+
- `--offset N` — смещение от последнего сообщения
|
|
145
|
+
|
|
146
|
+
### Парсинг закрытого канала (Web)
|
|
147
|
+
|
|
148
|
+
```bash
|
|
149
|
+
tgparser parse closed https://t.me/channel_username
|
|
150
|
+
```
|
|
151
|
+
|
|
152
|
+
Опции:
|
|
153
|
+
- `--limit N` — максимум сообщений
|
|
154
|
+
- `--since YYYY-MM-DD` — фильтр по дате
|
|
155
|
+
- `--until YYYY-MM-DD` — фильтр по дате
|
|
156
|
+
|
|
157
|
+
> **Примечание:** Для закрытых каналов требуется предварительная web-авторизация (`tgparser auth`).
|
|
158
|
+
|
|
159
|
+
### Экспорт
|
|
160
|
+
|
|
161
|
+
```bash
|
|
162
|
+
# Вывод в консоль (plain-text)
|
|
163
|
+
tgparser export --input data/output/messages.json
|
|
164
|
+
|
|
165
|
+
# Сохранение в JSON
|
|
166
|
+
tgparser export --input data/output/messages.json --format json --output data/output/export.json
|
|
167
|
+
|
|
168
|
+
# Сохранение в CSV
|
|
169
|
+
tgparser export --input data/output/messages.json --format csv --output data/output/export.csv
|
|
170
|
+
|
|
171
|
+
# Сохранение в SQLite
|
|
172
|
+
tgparser export --input data/output/messages.json --format sqlite --output data/output/export.db
|
|
173
|
+
|
|
174
|
+
# Инкрементальный экспорт (только новые сообщения)
|
|
175
|
+
tgparser export --input data/output/messages.json --incremental
|
|
176
|
+
```
|
|
177
|
+
|
|
178
|
+
---
|
|
179
|
+
|
|
180
|
+
## Примеры
|
|
181
|
+
|
|
182
|
+
### Сохранить 50 последних сообщений из открытого канала в JSON
|
|
183
|
+
|
|
184
|
+
```bash
|
|
185
|
+
tgparser parse open @python_news --limit 50 --format json --output data/output/python_news.json
|
|
186
|
+
```
|
|
187
|
+
|
|
188
|
+
### Сохранить сообщения из закрытого канала за последнюю неделю
|
|
189
|
+
|
|
190
|
+
```bash
|
|
191
|
+
tgparser parse closed https://t.me/private_channel --since 2025-01-01
|
|
192
|
+
```
|
|
193
|
+
|
|
194
|
+
### Экспортировать в CSV с инкрементальным режимом
|
|
195
|
+
|
|
196
|
+
```bash
|
|
197
|
+
tgparser parse open @tech_news --format csv --output data/output/tech_news.csv
|
|
198
|
+
tgparser export --input data/output/tech_news.csv --incremental
|
|
199
|
+
```
|
|
200
|
+
|
|
201
|
+
---
|
|
202
|
+
|
|
203
|
+
## Структура проекта
|
|
204
|
+
|
|
205
|
+
```
|
|
206
|
+
tgparser/
|
|
207
|
+
├── src/
|
|
208
|
+
│ └── tgparser/
|
|
209
|
+
│ ├── auth/ # Модули авторизации (web, mtproto)
|
|
210
|
+
│ ├── parsers/ # Парсеры (mtproto_parser, web_parser)
|
|
211
|
+
│ ├── storage/ # Вывод и хранение (JSON, CSV, TXT, SQLite)
|
|
212
|
+
│ ├── models/ # Модели данных (Message)
|
|
213
|
+
│ ├── cli.py # CLI-интерфейс (Click)
|
|
214
|
+
│ ├── config.py # Загрузка конфигурации
|
|
215
|
+
│ └── utils.py # Вспомогательные функции
|
|
216
|
+
├── tests/ # Тесты (pytest)
|
|
217
|
+
├── data/
|
|
218
|
+
│ ├── output/ # Результаты парсинга
|
|
219
|
+
│ └── sessions/ # Сохранённые сессии
|
|
220
|
+
├── docs/ # Документация
|
|
221
|
+
├── config.yaml # Конфигурация (опционально)
|
|
222
|
+
├── .env # Секреты (не в git)
|
|
223
|
+
├── pyproject.toml # Настройки проекта
|
|
224
|
+
└── README.md # Этот файл
|
|
225
|
+
```
|
|
226
|
+
|
|
227
|
+
---
|
|
228
|
+
|
|
229
|
+
## Разработка
|
|
230
|
+
|
|
231
|
+
### Запуск тестов
|
|
232
|
+
|
|
233
|
+
```bash
|
|
234
|
+
pytest tests/ -v
|
|
235
|
+
```
|
|
236
|
+
|
|
237
|
+
### Линтинг и форматирование
|
|
238
|
+
|
|
239
|
+
```bash
|
|
240
|
+
ruff check src/ tests/
|
|
241
|
+
ruff format src/ tests/
|
|
242
|
+
```
|
|
243
|
+
|
|
244
|
+
### Сборка пакета
|
|
245
|
+
|
|
246
|
+
```bash
|
|
247
|
+
python -m build
|
|
248
|
+
```
|
|
249
|
+
|
|
250
|
+
---
|
|
251
|
+
|
|
252
|
+
## Совместимость
|
|
253
|
+
|
|
254
|
+
- **Python**: 3.11, 3.12
|
|
255
|
+
- **ОС**: Windows, Linux, macOS
|
|
256
|
+
- **Браузер**: Chromium (устанавливается через `playwright install chromium`)
|
|
257
|
+
|
|
258
|
+
---
|
|
259
|
+
|
|
260
|
+
## Планы
|
|
261
|
+
|
|
262
|
+
- [x] Авторизация (Web + MTProto)
|
|
263
|
+
- [x] Парсинг открытых каналов (MTProto)
|
|
264
|
+
- [x] Парсинг закрытых каналов (Web)
|
|
265
|
+
- [x] Обход защиты от копирования
|
|
266
|
+
- [x] Вывод (JSON, CSV, TXT, SQLite)
|
|
267
|
+
- [x] Инкрементальный парсинг
|
|
268
|
+
- [ ] Поддержка Telegram Premium (MTProto)
|
|
269
|
+
- [ ] Парсинг комментариев
|
|
270
|
+
- [ ] GUI-интерфейс
|
|
271
|
+
|
|
272
|
+
Полный roadmap: [docs/roadmap.md](docs/roadmap.md)
|
|
273
|
+
|
|
274
|
+
---
|
|
275
|
+
|
|
276
|
+
## Лицензия
|
|
277
|
+
|
|
278
|
+
Проект распространяется под лицензией MIT. Подробнее — в файле [LICENSE](LICENSE).
|
|
@@ -0,0 +1,247 @@
|
|
|
1
|
+
# TgParser
|
|
2
|
+
|
|
3
|
+
**Telegram-канал парсер** — утилита для извлечения сообщений из открытых (MTProto API) и закрытых (Web HTML) Telegram-каналов.
|
|
4
|
+
|
|
5
|
+
[](https://www.python.org/)
|
|
6
|
+
[](LICENSE)
|
|
7
|
+
[](https://github.com/astral-sh/ruff)
|
|
8
|
+
|
|
9
|
+
---
|
|
10
|
+
|
|
11
|
+
## Возможности
|
|
12
|
+
|
|
13
|
+
- **Авторизация** через QR-код (Web) или MTProto (Telethon) с сохранением сессии
|
|
14
|
+
- **Парсинг открытых каналов** — прямое чтение через MTProto API (Telethon)
|
|
15
|
+
- **Парсинг закрытых каналов** — чтение через web-версию Telegram (Playwright + BeautifulSoup)
|
|
16
|
+
- **Обход защиты от копирования** — автоматическое снятие CSS `user-select: none`, блокировки контекстного меню
|
|
17
|
+
- **Вывод данных** в JSON, CSV, plain-text или SQLite
|
|
18
|
+
- **Инкрементальный парсинг** — сохранение только новых сообщений
|
|
19
|
+
- **CLI-интерфейс** на базе Click
|
|
20
|
+
|
|
21
|
+
---
|
|
22
|
+
|
|
23
|
+
## Установка
|
|
24
|
+
|
|
25
|
+
### Из исходного кода
|
|
26
|
+
|
|
27
|
+
```bash
|
|
28
|
+
# Клонировать репозиторий
|
|
29
|
+
git clone https://github.com/borodatych/tgparser.git
|
|
30
|
+
cd tgparser
|
|
31
|
+
|
|
32
|
+
# Создать виртуальное окружение
|
|
33
|
+
python -m venv .venv
|
|
34
|
+
source .venv/bin/activate # Linux/macOS
|
|
35
|
+
.venv\Scripts\activate # Windows
|
|
36
|
+
|
|
37
|
+
# Установить пакет с dev-зависимостями
|
|
38
|
+
pip install -e ".[dev]"
|
|
39
|
+
|
|
40
|
+
# Установить Playwright браузеры (требуется для web-парсера)
|
|
41
|
+
playwright install chromium
|
|
42
|
+
```
|
|
43
|
+
|
|
44
|
+
### Через pip (после релиза)
|
|
45
|
+
|
|
46
|
+
```bash
|
|
47
|
+
pip install tgparser-cli
|
|
48
|
+
playwright install chromium
|
|
49
|
+
```
|
|
50
|
+
|
|
51
|
+
---
|
|
52
|
+
|
|
53
|
+
## Настройка
|
|
54
|
+
|
|
55
|
+
### 1. Переменные окружения
|
|
56
|
+
|
|
57
|
+
Скопируйте `.env.example` в `.env` и заполните:
|
|
58
|
+
|
|
59
|
+
```bash
|
|
60
|
+
cp .env.example .env
|
|
61
|
+
```
|
|
62
|
+
|
|
63
|
+
Обязательные переменные:
|
|
64
|
+
|
|
65
|
+
| Переменная | Описание |
|
|
66
|
+
|-----------|----------|
|
|
67
|
+
| `API_ID` | API ID из [my.telegram.org](https://my.telegram.org/apps) |
|
|
68
|
+
| `API_HASH` | API Hash оттуда же |
|
|
69
|
+
| `PHONE_NUMBER` | Номер телефона для MTProto-авторизации (в международном формате) |
|
|
70
|
+
|
|
71
|
+
### 2. Конфигурационный файл (опционально)
|
|
72
|
+
|
|
73
|
+
Создайте `config.yaml` в корне проекта:
|
|
74
|
+
|
|
75
|
+
```yaml
|
|
76
|
+
parsing:
|
|
77
|
+
scroll_delay_ms: 1500 # задержка между скроллами (web-парсер)
|
|
78
|
+
max_messages: 1000 # лимит сообщений за один запуск
|
|
79
|
+
rate_limit_sleep: 30 # пауза при FloodWait (сек)
|
|
80
|
+
|
|
81
|
+
storage:
|
|
82
|
+
output_dir: data/output
|
|
83
|
+
session_dir: data/sessions
|
|
84
|
+
```
|
|
85
|
+
|
|
86
|
+
---
|
|
87
|
+
|
|
88
|
+
## Использование
|
|
89
|
+
|
|
90
|
+
### Авторизация
|
|
91
|
+
|
|
92
|
+
```bash
|
|
93
|
+
# Web-авторизация (QR-код) — для закрытых каналов
|
|
94
|
+
tgparser auth
|
|
95
|
+
|
|
96
|
+
# Принудительная переавторизация
|
|
97
|
+
tgparser auth --force
|
|
98
|
+
|
|
99
|
+
# MTProto-авторизация — для открытых каналов
|
|
100
|
+
tgparser auth --type mtproto
|
|
101
|
+
```
|
|
102
|
+
|
|
103
|
+
### Парсинг открытого канала (MTProto)
|
|
104
|
+
|
|
105
|
+
```bash
|
|
106
|
+
tgparser parse open @channel_username
|
|
107
|
+
```
|
|
108
|
+
|
|
109
|
+
Опции:
|
|
110
|
+
- `--limit N` — максимум сообщений (по умолчанию 100)
|
|
111
|
+
- `--since YYYY-MM-DD` — фильтр по дате (сообщения не старше указанной)
|
|
112
|
+
- `--until YYYY-MM-DD` — фильтр по дате (сообщения не новее указанной)
|
|
113
|
+
- `--offset N` — смещение от последнего сообщения
|
|
114
|
+
|
|
115
|
+
### Парсинг закрытого канала (Web)
|
|
116
|
+
|
|
117
|
+
```bash
|
|
118
|
+
tgparser parse closed https://t.me/channel_username
|
|
119
|
+
```
|
|
120
|
+
|
|
121
|
+
Опции:
|
|
122
|
+
- `--limit N` — максимум сообщений
|
|
123
|
+
- `--since YYYY-MM-DD` — фильтр по дате
|
|
124
|
+
- `--until YYYY-MM-DD` — фильтр по дате
|
|
125
|
+
|
|
126
|
+
> **Примечание:** Для закрытых каналов требуется предварительная web-авторизация (`tgparser auth`).
|
|
127
|
+
|
|
128
|
+
### Экспорт
|
|
129
|
+
|
|
130
|
+
```bash
|
|
131
|
+
# Вывод в консоль (plain-text)
|
|
132
|
+
tgparser export --input data/output/messages.json
|
|
133
|
+
|
|
134
|
+
# Сохранение в JSON
|
|
135
|
+
tgparser export --input data/output/messages.json --format json --output data/output/export.json
|
|
136
|
+
|
|
137
|
+
# Сохранение в CSV
|
|
138
|
+
tgparser export --input data/output/messages.json --format csv --output data/output/export.csv
|
|
139
|
+
|
|
140
|
+
# Сохранение в SQLite
|
|
141
|
+
tgparser export --input data/output/messages.json --format sqlite --output data/output/export.db
|
|
142
|
+
|
|
143
|
+
# Инкрементальный экспорт (только новые сообщения)
|
|
144
|
+
tgparser export --input data/output/messages.json --incremental
|
|
145
|
+
```
|
|
146
|
+
|
|
147
|
+
---
|
|
148
|
+
|
|
149
|
+
## Примеры
|
|
150
|
+
|
|
151
|
+
### Сохранить 50 последних сообщений из открытого канала в JSON
|
|
152
|
+
|
|
153
|
+
```bash
|
|
154
|
+
tgparser parse open @python_news --limit 50 --format json --output data/output/python_news.json
|
|
155
|
+
```
|
|
156
|
+
|
|
157
|
+
### Сохранить сообщения из закрытого канала за последнюю неделю
|
|
158
|
+
|
|
159
|
+
```bash
|
|
160
|
+
tgparser parse closed https://t.me/private_channel --since 2025-01-01
|
|
161
|
+
```
|
|
162
|
+
|
|
163
|
+
### Экспортировать в CSV с инкрементальным режимом
|
|
164
|
+
|
|
165
|
+
```bash
|
|
166
|
+
tgparser parse open @tech_news --format csv --output data/output/tech_news.csv
|
|
167
|
+
tgparser export --input data/output/tech_news.csv --incremental
|
|
168
|
+
```
|
|
169
|
+
|
|
170
|
+
---
|
|
171
|
+
|
|
172
|
+
## Структура проекта
|
|
173
|
+
|
|
174
|
+
```
|
|
175
|
+
tgparser/
|
|
176
|
+
├── src/
|
|
177
|
+
│ └── tgparser/
|
|
178
|
+
│ ├── auth/ # Модули авторизации (web, mtproto)
|
|
179
|
+
│ ├── parsers/ # Парсеры (mtproto_parser, web_parser)
|
|
180
|
+
│ ├── storage/ # Вывод и хранение (JSON, CSV, TXT, SQLite)
|
|
181
|
+
│ ├── models/ # Модели данных (Message)
|
|
182
|
+
│ ├── cli.py # CLI-интерфейс (Click)
|
|
183
|
+
│ ├── config.py # Загрузка конфигурации
|
|
184
|
+
│ └── utils.py # Вспомогательные функции
|
|
185
|
+
├── tests/ # Тесты (pytest)
|
|
186
|
+
├── data/
|
|
187
|
+
│ ├── output/ # Результаты парсинга
|
|
188
|
+
│ └── sessions/ # Сохранённые сессии
|
|
189
|
+
├── docs/ # Документация
|
|
190
|
+
├── config.yaml # Конфигурация (опционально)
|
|
191
|
+
├── .env # Секреты (не в git)
|
|
192
|
+
├── pyproject.toml # Настройки проекта
|
|
193
|
+
└── README.md # Этот файл
|
|
194
|
+
```
|
|
195
|
+
|
|
196
|
+
---
|
|
197
|
+
|
|
198
|
+
## Разработка
|
|
199
|
+
|
|
200
|
+
### Запуск тестов
|
|
201
|
+
|
|
202
|
+
```bash
|
|
203
|
+
pytest tests/ -v
|
|
204
|
+
```
|
|
205
|
+
|
|
206
|
+
### Линтинг и форматирование
|
|
207
|
+
|
|
208
|
+
```bash
|
|
209
|
+
ruff check src/ tests/
|
|
210
|
+
ruff format src/ tests/
|
|
211
|
+
```
|
|
212
|
+
|
|
213
|
+
### Сборка пакета
|
|
214
|
+
|
|
215
|
+
```bash
|
|
216
|
+
python -m build
|
|
217
|
+
```
|
|
218
|
+
|
|
219
|
+
---
|
|
220
|
+
|
|
221
|
+
## Совместимость
|
|
222
|
+
|
|
223
|
+
- **Python**: 3.11, 3.12
|
|
224
|
+
- **ОС**: Windows, Linux, macOS
|
|
225
|
+
- **Браузер**: Chromium (устанавливается через `playwright install chromium`)
|
|
226
|
+
|
|
227
|
+
---
|
|
228
|
+
|
|
229
|
+
## Планы
|
|
230
|
+
|
|
231
|
+
- [x] Авторизация (Web + MTProto)
|
|
232
|
+
- [x] Парсинг открытых каналов (MTProto)
|
|
233
|
+
- [x] Парсинг закрытых каналов (Web)
|
|
234
|
+
- [x] Обход защиты от копирования
|
|
235
|
+
- [x] Вывод (JSON, CSV, TXT, SQLite)
|
|
236
|
+
- [x] Инкрементальный парсинг
|
|
237
|
+
- [ ] Поддержка Telegram Premium (MTProto)
|
|
238
|
+
- [ ] Парсинг комментариев
|
|
239
|
+
- [ ] GUI-интерфейс
|
|
240
|
+
|
|
241
|
+
Полный roadmap: [docs/roadmap.md](docs/roadmap.md)
|
|
242
|
+
|
|
243
|
+
---
|
|
244
|
+
|
|
245
|
+
## Лицензия
|
|
246
|
+
|
|
247
|
+
Проект распространяется под лицензией MIT. Подробнее — в файле [LICENSE](LICENSE).
|
|
@@ -0,0 +1,60 @@
|
|
|
1
|
+
[build-system]
|
|
2
|
+
requires = ["setuptools>=68.0", "wheel"]
|
|
3
|
+
build-backend = "setuptools.build_meta"
|
|
4
|
+
|
|
5
|
+
[project]
|
|
6
|
+
name = "tgparser-cli"
|
|
7
|
+
version = "0.1.0"
|
|
8
|
+
description = "Telegram channel parser — extract messages from open (MTProto) and closed (web) channels"
|
|
9
|
+
readme = "README.md"
|
|
10
|
+
license = "MIT"
|
|
11
|
+
license-files = ["LICENSE"]
|
|
12
|
+
requires-python = ">=3.11"
|
|
13
|
+
authors = [{name = "borodatych"}]
|
|
14
|
+
classifiers = [
|
|
15
|
+
"Development Status :: 3 - Alpha",
|
|
16
|
+
"Programming Language :: Python :: 3.11",
|
|
17
|
+
"Programming Language :: Python :: 3.12",
|
|
18
|
+
"Operating System :: OS Independent",
|
|
19
|
+
"Topic :: Communications :: Chat",
|
|
20
|
+
"Topic :: Internet :: WWW/HTTP :: Indexing/Search",
|
|
21
|
+
]
|
|
22
|
+
dependencies = [
|
|
23
|
+
"telethon>=1.35",
|
|
24
|
+
"playwright>=1.45",
|
|
25
|
+
"beautifulsoup4>=4.12",
|
|
26
|
+
"lxml>=5.2",
|
|
27
|
+
"click>=8.1",
|
|
28
|
+
"python-dotenv>=1.0",
|
|
29
|
+
"pyyaml>=6.0",
|
|
30
|
+
]
|
|
31
|
+
|
|
32
|
+
[project.optional-dependencies]
|
|
33
|
+
dev = [
|
|
34
|
+
"pytest>=8.2",
|
|
35
|
+
"pytest-asyncio>=0.23",
|
|
36
|
+
"ruff>=0.4",
|
|
37
|
+
]
|
|
38
|
+
|
|
39
|
+
[project.scripts]
|
|
40
|
+
tgparser = "tgparser.cli:main"
|
|
41
|
+
|
|
42
|
+
[project.urls]
|
|
43
|
+
Homepage = "https://github.com/borodatych/tgparser"
|
|
44
|
+
Repository = "https://github.com/borodatych/tgparser"
|
|
45
|
+
"Bug Tracker" = "https://github.com/borodatych/tgparser/issues"
|
|
46
|
+
|
|
47
|
+
[tool.setuptools.packages.find]
|
|
48
|
+
where = ["src"]
|
|
49
|
+
|
|
50
|
+
[tool.ruff]
|
|
51
|
+
target-version = "py311"
|
|
52
|
+
line-length = 100
|
|
53
|
+
src = ["src"]
|
|
54
|
+
|
|
55
|
+
[tool.ruff.lint]
|
|
56
|
+
select = ["E", "F", "I", "N", "W", "UP", "B", "C4", "SIM"]
|
|
57
|
+
|
|
58
|
+
[tool.ruff.format]
|
|
59
|
+
quote-style = "double"
|
|
60
|
+
indent-style = "space"
|