PyPI - webscout - Versions diffs - 8.2.9__py3-none-any.whl → 2026.1.19__py3-none-any.whl - Mend

webscout 8.2.9py3-none-any.whl → 2026.1.19py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (413) hide show

webscout/AIauto.py +524 -251
webscout/AIbase.py +247 -319
webscout/AIutel.py +68 -703
webscout/Bard.py +1072 -1026
webscout/Extra/GitToolkit/__init__.py +10 -10
webscout/Extra/GitToolkit/gitapi/__init__.py +20 -12
webscout/Extra/GitToolkit/gitapi/gist.py +142 -0
webscout/Extra/GitToolkit/gitapi/organization.py +91 -0
webscout/Extra/GitToolkit/gitapi/repository.py +308 -195
webscout/Extra/GitToolkit/gitapi/search.py +162 -0
webscout/Extra/GitToolkit/gitapi/trending.py +236 -0
webscout/Extra/GitToolkit/gitapi/user.py +128 -96
webscout/Extra/GitToolkit/gitapi/utils.py +82 -62
webscout/Extra/YTToolkit/README.md +443 -375
webscout/Extra/YTToolkit/YTdownloader.py +953 -957
webscout/Extra/YTToolkit/__init__.py +3 -3
webscout/Extra/YTToolkit/transcriber.py +595 -476
webscout/Extra/YTToolkit/ytapi/README.md +230 -44
webscout/Extra/YTToolkit/ytapi/__init__.py +22 -6
webscout/Extra/YTToolkit/ytapi/captions.py +190 -0
webscout/Extra/YTToolkit/ytapi/channel.py +302 -307
webscout/Extra/YTToolkit/ytapi/errors.py +13 -13
webscout/Extra/YTToolkit/ytapi/extras.py +178 -118
webscout/Extra/YTToolkit/ytapi/hashtag.py +120 -0
webscout/Extra/YTToolkit/ytapi/https.py +89 -88
webscout/Extra/YTToolkit/ytapi/patterns.py +61 -61
webscout/Extra/YTToolkit/ytapi/playlist.py +59 -59
webscout/Extra/YTToolkit/ytapi/pool.py +8 -8
webscout/Extra/YTToolkit/ytapi/query.py +143 -40
webscout/Extra/YTToolkit/ytapi/shorts.py +122 -0
webscout/Extra/YTToolkit/ytapi/stream.py +68 -63
webscout/Extra/YTToolkit/ytapi/suggestions.py +97 -0
webscout/Extra/YTToolkit/ytapi/utils.py +66 -62
webscout/Extra/YTToolkit/ytapi/video.py +403 -232
webscout/Extra/__init__.py +2 -3
webscout/Extra/gguf.py +1298 -684
webscout/Extra/tempmail/README.md +487 -487
webscout/Extra/tempmail/__init__.py +28 -28
webscout/Extra/tempmail/async_utils.py +143 -141
webscout/Extra/tempmail/base.py +172 -161
webscout/Extra/tempmail/cli.py +191 -187
webscout/Extra/tempmail/emailnator.py +88 -84
webscout/Extra/tempmail/mail_tm.py +378 -361
webscout/Extra/tempmail/temp_mail_io.py +304 -292
webscout/Extra/weather.py +196 -194
webscout/Extra/weather_ascii.py +17 -15
webscout/Provider/AISEARCH/PERPLEXED_search.py +175 -0
webscout/Provider/AISEARCH/Perplexity.py +292 -333
webscout/Provider/AISEARCH/README.md +106 -279
webscout/Provider/AISEARCH/__init__.py +16 -9
webscout/Provider/AISEARCH/brave_search.py +298 -0
webscout/Provider/AISEARCH/iask_search.py +357 -410
webscout/Provider/AISEARCH/monica_search.py +200 -220
webscout/Provider/AISEARCH/webpilotai_search.py +242 -255
webscout/Provider/Algion.py +413 -0
webscout/Provider/Andi.py +74 -69
webscout/Provider/Apriel.py +313 -0
webscout/Provider/Ayle.py +323 -0
webscout/Provider/ChatSandbox.py +329 -342
webscout/Provider/ClaudeOnline.py +365 -0
webscout/Provider/Cohere.py +232 -208
webscout/Provider/DeepAI.py +367 -0
webscout/Provider/Deepinfra.py +467 -340
webscout/Provider/EssentialAI.py +217 -0
webscout/Provider/ExaAI.py +274 -261
webscout/Provider/Gemini.py +175 -169
webscout/Provider/GithubChat.py +385 -369
webscout/Provider/Gradient.py +286 -0
webscout/Provider/Groq.py +556 -801
webscout/Provider/HadadXYZ.py +323 -0
webscout/Provider/HeckAI.py +392 -375
webscout/Provider/HuggingFace.py +387 -0
webscout/Provider/IBM.py +340 -0
webscout/Provider/Jadve.py +317 -291
webscout/Provider/K2Think.py +306 -0
webscout/Provider/Koboldai.py +221 -384
webscout/Provider/Netwrck.py +273 -270
webscout/Provider/Nvidia.py +310 -0
webscout/Provider/OPENAI/DeepAI.py +489 -0
webscout/Provider/OPENAI/K2Think.py +423 -0
webscout/Provider/OPENAI/PI.py +463 -0
webscout/Provider/OPENAI/README.md +890 -952
webscout/Provider/OPENAI/TogetherAI.py +405 -0
webscout/Provider/OPENAI/TwoAI.py +255 -357
webscout/Provider/OPENAI/__init__.py +148 -40
webscout/Provider/OPENAI/ai4chat.py +348 -293
webscout/Provider/OPENAI/akashgpt.py +436 -0
webscout/Provider/OPENAI/algion.py +303 -0
webscout/Provider/OPENAI/{exachat.py → ayle.py} +365 -444
webscout/Provider/OPENAI/base.py +253 -249
webscout/Provider/OPENAI/cerebras.py +296 -0
webscout/Provider/OPENAI/chatgpt.py +870 -556
webscout/Provider/OPENAI/chatsandbox.py +233 -173
webscout/Provider/OPENAI/deepinfra.py +403 -322
webscout/Provider/OPENAI/e2b.py +2370 -1414
webscout/Provider/OPENAI/elmo.py +278 -0
webscout/Provider/OPENAI/exaai.py +452 -417
webscout/Provider/OPENAI/freeassist.py +446 -0
webscout/Provider/OPENAI/gradient.py +448 -0
webscout/Provider/OPENAI/groq.py +380 -364
webscout/Provider/OPENAI/hadadxyz.py +292 -0
webscout/Provider/OPENAI/heckai.py +333 -308
webscout/Provider/OPENAI/huggingface.py +321 -0
webscout/Provider/OPENAI/ibm.py +425 -0
webscout/Provider/OPENAI/llmchat.py +253 -0
webscout/Provider/OPENAI/llmchatco.py +378 -335
webscout/Provider/OPENAI/meta.py +541 -0
webscout/Provider/OPENAI/netwrck.py +374 -357
webscout/Provider/OPENAI/nvidia.py +317 -0
webscout/Provider/OPENAI/oivscode.py +348 -287
webscout/Provider/OPENAI/openrouter.py +328 -0
webscout/Provider/OPENAI/pydantic_imports.py +1 -172
webscout/Provider/OPENAI/sambanova.py +397 -0
webscout/Provider/OPENAI/sonus.py +305 -304
webscout/Provider/OPENAI/textpollinations.py +370 -339
webscout/Provider/OPENAI/toolbaz.py +375 -413
webscout/Provider/OPENAI/typefully.py +419 -355
webscout/Provider/OPENAI/typliai.py +279 -0
webscout/Provider/OPENAI/utils.py +314 -318
webscout/Provider/OPENAI/wisecat.py +359 -387
webscout/Provider/OPENAI/writecream.py +185 -163
webscout/Provider/OPENAI/x0gpt.py +462 -365
webscout/Provider/OPENAI/zenmux.py +380 -0
webscout/Provider/OpenRouter.py +386 -0
webscout/Provider/Openai.py +337 -496
webscout/Provider/PI.py +443 -429
webscout/Provider/QwenLM.py +346 -254
webscout/Provider/STT/__init__.py +28 -0
webscout/Provider/STT/base.py +303 -0
webscout/Provider/STT/elevenlabs.py +264 -0
webscout/Provider/Sambanova.py +317 -0
webscout/Provider/TTI/README.md +69 -82
webscout/Provider/TTI/__init__.py +37 -7
webscout/Provider/TTI/base.py +147 -64
webscout/Provider/TTI/claudeonline.py +393 -0
webscout/Provider/TTI/magicstudio.py +292 -201
webscout/Provider/TTI/miragic.py +180 -0
webscout/Provider/TTI/pollinations.py +331 -221
webscout/Provider/TTI/together.py +334 -0
webscout/Provider/TTI/utils.py +14 -11
webscout/Provider/TTS/README.md +186 -192
webscout/Provider/TTS/__init__.py +43 -10
webscout/Provider/TTS/base.py +523 -159
webscout/Provider/TTS/deepgram.py +286 -156
webscout/Provider/TTS/elevenlabs.py +189 -111
webscout/Provider/TTS/freetts.py +218 -0
webscout/Provider/TTS/murfai.py +288 -113
webscout/Provider/TTS/openai_fm.py +364 -129
webscout/Provider/TTS/parler.py +203 -111
webscout/Provider/TTS/qwen.py +334 -0
webscout/Provider/TTS/sherpa.py +286 -0
webscout/Provider/TTS/speechma.py +693 -580
webscout/Provider/TTS/streamElements.py +275 -333
webscout/Provider/TTS/utils.py +280 -280
webscout/Provider/TextPollinationsAI.py +331 -308
webscout/Provider/TogetherAI.py +450 -0
webscout/Provider/TwoAI.py +309 -475
webscout/Provider/TypliAI.py +311 -305
webscout/Provider/UNFINISHED/ChatHub.py +219 -209
webscout/Provider/{OPENAI/glider.py → UNFINISHED/ChutesAI.py} +331 -326
webscout/Provider/{GizAI.py → UNFINISHED/GizAI.py} +300 -295
webscout/Provider/{Marcus.py → UNFINISHED/Marcus.py} +218 -198
webscout/Provider/UNFINISHED/Qodo.py +481 -0
webscout/Provider/{MCPCore.py → UNFINISHED/XenAI.py} +330 -315
webscout/Provider/UNFINISHED/Youchat.py +347 -330
webscout/Provider/UNFINISHED/aihumanizer.py +41 -0
webscout/Provider/UNFINISHED/grammerchecker.py +37 -0
webscout/Provider/UNFINISHED/liner.py +342 -0
webscout/Provider/UNFINISHED/liner_api_request.py +246 -263
webscout/Provider/{samurai.py → UNFINISHED/samurai.py} +231 -224
webscout/Provider/WiseCat.py +256 -233
webscout/Provider/WrDoChat.py +390 -370
webscout/Provider/__init__.py +115 -174
webscout/Provider/ai4chat.py +181 -174
webscout/Provider/akashgpt.py +330 -335
webscout/Provider/cerebras.py +397 -290
webscout/Provider/cleeai.py +236 -213
webscout/Provider/elmo.py +291 -283
webscout/Provider/geminiapi.py +343 -208
webscout/Provider/julius.py +245 -223
webscout/Provider/learnfastai.py +333 -325
webscout/Provider/llama3mitril.py +230 -215
webscout/Provider/llmchat.py +308 -258
webscout/Provider/llmchatco.py +321 -306
webscout/Provider/meta.py +996 -801
webscout/Provider/oivscode.py +332 -309
webscout/Provider/searchchat.py +316 -292
webscout/Provider/sonus.py +264 -258
webscout/Provider/toolbaz.py +359 -353
webscout/Provider/turboseek.py +332 -266
webscout/Provider/typefully.py +262 -202
webscout/Provider/x0gpt.py +332 -299
webscout/__init__.py +31 -39
webscout/__main__.py +5 -5
webscout/cli.py +585 -524
webscout/client.py +1497 -70
webscout/conversation.py +140 -436
webscout/exceptions.py +383 -362
webscout/litagent/__init__.py +29 -29
webscout/litagent/agent.py +492 -455
webscout/litagent/constants.py +60 -60
webscout/models.py +505 -181
webscout/optimizers.py +74 -420
webscout/prompt_manager.py +376 -288
webscout/sanitize.py +1514 -0
webscout/scout/README.md +452 -404
webscout/scout/__init__.py +8 -8
webscout/scout/core/__init__.py +7 -7
webscout/scout/core/crawler.py +330 -210
webscout/scout/core/scout.py +800 -607
webscout/scout/core/search_result.py +51 -96
webscout/scout/core/text_analyzer.py +64 -63
webscout/scout/core/text_utils.py +412 -277
webscout/scout/core/web_analyzer.py +54 -52
webscout/scout/element.py +872 -478
webscout/scout/parsers/__init__.py +70 -69
webscout/scout/parsers/html5lib_parser.py +182 -172
webscout/scout/parsers/html_parser.py +238 -236
webscout/scout/parsers/lxml_parser.py +203 -178
webscout/scout/utils.py +38 -37
webscout/search/__init__.py +47 -0
webscout/search/base.py +201 -0
webscout/search/bing_main.py +45 -0
webscout/search/brave_main.py +92 -0
webscout/search/duckduckgo_main.py +57 -0
webscout/search/engines/__init__.py +127 -0
webscout/search/engines/bing/__init__.py +15 -0
webscout/search/engines/bing/base.py +35 -0
webscout/search/engines/bing/images.py +114 -0
webscout/search/engines/bing/news.py +96 -0
webscout/search/engines/bing/suggestions.py +36 -0
webscout/search/engines/bing/text.py +109 -0
webscout/search/engines/brave/__init__.py +19 -0
webscout/search/engines/brave/base.py +47 -0
webscout/search/engines/brave/images.py +213 -0
webscout/search/engines/brave/news.py +353 -0
webscout/search/engines/brave/suggestions.py +318 -0
webscout/search/engines/brave/text.py +167 -0
webscout/search/engines/brave/videos.py +364 -0
webscout/search/engines/duckduckgo/__init__.py +25 -0
webscout/search/engines/duckduckgo/answers.py +80 -0
webscout/search/engines/duckduckgo/base.py +189 -0
webscout/search/engines/duckduckgo/images.py +100 -0
webscout/search/engines/duckduckgo/maps.py +183 -0
webscout/search/engines/duckduckgo/news.py +70 -0
webscout/search/engines/duckduckgo/suggestions.py +22 -0
webscout/search/engines/duckduckgo/text.py +221 -0
webscout/search/engines/duckduckgo/translate.py +48 -0
webscout/search/engines/duckduckgo/videos.py +80 -0
webscout/search/engines/duckduckgo/weather.py +84 -0
webscout/search/engines/mojeek.py +61 -0
webscout/search/engines/wikipedia.py +77 -0
webscout/search/engines/yahoo/__init__.py +41 -0
webscout/search/engines/yahoo/answers.py +19 -0
webscout/search/engines/yahoo/base.py +34 -0
webscout/search/engines/yahoo/images.py +323 -0
webscout/search/engines/yahoo/maps.py +19 -0
webscout/search/engines/yahoo/news.py +258 -0
webscout/search/engines/yahoo/suggestions.py +140 -0
webscout/search/engines/yahoo/text.py +273 -0
webscout/search/engines/yahoo/translate.py +19 -0
webscout/search/engines/yahoo/videos.py +302 -0
webscout/search/engines/yahoo/weather.py +220 -0
webscout/search/engines/yandex.py +67 -0
webscout/search/engines/yep/__init__.py +13 -0
webscout/search/engines/yep/base.py +34 -0
webscout/search/engines/yep/images.py +101 -0
webscout/search/engines/yep/suggestions.py +38 -0
webscout/search/engines/yep/text.py +99 -0
webscout/search/http_client.py +172 -0
webscout/search/results.py +141 -0
webscout/search/yahoo_main.py +57 -0
webscout/search/yep_main.py +48 -0
webscout/server/__init__.py +48 -0
webscout/server/config.py +78 -0
webscout/server/exceptions.py +69 -0
webscout/server/providers.py +286 -0
webscout/server/request_models.py +131 -0
webscout/server/request_processing.py +404 -0
webscout/server/routes.py +642 -0
webscout/server/server.py +351 -0
webscout/server/ui_templates.py +1171 -0
webscout/swiftcli/__init__.py +79 -95
webscout/swiftcli/core/__init__.py +7 -7
webscout/swiftcli/core/cli.py +574 -297
webscout/swiftcli/core/context.py +98 -104
webscout/swiftcli/core/group.py +268 -241
webscout/swiftcli/decorators/__init__.py +28 -28
webscout/swiftcli/decorators/command.py +243 -221
webscout/swiftcli/decorators/options.py +247 -220
webscout/swiftcli/decorators/output.py +392 -252
webscout/swiftcli/exceptions.py +21 -21
webscout/swiftcli/plugins/__init__.py +9 -9
webscout/swiftcli/plugins/base.py +134 -135
webscout/swiftcli/plugins/manager.py +269 -269
webscout/swiftcli/utils/__init__.py +58 -59
webscout/swiftcli/utils/formatting.py +251 -252
webscout/swiftcli/utils/parsing.py +368 -267
webscout/update_checker.py +280 -136
webscout/utils.py +28 -14
webscout/version.py +2 -1
webscout/version.py.bak +3 -0
webscout/zeroart/__init__.py +218 -135
webscout/zeroart/base.py +70 -66
webscout/zeroart/effects.py +155 -101
webscout/zeroart/fonts.py +1799 -1239
webscout-2026.1.19.dist-info/METADATA +638 -0
webscout-2026.1.19.dist-info/RECORD +312 -0
{webscout-8.2.9.dist-info → webscout-2026.1.19.dist-info}/WHEEL +1 -1
{webscout-8.2.9.dist-info → webscout-2026.1.19.dist-info}/entry_points.txt +1 -1
webscout/DWEBS.py +0 -520
webscout/Extra/Act.md +0 -309
webscout/Extra/GitToolkit/gitapi/README.md +0 -110
webscout/Extra/autocoder/__init__.py +0 -9
webscout/Extra/autocoder/autocoder.py +0 -1105
webscout/Extra/autocoder/autocoder_utiles.py +0 -332
webscout/Extra/gguf.md +0 -430
webscout/Extra/weather.md +0 -281
webscout/Litlogger/README.md +0 -10
webscout/Litlogger/__init__.py +0 -15
webscout/Litlogger/formats.py +0 -4
webscout/Litlogger/handlers.py +0 -103
webscout/Litlogger/levels.py +0 -13
webscout/Litlogger/logger.py +0 -92
webscout/Provider/AI21.py +0 -177
webscout/Provider/AISEARCH/DeepFind.py +0 -254
webscout/Provider/AISEARCH/felo_search.py +0 -202
webscout/Provider/AISEARCH/genspark_search.py +0 -324
webscout/Provider/AISEARCH/hika_search.py +0 -186
webscout/Provider/AISEARCH/scira_search.py +0 -298
webscout/Provider/Aitopia.py +0 -316
webscout/Provider/AllenAI.py +0 -440
webscout/Provider/Blackboxai.py +0 -791
webscout/Provider/ChatGPTClone.py +0 -237
webscout/Provider/ChatGPTGratis.py +0 -194
webscout/Provider/Cloudflare.py +0 -324
webscout/Provider/ExaChat.py +0 -358
webscout/Provider/Flowith.py +0 -217
webscout/Provider/FreeGemini.py +0 -250
webscout/Provider/Glider.py +0 -225
webscout/Provider/HF_space/__init__.py +0 -0
webscout/Provider/HF_space/qwen_qwen2.py +0 -206
webscout/Provider/HuggingFaceChat.py +0 -469
webscout/Provider/Hunyuan.py +0 -283
webscout/Provider/LambdaChat.py +0 -411
webscout/Provider/Llama3.py +0 -259
webscout/Provider/Nemotron.py +0 -218
webscout/Provider/OLLAMA.py +0 -396
webscout/Provider/OPENAI/BLACKBOXAI.py +0 -766
webscout/Provider/OPENAI/Cloudflare.py +0 -378
webscout/Provider/OPENAI/FreeGemini.py +0 -283
webscout/Provider/OPENAI/NEMOTRON.py +0 -232
webscout/Provider/OPENAI/Qwen3.py +0 -283
webscout/Provider/OPENAI/api.py +0 -969
webscout/Provider/OPENAI/c4ai.py +0 -373
webscout/Provider/OPENAI/chatgptclone.py +0 -494
webscout/Provider/OPENAI/copilot.py +0 -242
webscout/Provider/OPENAI/flowith.py +0 -162
webscout/Provider/OPENAI/freeaichat.py +0 -359
webscout/Provider/OPENAI/mcpcore.py +0 -389
webscout/Provider/OPENAI/multichat.py +0 -376
webscout/Provider/OPENAI/opkfc.py +0 -496
webscout/Provider/OPENAI/scirachat.py +0 -477
webscout/Provider/OPENAI/standardinput.py +0 -433
webscout/Provider/OPENAI/typegpt.py +0 -364
webscout/Provider/OPENAI/uncovrAI.py +0 -463
webscout/Provider/OPENAI/venice.py +0 -431
webscout/Provider/OPENAI/yep.py +0 -382
webscout/Provider/OpenGPT.py +0 -209
webscout/Provider/Perplexitylabs.py +0 -415
webscout/Provider/Reka.py +0 -214
webscout/Provider/StandardInput.py +0 -290
webscout/Provider/TTI/aiarta.py +0 -365
webscout/Provider/TTI/artbit.py +0 -0
webscout/Provider/TTI/fastflux.py +0 -200
webscout/Provider/TTI/piclumen.py +0 -203
webscout/Provider/TTI/pixelmuse.py +0 -225
webscout/Provider/TTS/gesserit.py +0 -128
webscout/Provider/TTS/sthir.py +0 -94
webscout/Provider/TeachAnything.py +0 -229
webscout/Provider/UNFINISHED/puterjs.py +0 -635
webscout/Provider/UNFINISHED/test_lmarena.py +0 -119
webscout/Provider/Venice.py +0 -258
webscout/Provider/VercelAI.py +0 -253
webscout/Provider/Writecream.py +0 -246
webscout/Provider/WritingMate.py +0 -269
webscout/Provider/asksteve.py +0 -220
webscout/Provider/chatglm.py +0 -215
webscout/Provider/copilot.py +0 -425
webscout/Provider/freeaichat.py +0 -285
webscout/Provider/granite.py +0 -235
webscout/Provider/hermes.py +0 -266
webscout/Provider/koala.py +0 -170
webscout/Provider/lmarena.py +0 -198
webscout/Provider/multichat.py +0 -364
webscout/Provider/scira_chat.py +0 -299
webscout/Provider/scnet.py +0 -243
webscout/Provider/talkai.py +0 -194
webscout/Provider/typegpt.py +0 -289
webscout/Provider/uncovr.py +0 -368
webscout/Provider/yep.py +0 -389
webscout/litagent/Readme.md +0 -276
webscout/litprinter/__init__.py +0 -59
webscout/swiftcli/Readme.md +0 -323
webscout/tempid.py +0 -128
webscout/webscout_search.py +0 -1184
webscout/webscout_search_async.py +0 -654
webscout/yep_search.py +0 -347
webscout/zeroart/README.md +0 -89
webscout-8.2.9.dist-info/METADATA +0 -1033
webscout-8.2.9.dist-info/RECORD +0 -289
{webscout-8.2.9.dist-info → webscout-2026.1.19.dist-info}/licenses/LICENSE.md +0 -0
{webscout-8.2.9.dist-info → webscout-2026.1.19.dist-info}/top_level.txt +0 -0

webscout/scout/__init__.py CHANGED Viewed

@@ -1,8 +1,8 @@
-"""
-Scout: A powerful, zero-dependency web scraping library
-"""
-from .core import Scout, ScoutCrawler, ScoutTextAnalyzer, ScoutWebAnalyzer, ScoutSearchResult
-from .element import Tag, NavigableString
-__all__ = ['Scout', 'ScoutCrawler', 'Tag', 'NavigableString','ScoutTextAnalyzer', 'ScoutWebAnalyzer', 'ScoutSearchResult']
+"""
+Scout: A powerful, zero-dependency web scraping library
+"""
+from .core import Scout, ScoutCrawler, ScoutSearchResult, ScoutTextAnalyzer, ScoutWebAnalyzer
+from .element import NavigableString, Tag
+__all__ = ['Scout', 'ScoutCrawler', 'Tag', 'NavigableString','ScoutTextAnalyzer', 'ScoutWebAnalyzer', 'ScoutSearchResult']

webscout/scout/core/__init__.py CHANGED Viewed

@@ -1,7 +1,7 @@
-from .text_analyzer import ScoutTextAnalyzer
-from .web_analyzer import ScoutWebAnalyzer
-from .search_result import ScoutSearchResult
-from .crawler import ScoutCrawler
-from .scout import Scout
-__all__ = ['ScoutTextAnalyzer', 'ScoutWebAnalyzer', 'ScoutSearchResult', 'ScoutCrawler', 'Scout']
+from .crawler import ScoutCrawler
+from .scout import Scout
+from .search_result import ScoutSearchResult
+from .text_analyzer import ScoutTextAnalyzer
+from .web_analyzer import ScoutWebAnalyzer
+__all__ = ['ScoutTextAnalyzer', 'ScoutWebAnalyzer', 'ScoutSearchResult', 'ScoutCrawler', 'Scout']

webscout/scout/core/crawler.py CHANGED Viewed

@@ -1,210 +1,330 @@
-"""
-Scout Crawler Module
-"""
-import concurrent.futures
-import urllib.parse
-import time
-import hashlib
-import re
-from urllib import robotparser
-from datetime import datetime
-from typing import Dict, List, Optional, Union
-from webscout.litagent import LitAgent
-from curl_cffi.requests import Session
-from .scout import Scout
-class ScoutCrawler:
-    """
-    Advanced web crawling utility for Scout library.
-    """
-    def __init__(self, base_url: str, max_pages: int = 50, tags_to_remove: List[str] = None, session: Optional[Session] = None, delay: float = 0.5, obey_robots: bool = True, allowed_domains: Optional[List[str]] = None):
-        """
-        Initialize the web crawler.
-        Args:
-            base_url (str): Starting URL to crawl
-            max_pages (int, optional): Maximum number of pages to crawl
-            tags_to_remove (List[str], optional): List of tags to remove
-        """
-        self.base_url = base_url
-        self.max_pages = max_pages
-        self.tags_to_remove = tags_to_remove if tags_to_remove is not None else [
-            "script",
-            "style",
-            "header",
-            "footer",
-            "nav",
-            "aside",
-            "form",
-            "button",
-        ]
-        self.visited_urls = set()
-        self.crawled_pages = []
-        self.session = session or Session()
-        self.agent = LitAgent()
-        # Use all headers and generate fingerprint
-        self.session.headers = self.agent.generate_fingerprint()
-        self.session.headers.setdefault("User-Agent", self.agent.chrome())
-        self.delay = delay
-        self.obey_robots = obey_robots
-        self.allowed_domains = allowed_domains or [urllib.parse.urlparse(base_url).netloc]
-        self.last_request_time = 0
-        self.url_hashes = set()
-        if obey_robots:
-            self.robots = robotparser.RobotFileParser()
-            robots_url = urllib.parse.urljoin(base_url, '/robots.txt')
-            try:
-                self.robots.set_url(robots_url)
-                self.robots.read()
-            except Exception:
-                self.robots = None
-        else:
-            self.robots = None
-    def _normalize_url(self, url: str) -> str:
-        url = url.split('#')[0]
-        url = re.sub(r'\?.*$', '', url)  # Remove query params
-        return url.rstrip('/')
-    def _is_valid_url(self, url: str) -> bool:
-        """
-        Check if a URL is valid and within the same domain.
-        Args:
-            url (str): URL to validate
-        Returns:
-            bool: Whether the URL is valid
-        """
-        try:
-            parsed_base = urllib.parse.urlparse(self.base_url)
-            parsed_url = urllib.parse.urlparse(url)
-            if parsed_url.scheme not in ["http", "https"]:
-                return False
-            if parsed_url.netloc not in self.allowed_domains:
-                return False
-            if self.obey_robots and self.robots:
-                return self.robots.can_fetch("*", url)
-            return True
-        except Exception:
-            return False
-    def _is_duplicate(self, url: str) -> bool:
-        norm = self._normalize_url(url)
-        url_hash = hashlib.md5(norm.encode()).hexdigest()
-        if url_hash in self.url_hashes:
-            return True
-        self.url_hashes.add(url_hash)
-        return False
-    def _extract_main_text(self, soup):
-        # Try to extract main content (simple heuristic)
-        main = soup.find('main')
-        if main:
-            return main.get_text(separator=" ", strip=True)
-        article = soup.find('article')
-        if article:
-            return article.get_text(separator=" ", strip=True)
-        # fallback to body
-        body = soup.find('body')
-        if body:
-            return body.get_text(separator=" ", strip=True)
-        return soup.get_text(separator=" ", strip=True)
-    def _crawl_page(self, url: str, depth: int = 0) -> Dict[str, Union[str, List[str]]]:
-        """
-        Crawl a single page and extract information.
-        Args:
-            url (str): URL to crawl
-            depth (int, optional): Current crawl depth
-        Returns:
-            Dict[str, Union[str, List[str]]]: Crawled page information
-        """
-        if url in self.visited_urls or self._is_duplicate(url):
-            return {}
-        # Throttle requests
-        now = time.time()
-        if self.last_request_time:
-            elapsed = now - self.last_request_time
-            if elapsed < self.delay:
-                time.sleep(self.delay - elapsed)
-        self.last_request_time = time.time()
-        try:
-            response = self.session.get(url, timeout=10)
-            response.raise_for_status()
-            if not response.headers.get('Content-Type', '').startswith('text/html'):
-                return {}
-            scout = Scout(response.content, features="lxml")
-            title_result = scout.find("title")
-            title = title_result[0].get_text() if title_result else ""
-            for tag_name in self.tags_to_remove:
-                for tag in scout._soup.find_all(tag_name):
-                    tag.extract()
-            visible_text = self._extract_main_text(scout._soup)
-            page_info = {
-                'url': url,
-                'title': title,
-                'links': [
-                    urllib.parse.urljoin(url, link.get('href'))
-                    for link in scout.find_all('a', href=True)
-                    if self._is_valid_url(urllib.parse.urljoin(url, link.get('href')))
-                ],
-                'text': visible_text,
-                'depth': depth,
-                'timestamp': datetime.utcnow().isoformat(),
-                'headers': dict(response.headers),
-            }
-            self.visited_urls.add(url)
-            self.crawled_pages.append(page_info)
-            return page_info
-        except Exception as e:
-            print(f"Error crawling {url}: {e}")
-            return {}
-    def crawl(self):
-        """
-        Start web crawling from base URL and yield each crawled page in real time.
-        Yields:
-            Dict[str, Union[str, List[str]]]: Crawled page information
-        """
-        with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
-            futures = {executor.submit(self._crawl_page, self.base_url, 0)}
-            submitted_links: set[str] = set()
-            while futures:
-                if len(self.visited_urls) >= self.max_pages:
-                    break
-                done, not_done = concurrent.futures.wait(
-                    futures, return_when=concurrent.futures.FIRST_COMPLETED
-                )
-                futures = not_done
-                for future in done:
-                    page_info = future.result()
-                    if page_info:
-                        yield page_info
-                    if len(self.visited_urls) >= self.max_pages:
-                        return
-                    for link in page_info.get("links", []):
-                        if (
-                            len(self.visited_urls) < self.max_pages
-                            and link not in self.visited_urls
-                            and link not in submitted_links
-                        ):
-                            submitted_links.add(link)
-                            futures.add(
-                                executor.submit(
-                                    self._crawl_page,
-                                    link,
-                                    page_info.get("depth", 0) + 1,
-                                )
-                            )
+"""
+Scout Crawler Module - Ultra Advanced Web Crawling System
+"""
+import concurrent.futures
+import hashlib
+import time
+import urllib.parse
+from dataclasses import dataclass
+from datetime import datetime
+from typing import Any, Dict, List, Optional, Set, Union
+from urllib import robotparser
+try:
+    from webscout.litagent import LitAgent
+except ImportError:
+    LitAgent: Any = None
+try:
+    from curl_cffi.requests import Session
+except ImportError:
+    import requests
+    Session: Any = requests.Session
+from ..parsers import ParserRegistry
+from .scout import Scout
+@dataclass
+class CrawlConfig:
+    """Configuration for the crawler."""
+    max_pages: int = 1000
+    max_depth: int = 10
+    delay: float = 0.5
+    obey_robots: bool = True
+    crawl_subdomains: bool = True
+    max_workers: int = 10
+    timeout: int = 30
+    retry_attempts: int = 3
+    include_external_links: bool = False
+    extract_metadata: bool = True
+    extract_structured_data: bool = True
+    extract_semantic_content: bool = True
+@dataclass
+class PageData:
+    """Comprehensive page data for LLM training."""
+    url: str
+    title: str
+    text: str
+    clean_text: str
+    markdown_text: str
+    links: List[str]
+    internal_links: List[str]
+    external_links: List[str]
+    metadata: Dict[str, Any]
+    structured_data: Dict[str, Any]
+    semantic_content: Dict[str, Any]
+    headers: Dict[str, str]
+    status_code: int
+    content_type: str
+    language: str
+    timestamp: str
+    depth: int
+    word_count: int
+class ScoutCrawler:
+    """
+    Ultra-advanced web crawling utility optimized for LLM data collection.
+    """
+    def __init__(self, base_url: str, max_pages: int = 50, tags_to_remove: Optional[List[str]] = None, session: Optional[Any] = None, delay: float = 0.5, obey_robots: bool = True, allowed_domains: Optional[List[str]] = None):
+        """
+        Initialize the web crawler.
+        Args:
+            base_url (str): Starting URL to crawl
+            max_pages (int, optional): Maximum number of pages to crawl
+            tags_to_remove (List[str], optional): List of tags to remove
+        """
+        self.base_url = base_url
+        self.max_pages = max_pages
+        self.tags_to_remove = tags_to_remove if tags_to_remove is not None else [
+            "script",
+            "style"
+        ]
+        self.visited_urls = set()
+        self.crawled_pages = []
+        self.session = session or Session()
+        # LitAgent may not be available in minimal installs - provide a safe fallback
+        if LitAgent is not None:
+            self.agent = LitAgent()
+        else:
+            class _SimpleAgent:
+                def generate_fingerprint(self) -> Dict[str, str]:
+                    return {"user_agent": "Mozilla/5.0"}
+                def chrome(self) -> str:
+                    return "Mozilla/5.0"
+            self.agent = _SimpleAgent()
+        # Use fingerprint to update session headers (normalize keys)
+        fingerprint = self.agent.generate_fingerprint()
+        headers: Dict[str, str] = {}
+        if isinstance(fingerprint, dict):
+            for k, v in fingerprint.items():
+                if k == "user_agent":
+                    headers["User-Agent"] = str(v)
+                else:
+                    headers[k.replace("_", "-").title()] = str(v)
+        try:
+            self.session.headers.update(headers)
+        except Exception:
+            # Some session implementations may not expose update() directly
+            for hk, hv in headers.items():
+                try:
+                    self.session.headers[hk] = hv
+                except Exception:
+                    pass
+        # Ensure a User-Agent is always present
+        try:
+            self.session.headers.setdefault("User-Agent", self.agent.chrome())
+        except Exception:
+            pass
+        self.delay = delay
+        self.obey_robots = obey_robots
+        self.features = "lxml" if "lxml" in ParserRegistry.list_parsers() else "html.parser"
+        # Secure domain handling
+        parsed_base = urllib.parse.urlparse(base_url)
+        self.base_netloc = parsed_base.netloc
+        base_domain_parts = self.base_netloc.split('.')
+        self.base_domain = '.'.join(base_domain_parts[-2:]) if len(base_domain_parts) > 1 else self.base_netloc
+        self.allowed_domains = allowed_domains or [self.base_netloc]
+        self.last_request_time = 0
+        self.url_hashes = set()
+        if obey_robots:
+            self.robots = robotparser.RobotFileParser()
+            robots_url = urllib.parse.urljoin(base_url, '/robots.txt')
+            try:
+                # Use session for robots.txt to respect headers/UA
+                robots_resp = self.session.get(robots_url, timeout=5)
+                if robots_resp.status_code == 200:
+                    self.robots.parse(robots_resp.text.splitlines())
+                else:
+                    self.robots = None
+            except Exception:
+                self.robots = None
+        else:
+            self.robots = None
+    def _normalize_url(self, url: str) -> str:
+        """Normalize URL by removing fragments and trailing slashes."""
+        url = url.split('#')[0]
+        return url.rstrip('/')
+    def _is_valid_url(self, url: str) -> bool:
+        """
+        Check if a URL is valid and within allowed domains.
+        """
+        try:
+            parsed_url = urllib.parse.urlparse(url)
+            if parsed_url.scheme not in ["http", "https"]:
+                return False
+            # Secure domain check
+            target_netloc = parsed_url.netloc.lower()
+            is_allowed = False
+            for allowed in self.allowed_domains:
+                if target_netloc == allowed.lower() or target_netloc.endswith('.' + allowed.lower()):
+                    is_allowed = True
+                    break
+            if not is_allowed:
+                return False
+            if self.obey_robots and self.robots:
+                # Ensure we pass a str user-agent to robotparser.can_fetch
+                ua = str(self.session.headers.get("User-Agent", "*"))
+                return self.robots.can_fetch(ua, url)
+            return True
+        except Exception:
+            return False
+    def _is_duplicate(self, url: str) -> bool:
+        norm = self._normalize_url(url)
+        url_hash = hashlib.md5(norm.encode()).hexdigest()
+        if url_hash in self.url_hashes:
+            return True
+        self.url_hashes.add(url_hash)
+        return False
+    def _extract_main_text(self, soup):
+        # Try to extract main content (simple heuristic)
+        main = soup.find('main')
+        if main:
+            return main.get_text(separator=" ", strip=True)
+        article = soup.find('article')
+        if article:
+            return article.get_text(separator=" ", strip=True)
+        # fallback to body
+        body = soup.find('body')
+        if body:
+            return body.get_text(separator=" ", strip=True)
+        return soup.get_text(separator=" ", strip=True)
+    def _crawl_page(self, url: str, depth: int = 0) -> Dict[str, Any]:
+        """
+        Crawl a single page and extract information.
+        Args:
+            url (str): URL to crawl
+            depth (int, optional): Current crawl depth
+        Returns:
+            Dict[str, Any]: Crawled page information
+        """
+        if url in self.visited_urls or self._is_duplicate(url):
+            return {}
+        # Log URL to crawl
+        print(f"Attempting to crawl URL: {url} (depth: {depth})")
+        # Throttle requests
+        now = time.time()
+        if self.last_request_time:
+            elapsed = now - self.last_request_time
+            if elapsed < self.delay:
+                time.sleep(self.delay - elapsed)
+        self.last_request_time = time.time()
+        try:
+            response = self.session.get(url, timeout=10)
+            response.raise_for_status()
+            if not response.headers.get('Content-Type', '').startswith('text/html'):
+                return {}
+            scout = Scout(response.content, features=self.features)
+            title_tag = scout.find("title")
+            title = title_tag.get_text() if title_tag else ""
+            # Remove only script and style tags before extracting text
+            for tag_name in self.tags_to_remove:
+                for tag in scout._soup.find_all(tag_name):
+                    tag.decompose()
+            visible_text = self._extract_main_text(scout._soup)
+            # Extract links from header, footer, nav, etc.
+            essential_links = []
+            for essential_tag in ['header', 'nav', 'footer']:
+                elements = scout.find_all(essential_tag)
+                for element in elements:
+                    links = element.find_all('a', href=True)
+                    essential_links.extend(
+                        urllib.parse.urljoin(url, link.get('href'))
+                        for link in links
+                        if link.get('href') and self._is_valid_url(urllib.parse.urljoin(url, link.get('href')))
+                    )
+            all_links = [
+                urllib.parse.urljoin(url, link.get('href'))
+                for link in scout.find_all('a', href=True)
+                if self._is_valid_url(urllib.parse.urljoin(url, link.get('href')))
+            ]
+            combined_links = list(set(all_links + essential_links))
+            page_info = {
+                'url': url,
+                'title': title,
+                'links': combined_links,
+                'text': visible_text,
+                'depth': depth,
+                'timestamp': datetime.now().isoformat(),
+                'headers': dict(response.headers),
+            }
+            self.visited_urls.add(url)
+            self.crawled_pages.append(page_info)
+            return page_info
+        except Exception as e:
+            print(f"Error crawling {url}: {e}")
+            return {}
+    def crawl(self):
+        """
+        Start web crawling from base URL and yield each crawled page in real time.
+        Yields:
+            Dict[str, Union[str, List[str]]]: Crawled page information
+        """
+        with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
+            futures = {executor.submit(self._crawl_page, self.base_url, 0)}
+            submitted_links: Set[str] = set()
+            while futures:
+                if self.max_pages is not None and len(self.visited_urls) >= self.max_pages:
+                    break
+                done, not_done = concurrent.futures.wait(
+                    futures, return_when=concurrent.futures.FIRST_COMPLETED
+                )
+                futures = not_done
+                for future in done:
+                    page_info = future.result()
+                    if page_info:
+                        yield page_info
+                        if self.max_pages is not None and len(self.visited_urls) >= self.max_pages:
+                            return
+                        for link in page_info.get("links", []):
+                            if (
+                                (self.max_pages is None or len(self.visited_urls) < self.max_pages)
+                                and link not in self.visited_urls
+                                and link not in submitted_links
+                            ):
+                                submitted_links.add(link)
+                                futures.add(
+                                    executor.submit(
+                                        self._crawl_page,
+                                        link,
+                                        int(page_info.get("depth", 0)) + 1,
+                                    )
+                                )
+                    else:
+                        print("No page info retrieved from crawling")

webscout 8.2.9__py3-none-any.whl → 2026.1.19__py3-none-any.whl

webscout 8.2.9py3-none-any.whl → 2026.1.19py3-none-any.whl