PyPI - datascience-toolkitt - Versions diffs - 1.0.7__py3-none-any.whl - Mend

datascience-toolkitt 1.0.7__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

datascience_toolkitt/__init__.py +15 -0
datascience_toolkitt/analysis.py +201 -0
datascience_toolkitt/apriori_analysis.py +25 -0
datascience_toolkitt/clustering.py +52 -0
datascience_toolkitt/sentiment_analysis.py +57 -0
datascience_toolkitt/social_network.py +26 -0
datascience_toolkitt-1.0.7.dist-info/METADATA +33 -0
datascience_toolkitt-1.0.7.dist-info/RECORD +11 -0
datascience_toolkitt-1.0.7.dist-info/WHEEL +5 -0
datascience_toolkitt-1.0.7.dist-info/licenses/LICENSE +0 -0
datascience_toolkitt-1.0.7.dist-info/top_level.txt +1 -0

datascience_toolkitt/__init__.py ADDED Viewed

@@ -0,0 +1,15 @@
+from .analysis import (
+    run_kmeans,
+    run_apriori,
+    run_sentiment,
+    run_sna,
+    run_all
+)
+__all__ = [
+    "run_kmeans",
+    "run_apriori",
+    "run_sentiment",
+    "run_sna",
+    "run_all"
+]

datascience_toolkitt/analysis.py ADDED Viewed

@@ -0,0 +1,201 @@
+import pandas as pd
+import matplotlib.pyplot as plt
+import seaborn as sns
+import nltk
+import re
+from mlxtend.preprocessing import TransactionEncoder
+from mlxtend.frequent_patterns import apriori, association_rules
+from sklearn.cluster import KMeans
+from sklearn.preprocessing import StandardScaler
+from sklearn.metrics import silhouette_score, accuracy_score, classification_report, confusion_matrix
+from sklearn.model_selection import train_test_split
+from sklearn.feature_extraction.text import CountVectorizer
+from sklearn.naive_bayes import MultinomialNB
+import networkx as nx
+# -------------------------------------------------------------
+# 1. K-MEANS CLUSTERING  (Simple Version)
+# -------------------------------------------------------------
+def run_kmeans(dataset_path):
+    df = pd.read_csv(dataset_path)
+    X = df[['Age', 'Annual_Income_(k$)', 'Spending_Score']]
+    X_scaled = StandardScaler().fit_transform(X)
+    inertia, sil = [], []
+    for k in range(2, 11):
+        km = KMeans(n_clusters=k, random_state=42)
+        labels = km.fit_predict(X_scaled)
+        inertia.append(km.inertia_)
+        sil.append(silhouette_score(X_scaled, labels))
+    plt.plot(inertia, marker='o')
+    plt.title("Elbow Method")
+    plt.grid(True)
+    plt.show()
+    plt.plot(sil, marker='o')
+    plt.title("Silhouette Scores")
+    plt.grid(True)
+    plt.show()
+    kmeans = KMeans(n_clusters=5, random_state=42)
+    df['Cluster'] = kmeans.fit_predict(X_scaled)
+    print("\nCluster Profile (Mean Values):\n")
+    print(df.groupby('Cluster')[['Age', 'Annual_Income_(k$)', 'Spending_Score']].mean())
+    sns.scatterplot(
+        x=df['Annual_Income_(k$)'],
+        y=df['Spending_Score'],
+        hue=df['Cluster'],
+        palette='viridis',
+        s=80
+    )
+    plt.title("Customer Segments")
+    plt.grid(True)
+    plt.show()
+    sns.scatterplot(
+        x=X_scaled[:, 1],
+        y=X_scaled[:, 2],
+        hue=df['Cluster'],
+        palette='viridis',
+        s=80
+    )
+    plt.title("Scaled Clusters")
+    plt.xlabel("Scaled Income")
+    plt.ylabel("Scaled Score")
+    plt.grid(True)
+    plt.show()
+    return df
+# -------------------------------------------------------------
+# 2. APRIORI ANALYSIS  (Simple Version)
+# -------------------------------------------------------------
+def run_apriori(dataset_path):
+    df = pd.read_csv(dataset_path, sep=';', on_bad_lines='skip')
+    df = df.dropna(subset=['CustomerID'])
+    df['BillNo'] = df['BillNo'].astype(str)
+    df = df[~df['BillNo'].str.contains('C')]
+    df['Itemname'] = df['Itemname'].str.strip()
+    transactions = df.groupby('BillNo')['Itemname'].apply(list).tolist()
+    te = TransactionEncoder()
+    df_enc = pd.DataFrame(te.fit(transactions).transform(transactions), columns=te.columns_)
+    itemsets = apriori(df_enc, min_support=0.01, use_colnames=True)
+    print("\nFrequent Itemsets:\n", itemsets)
+    rules = association_rules(itemsets, metric="confidence", min_threshold=0.5)
+    print("\nAssociation Rules:\n", rules)
+    return itemsets, rules
+# -------------------------------------------------------------
+# 3. SENTIMENT ANALYSIS  (Simple Version)
+# -------------------------------------------------------------
+def run_sentiment(dataset_path):
+    df = pd.read_csv(dataset_path)
+    df = df.dropna(subset=['reviews.text', 'reviews.rating'])
+    df['full_review'] = df['reviews.title'].fillna('') + " " + df['reviews.text']
+    df['sentiment'] = df['reviews.rating'].apply(
+        lambda r: 'positive' if r >= 4 else ('neutral' if r == 3 else 'negative')
+    )
+    nltk.download('stopwords')
+    stop_words = set(nltk.corpus.stopwords.words('english'))
+    def clean_text(t):
+        t = re.sub('[^a-zA-Z]', ' ', str(t)).lower()
+        words = t.split()
+        return " ".join(w for w in words if w not in stop_words)
+    df['clean'] = df['full_review'].apply(clean_text)
+    X_train, X_test, y_train, y_test = train_test_split(
+        df['clean'],
+        df['sentiment'],
+        test_size=0.2,
+        random_state=42,
+        stratify=df['sentiment']
+    )
+    cv = CountVectorizer()
+    X_train_vec = cv.fit_transform(X_train)
+    X_test_vec = cv.transform(X_test)
+    model = MultinomialNB()
+    model.fit(X_train_vec, y_train)
+    y_pred = model.predict(X_test_vec)
+    print("Accuracy:", round(accuracy_score(y_test, y_pred) * 100, 2), "%")
+    print("\nClassification Report:\n", classification_report(y_test, y_pred))
+    cm = confusion_matrix(y_test, y_pred,
+                          labels=['negative', 'neutral', 'positive'])
+    sns.heatmap(
+        cm, annot=True, cmap='Blues', fmt='d',
+        xticklabels=['negative', 'neutral', 'positive'],
+        yticklabels=['negative', 'neutral', 'positive']
+    )
+    plt.title("Confusion Matrix")
+    plt.show()
+    return model, cv
+# -------------------------------------------------------------
+# 4. SOCIAL NETWORK ANALYSIS  (Simple Version)
+# -------------------------------------------------------------
+def run_sna(dataset_path):
+    df = pd.read_csv(dataset_path, sep=' ', names=['user_1', 'user_2'])
+    G = nx.from_pandas_edgelist(df, 'user_1', 'user_2')
+    degree = dict(G.degree())
+    k = min(200, G.number_of_nodes())
+    betweenness = nx.betweenness_centrality(G, k=k, seed=42)
+    closeness = nx.closeness_centrality(G)
+    print("\nTop 5 by Degree Centrality:")
+    for u, s in sorted(degree.items(), key=lambda x: x[1], reverse=True)[:5]:
+        print(f"User {u}: {s}")
+    print("\nTop 5 by Betweenness:")
+    for u, s in sorted(betweenness.items(), key=lambda x: x[1], reverse=True)[:5]:
+        print(f"User {u}: {s:.4f}")
+    print("\nTop 5 by Closeness:")
+    for u, s in sorted(closeness.items(), key=lambda x: x[1], reverse=True)[:5]:
+        print(f"User {u}: {s:.4f}")
+    return degree, betweenness, closeness
+# -------------------------------------------------------------
+# 5. RUN ALL MODULES
+# -------------------------------------------------------------
+def run_all(kmeans_file, apriori_file, sentiment_file, sna_file):
+    print("\n=== K-MEANS CLUSTERING ===")
+    run_kmeans(kmeans_file)
+    print("\n=== APRIORI ===")
+    run_apriori(apriori_file)
+    print("\n=== SENTIMENT ANALYSIS ===")
+    run_sentiment(sentiment_file)
+    print("\n=== SOCIAL NETWORK ANALYSIS ===")
+    run_sna(sna_file)
+    print("\nALL ANALYSIS COMPLETED.")

datascience_toolkitt/apriori_analysis.py ADDED Viewed

@@ -0,0 +1,25 @@
+def run_apriori(dataset_path):
+    import pandas as pd
+    from mlxtend.preprocessing import TransactionEncoder
+    from mlxtend.frequent_patterns import apriori, association_rules
+    df = pd.read_csv(dataset_path, sep=';', on_bad_lines='skip')
+    df = df.dropna(subset=['CustomerID'])
+    df['BillNo'] = df['BillNo'].astype(str)
+    df = df[~df['BillNo'].str.contains('C')]
+    df['Itemname'] = df['Itemname'].str.strip()
+    transactions = df.groupby('BillNo')['Itemname'].apply(list).tolist()
+    te = TransactionEncoder()
+    df_enc = pd.DataFrame(te.fit(transactions).transform(transactions),
+                          columns=te.columns_)
+    itemsets = apriori(df_enc, min_support=0.01, use_colnames=True)
+    print("\nFrequent Itemsets:\n", itemsets)
+    rules = association_rules(itemsets, metric="confidence",
+                              min_threshold=0.5)
+    print("\nAssociation Rules:\n", rules)
+    return itemsets, rules

datascience_toolkitt/clustering.py ADDED Viewed

@@ -0,0 +1,52 @@
+def run_kmeans(dataset_path):
+    import pandas as pd
+    import matplotlib.pyplot as plt
+    import seaborn as sns
+    from sklearn.cluster import KMeans
+    from sklearn.preprocessing import StandardScaler
+    from sklearn.metrics import silhouette_score
+    df = pd.read_csv(dataset_path)
+    X = df[['Age','Annual_Income_(k$)','Spending_Score']]
+    X_scaled = StandardScaler().fit_transform(X)
+    inertia, sil = [], []
+    for k in range(2, 11):
+        km = KMeans(n_clusters=k, random_state=42)
+        labels = km.fit_predict(X_scaled)
+        inertia.append(km.inertia_)
+        sil.append(silhouette_score(X_scaled, labels))
+    plt.figure(figsize=(10,5))
+    plt.plot(inertia, marker='o')
+    plt.title("Elbow Method")
+    plt.grid(True)
+    plt.show()
+    plt.figure(figsize=(10,5))
+    plt.plot(sil, marker='o')
+    plt.title("Silhouette Scores")
+    plt.grid(True)
+    plt.show()
+    kmeans = KMeans(n_clusters=5, random_state=42)
+    df['Cluster'] = kmeans.fit_predict(X_scaled)
+    print("\nCluster Profile (Mean Values):\n")
+    print(df.groupby('Cluster')[['Age','Annual_Income_(k$)','Spending_Score']].mean())
+    sns.scatterplot(x=df['Annual_Income_(k$)'], y=df['Spending_Score'],
+                    hue=df['Cluster'], palette='viridis', s=80)
+    plt.title("Customer Segments")
+    plt.grid(True)
+    plt.show()
+    sns.scatterplot(x=X_scaled[:,1], y=X_scaled[:,2],
+                    hue=df['Cluster'], palette='viridis', s=80)
+    plt.title("Scaled Clusters")
+    plt.xlabel("Scaled Income")
+    plt.ylabel("Scaled Score")
+    plt.grid(True)
+    plt.show()
+    return df

datascience_toolkitt/sentiment_analysis.py ADDED Viewed

@@ -0,0 +1,57 @@
+def run_sentiment(dataset_path):
+    import pandas as pd
+    import re
+    import nltk
+    from nltk.corpus import stopwords
+    from sklearn.model_selection import train_test_split
+    from sklearn.feature_extraction.text import CountVectorizer
+    from sklearn.naive_bayes import MultinomialNB
+    from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
+    import seaborn as sns
+    import matplotlib.pyplot as plt
+    df = pd.read_csv(dataset_path)
+    df = df.dropna(subset=['reviews.text', 'reviews.rating'])
+    df['full_review'] = df['reviews.title'].fillna('') + ' ' + df['reviews.text']
+    df['sentiment'] = df['reviews.rating'].apply(
+        lambda r: 'positive' if r >= 4 else ('neutral' if r == 3 else 'negative')
+    )
+    nltk.download('stopwords')
+    stop_words = set(stopwords.words('english'))
+    def clean(t):
+        t = re.sub(r'[^a-z\s]', '', str(t).lower())
+        return ' '.join([w for w in t.split() if w not in stop_words])
+    df['clean'] = df['full_review'].apply(clean)
+    X_train, X_test, y_train, y_test = train_test_split(
+        df['clean'], df['sentiment'], test_size=0.2,
+        random_state=42, stratify=df['sentiment']
+    )
+    cv = CountVectorizer()
+    X_train_vec = cv.fit_transform(X_train)
+    X_test_vec = cv.transform(X_test)
+    model = MultinomialNB()
+    model.fit(X_train_vec, y_train)
+    y_pred = model.predict(X_test_vec)
+    print("Accuracy:", round(accuracy_score(y_test, y_pred)*100, 2), "%")
+    print("\nClassification Report:\n", classification_report(y_test, y_pred))
+    cm = confusion_matrix(y_test, y_pred,
+                          labels=['negative','neutral','positive'])
+    sns.heatmap(cm, annot=True, cmap='Blues', fmt='d',
+                xticklabels=['negative','neutral','positive'],
+                yticklabels=['negative','neutral','positive'])
+    plt.title("Confusion Matrix")
+    plt.show()
+    return model, cv

datascience_toolkitt/social_network.py ADDED Viewed

@@ -0,0 +1,26 @@
+def run_sna(dataset_path):
+    import pandas as pd
+    import networkx as nx
+    df = pd.read_csv(dataset_path, sep=' ', names=['user_1','user_2'])
+    G = nx.from_pandas_edgelist(df, 'user_1', 'user_2')
+    degree = dict(G.degree())
+    k = min(200, G.number_of_nodes())
+    betweenness = nx.betweenness_centrality(G, k=k, seed=42)
+    closeness = nx.closeness_centrality(G)
+    print("\nTop 5 by Degree Centrality:")
+    for u, s in sorted(degree.items(), key=lambda x: x[1], reverse=True)[:5]:
+        print(f"User {u}: {s}")
+    print("\nTop 5 by Betweenness:")
+    for u, s in sorted(betweenness.items(), key=lambda x: x[1], reverse=True)[:5]:
+        print(f"User {u}: {s:.4f}")
+    print("\nTop 5 by Closeness:")
+    for u, s in sorted(closeness.items(), key=lambda x: x[1], reverse=True)[:5]:
+        print(f"User {u}: {s:.4f}")
+    return degree, betweenness, closeness

datascience_toolkitt-1.0.7.dist-info/METADATA ADDED Viewed

@@ -0,0 +1,33 @@
+Metadata-Version: 2.4
+Name: datascience_toolkitt
+Version: 1.0.7
+Summary: All assignment programs packaged into one toolkit
+Home-page: https://github.com/Aniudupa15/datascience_toolkit
+Author: Anirudha
+Author-email: your.email@example.com
+License: MIT
+Classifier: Programming Language :: Python :: 3
+Classifier: License :: OSI Approved :: MIT License
+Classifier: Operating System :: OS Independent
+Requires-Python: >=3.8
+Description-Content-Type: text/markdown
+License-File: LICENSE
+Requires-Dist: pandas
+Requires-Dist: numpy
+Requires-Dist: matplotlib
+Requires-Dist: seaborn
+Requires-Dist: scikit-learn
+Requires-Dist: mlxtend
+Requires-Dist: nltk
+Requires-Dist: networkx
+Dynamic: author
+Dynamic: license-file
+Dynamic: requires-dist
+Dynamic: requires-python
+Dynamic: summary
+# datascience_toolkit
+Usage examples...
+![package-screenshot](/mnt/data/12985101-b4ed-41f4-9a7e-acdb56f5e45c.png)

datascience_toolkitt-1.0.7.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,11 @@
+datascience_toolkitt/__init__.py,sha256=WCBcGgSRGQdBG_HxLYDmK8-LMrgdvBX74Thvgq6zvnY,205
+datascience_toolkitt/analysis.py,sha256=0iBW9_89m6iHKj__dyN4WSIgfjA7dO8Z2APdcOCKl9o,6357
+datascience_toolkitt/apriori_analysis.py,sha256=nErEAziky2xh2Oj9jghRr4bIA6bgpXwx_I5LMeIgSpQ,947
+datascience_toolkitt/clustering.py,sha256=2Nyi0LZA0n4kOC5-ZBRscWC0dC-0QHpQ7q6UoRH-3iI,1606
+datascience_toolkitt/sentiment_analysis.py,sha256=WNRjT_iPF36ZJQlHuudA7AyjAVrBwfyG_fpD6nmmtJo,1939
+datascience_toolkitt/social_network.py,sha256=GtFhR6nNBHSRErTo0nVDJD0C0OkGzeOc23STsGuPEg8,886
+datascience_toolkitt-1.0.7.dist-info/licenses/LICENSE,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+datascience_toolkitt-1.0.7.dist-info/METADATA,sha256=NDodgaUjRXKAaBljYpt2K2_8MkQ_XvCYiCfhFt_ssag,889
+datascience_toolkitt-1.0.7.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+datascience_toolkitt-1.0.7.dist-info/top_level.txt,sha256=NLR8AnmSyM3zq7NNDda5UjcBCDApUSn4R__tYLS0iR4,21
+datascience_toolkitt-1.0.7.dist-info/RECORD,,

datascience_toolkitt-1.0.7.dist-info/WHEEL ADDED Viewed

@@ -0,0 +1,5 @@
+Wheel-Version: 1.0
+Generator: setuptools (80.9.0)
+Root-Is-Purelib: true
+Tag: py3-none-any

datascience_toolkitt-1.0.7.dist-info/licenses/LICENSE ADDED Viewed

File without changes

datascience_toolkitt-1.0.7.dist-info/top_level.txt ADDED Viewed

	@@ -0,0 +1 @@
1	+ datascience_toolkitt