PyPI - shreenath-ml-scripts - Versions diffs - 0.1.0__py3-none-any.whl - Mend

shreenath-ml-scripts 0.1.0__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

ml_prac_scripts/__init__.py +0 -0
ml_prac_scripts/eda.py +65 -0
ml_prac_scripts/kmeansclustering.py +47 -0
ml_prac_scripts/knn.py +36 -0
ml_prac_scripts/linear_regression.py +58 -0
ml_prac_scripts/logistic_regression.py +58 -0
ml_prac_scripts/pca.py +86 -0
ml_prac_scripts/svm.py +52 -0
shreenath_ml_scripts-0.1.0.dist-info/METADATA +16 -0
shreenath_ml_scripts-0.1.0.dist-info/RECORD +12 -0
shreenath_ml_scripts-0.1.0.dist-info/WHEEL +5 -0
shreenath_ml_scripts-0.1.0.dist-info/top_level.txt +1 -0

ml_prac_scripts/__init__.py ADDED Viewed

File without changes

ml_prac_scripts/eda.py ADDED Viewed

@@ -0,0 +1,65 @@
+# -*- coding: utf-8 -*-
+"""eda.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1Fm6OC_xJb4m29eC8pGFUqGFzpMxKvUiA
+"""
+import numpy as np
+import pandas as pd
+import matplotlib.pyplot as plt
+import seaborn as sns
+df = sns.load_dataset("titanic")
+df.head()
+df.info()
+df.describe()
+df.isnull().sum()
+df["age"] = df["age"].fillna(df["age"].median())
+df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])
+df.drop('deck', axis=1, inplace=True)
+df.dropna(inplace=True)
+df.info()
+sns.boxplot(x=df['fare'])
+plt.title('Fare Boxplot (Before Handling Outliers)')
+plt.show()
+Q1 = df['fare'].quantile(0.25)
+Q3 = df['fare'].quantile(0.75)
+IQR = Q3 - Q1
+lower_bound = Q1 - 1.5 * IQR
+upper_bound = Q3 + 1.5 * IQR
+df['fare'] = np.where(df['fare'] > upper_bound, upper_bound, np.where(df['fare'] < lower_bound, lower_bound, df['fare']))
+print(f"Outliers capped at: {upper_bound}")
+df['log_fare'] = np.log1p(df['fare'])
+plt.figure(figsize=(10,4))
+plt.subplot(1, 2, 1)
+sns.histplot(df['fare'], kde=True).set_title('Original Fare')
+plt.subplot(1, 2, 2)
+sns.histplot(df['log_fare'], kde=True).set_title('Log Transformed Fare')
+plt.show()
+df['sex'] = df['sex'].map({'male': 0, 'female': 1})
+df = pd.get_dummies(df, columns=['embarked'], drop_first=True)
+print("\nFinal Dataframe Head:")
+print(df[['survived', 'pclass', 'sex', 'age', 'log_fare', 'embarked_Q', 'embarked_S']].head())

ml_prac_scripts/kmeansclustering.py ADDED Viewed

@@ -0,0 +1,47 @@
+# -*- coding: utf-8 -*-
+"""KMeansClustering.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1Yt6p5RJKdDBlYIy11bsGPmTO5cJ6kdnA
+"""
+import numpy as np
+import pandas as pd
+import matplotlib.pyplot as plt
+from sklearn.cluster import KMeans
+from sklearn.preprocessing import LabelEncoder
+from sklearn.preprocessing import StandardScaler
+import warnings
+import seaborn as sns
+warnings.filterwarnings("ignore")
+df = pd.read_csv("sales.csv", encoding='latin-1')
+df.head()
+scaler = StandardScaler()
+df_numeric = df.select_dtypes(include=np.number)
+X_scaled = scaler.fit_transform(df_numeric)
+inertia = []
+for k in range(1, 11):
+  k_means = KMeans(n_clusters=k, random_state=42, n_init=10)
+  k_means.fit(X_scaled)
+  inertia.append(k_means.inertia_)
+plt.figure(figsize=(8, 5))
+sns.lineplot(x=range(1, 11), y=inertia, marker='o', linestyle='-')
+plt.title('Elbow Method for Optimal k')
+plt.xlabel('Number of Clusters (k)')
+plt.ylabel('Inertia')
+optimal_k = 3
+kmeans = KMeans(n_clusters=optimal_k, random_state=42, n_init=10)
+kmeans.fit(X_scaled)
+labels = kmeans.labels_
+plt.figure(figsize=(10, 6))
+sns.scatterplot(x=X_scaled[:, 0], y=X_scaled[:, 1], hue=labels)

ml_prac_scripts/knn.py ADDED Viewed

@@ -0,0 +1,36 @@
+# -*- coding: utf-8 -*-
+"""knn.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1u49MdRl6i0Jlmx9I1gm1iYjiHEXGI97C
+"""
+import pandas as pd
+import numpy as np
+from sklearn.model_selection import train_test_split
+from sklearn.preprocessing import LabelEncoder
+from sklearn.neighbors import KNeighborsClassifier
+from sklearn.metrics import accuracy_score, confusion_matrix, recall_score, f1_score, precision_score
+url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
+column_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']
+df = pd.read_csv(url, names=column_names)
+label_enoder = LabelEncoder()
+df['species'] = label_enoder.fit_transform(df['species'])
+X = df.drop('species', axis=1)
+y = df['species']
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
+knn = KNeighborsClassifier(n_neighbors=3)
+knn.fit(X_train, y_train)
+y_pred = knn.predict(X_test)
+print("Accuracy:", accuracy_score(y_test, y_pred))
+print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred))

ml_prac_scripts/linear_regression.py ADDED Viewed

@@ -0,0 +1,58 @@
+# -*- coding: utf-8 -*-
+"""linear_regression.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1AqzDrmjgKq5uD5lNbJdJJFdzGUUCW3hs
+"""
+import pandas as pd
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn.model_selection import train_test_split
+from sklearn.linear_model import LinearRegression
+from sklearn.metrics import mean_squared_error, r2_score
+from sklearn.preprocessing import StandardScaler
+df = pd.read_csv("HousingData.csv")
+df.head()
+df["CRIM"] = df["CRIM"].fillna(df["CRIM"].mean())
+df["ZN"] = df["ZN"].fillna(df["ZN"].mean())
+df["INDUS"] = df["INDUS"].fillna(df["INDUS"].mean())
+df["CHAS"] = df["CHAS"].fillna(df["CHAS"].mean())
+df["AGE"] = df["AGE"].fillna(df["AGE"].mean())
+df["LSTAT"] = df["LSTAT"].fillna(df["LSTAT"].mean())
+df.info()
+X = df.drop('MEDV', axis=1)
+y = df['MEDV']
+X_scaled = StandardScaler().fit_transform(X)
+X_scaled
+X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
+model = LinearRegression()
+model.fit(X_train, y_train)
+y_pred = model.predict(X_test)
+y_pred
+mse = mean_squared_error(y_test, y_pred)
+r2 = r2_score(y_test, y_pred)
+print("Mean Squared Error:", mse)
+print("R-squared:", r2)
+plt.figure(figsize=(10, 6))
+plt.scatter(y_test, y_pred)
+plt.xlabel("Actual Values")
+plt.ylabel("Predicted Values")
+plt.title("Actual vs. Predicted Values")
+# Add the line of best fit (y=x)
+plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], '-', lw=1)
+plt.plot([y_pred.min(), y_pred.max()], [y_pred.min(), y_pred.max()], '-', lw=1)
+plt.show()

ml_prac_scripts/logistic_regression.py ADDED Viewed

@@ -0,0 +1,58 @@
+# -*- coding: utf-8 -*-
+"""logistic_regression.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1_9gGFH3ONYSD_saWKC9Vf2wJ-YU3if1G
+"""
+import pandas as pd
+import numpy as np
+import matplotlib.pyplot as plt
+import seaborn as sns
+from sklearn.preprocessing import MinMaxScaler, LabelEncoder
+from sklearn.model_selection import train_test_split
+from sklearn.linear_model import LogisticRegression
+from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
+import seaborn as sns
+df = pd.read_csv("Social_Network_Ads.csv")
+numeric_columns = ['Age', 'EstimatedSalary']
+df.head()
+scaler = MinMaxScaler()
+scaled = scaler.fit_transform(df[numeric_columns])
+scaled = pd.DataFrame(scaled, columns=numeric_columns)
+scaled
+label_encoder = LabelEncoder()
+encoded = df.copy()
+encoded['Gender'] = label_encoder.fit_transform(df['Gender'])
+encoded
+X = scaled
+X['Gender'] = encoded['Gender']
+y = df['Purchased']
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
+model = LogisticRegression()
+model.fit(X_train, y_train)
+y_pred = model.predict(X_test)
+accuracy = accuracy_score(y_test, y_pred)
+print(f"Accuracy: {accuracy:.4f}\n")
+print("Classification Report:")
+print(classification_report(y_test, y_pred, target_names=['Not Purchased (0)', 'Purchased (1)']))
+print("Confusion Matrix:")
+print(confusion_matrix(y_test, y_pred))
+cm = confusion_matrix(y_test, y_pred)
+sns.heatmap(cm, annot=True, fmt='d', cmap="Blues")

ml_prac_scripts/pca.py ADDED Viewed

@@ -0,0 +1,86 @@
+# -*- coding: utf-8 -*-
+"""pca.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1vS6JOW2HWZiPOYrryS6XDOjq0G3Ja_9y
+"""
+import pandas as pd
+import numpy as np
+from sklearn.decomposition import PCA
+from sklearn.preprocessing import StandardScaler
+import matplotlib.pyplot as plt
+df = pd.read_csv("Iris.csv")
+df.columns = ["id", "sepal_length", "sepal_width", "petal_length", "petal_width", "species"]
+df.head()
+features = ["sepal_length", "sepal_width", "petal_length", "petal_width"]
+x = df.loc[:, features].values
+y = df.loc[:, ["species"]].values
+x = StandardScaler().fit_transform(x)
+pca = PCA(n_components=2)
+principal_components = pca.fit_transform(x)
+principal_components
+principalDF = pd.DataFrame(data = principal_components, columns=["pc1", "pc2"])
+final = pd.concat([principalDF, df[["species"]]], axis=1)
+final.head()
+plt.figure()
+plt.xlabel("pc1")
+plt.ylabel("pc2")
+plt.title("2 component PCA")
+targets = ["Iris-setosa", "Iris-versicolor", "Iris-virginica"]
+colors = ["r", "g", "b"]
+for target, color in zip(targets, colors):
+    indicesToKeep = final["species"] == target
+    plt.scatter(final.loc[indicesToKeep, "pc1"], final.loc[indicesToKeep, "pc2"], c=color, s=50)
+plt.legend(targets)
+plt.grid()
+plt.show()
+import numpy as np
+import pandas as pd
+import matplotlib.pyplot as plt
+from sklearn.decomposition import PCA
+from sklearn.preprocessing import StandardScaler
+df = pd.read_csv("Iris.csv")
+df.info()
+df.columns = ["id", "speal_len", "sepal_width", "petal_len", "petal_width", "species"]
+features = ["speal_len", "sepal_width", "petal_len", "petal_width"]
+X = df.loc[:, features].values
+y = df.loc[:, ["species"]].values
+# X = StandardScaler().fit_transform(X)
+pca = PCA(n_components=2)
+p_com = pca.fit_transform(X)
+p_df = pd.DataFrame(data=p_com, columns=["pca1", "pc2"])
+final = pd.concat([p_df, df[["species"]]], axis=1)
+plt.figure()
+plt.xlabel("pc1")
+plt.ylabel("pc2")
+plt.title("2 components PCA")
+targets = ["Iris-setosa", "Iris-versicolor", "Iris-virginica"]
+colors = ["r", "g", "b"]
+for t, c in zip(targets, colors):
+  indices = final["species"] == t
+  plt.scatter(
+      final.loc[indices, "pca1"],
+      final.loc[indices, "pc2"],
+      c=c,
+      s=50
+  )
+plt.legend(targets)

ml_prac_scripts/svm.py ADDED Viewed

@@ -0,0 +1,52 @@
+# -*- coding: utf-8 -*-
+"""svm.ipynb
+Automatically generated by Colab.
+Original file is located at
+    https://colab.research.google.com/drive/1gtCM25ZOphz_jwcev_e6g8YH-yMt5RDP
+"""
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn.svm import SVC
+from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
+from sklearn.preprocessing import StandardScaler
+from sklearn.feature_extraction.text import TfidfVectorizer
+import seaborn as sns
+df = pd.read_csv("emails.csv")
+df.dropna()
+df = df.drop(columns=["Email No."])
+df.isna().sum()
+vectorizer = TfidfVectorizer(stop_words='english')
+X = vectorizer.fit_transform(df)
+X = df.drop(columns=['Prediction'])
+y = df['Prediction']
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
+model = SVC(kernel='linear', C=1.0, random_state=42)
+model.fit(X_train, y_train)
+y_pred = model.predict(X_test)
+print("Accuracy:", accuracy_score(y_test, y_pred))
+print("\nClassification Report:\n")
+print(classification_report(y_test, y_pred))
+print("\nConfusion Matrix:\n")
+print(confusion_matrix(y_test, y_pred))
+cm = confusion_matrix(y_test, y_pred)
+sns.heatmap(
+    cm,
+    annot=True,
+    fmt='d',
+    cmap='Blues',
+    xticklabels=['Not Spam', 'Spam'],
+    yticklabels=['Not Spam', 'Spam']
+)

shreenath_ml_scripts-0.1.0.dist-info/METADATA ADDED Viewed

@@ -0,0 +1,16 @@
+Metadata-Version: 2.4
+Name: shreenath-ml-scripts
+Version: 0.1.0
+Summary: A collection of machine learning scripts
+Author: Shreenath
+Classifier: Programming Language :: Python :: 3
+Classifier: License :: OSI Approved :: MIT License
+Requires-Dist: pandas
+Requires-Dist: numpy
+Requires-Dist: matplotlib
+Requires-Dist: scikit-learn
+Requires-Dist: seaborn
+Dynamic: author
+Dynamic: classifier
+Dynamic: requires-dist
+Dynamic: summary

shreenath_ml_scripts-0.1.0.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,12 @@
+ml_prac_scripts/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+ml_prac_scripts/eda.py,sha256=p-F5SkONgMznpSjgP4JCPcm5NToN8-nLAlYtp2wBc-s,1455
+ml_prac_scripts/kmeansclustering.py,sha256=QwJngX7XTOzVDye3SokpQWJyv1-urZTzIKHWqZjYnvw,1224
+ml_prac_scripts/knn.py,sha256=srSgSePCgpfSu4FmVIRlDuT4SSQQgPqd1n-T0VU-dxM,1134
+ml_prac_scripts/linear_regression.py,sha256=3X7nYTzHlaWM3kt45_67xYyOO5nJXBcsoubT2lc6mRs,1618
+ml_prac_scripts/logistic_regression.py,sha256=Hc7BfXujLDDnYX1r0ahdljyyjcEx_QMQI-BvHLGICHI,1541
+ml_prac_scripts/pca.py,sha256=Tc5p8fWmS_XdJTqePDrb1muqlPnGaxTGSLeotoglP48,2287
+ml_prac_scripts/svm.py,sha256=JIAO-J2MmxyRt9OJPcdVobEUQRX79a-w7Uxk7jfxnhw,1334
+shreenath_ml_scripts-0.1.0.dist-info/METADATA,sha256=lemZTBdSNZXVP_z4G90iX74oa6kXpOeJm7anC2S-0VY,427
+shreenath_ml_scripts-0.1.0.dist-info/WHEEL,sha256=aeYiig01lYGDzBgS8HxWXOg3uV61G9ijOsup-k9o1sk,91
+shreenath_ml_scripts-0.1.0.dist-info/top_level.txt,sha256=QxnhFgPBYlkHDXciaFOgFraw4_XX7-if-yAL_maKmEY,16
+shreenath_ml_scripts-0.1.0.dist-info/RECORD,,

shreenath_ml_scripts-0.1.0.dist-info/WHEEL ADDED Viewed

@@ -0,0 +1,5 @@
+Wheel-Version: 1.0
+Generator: setuptools (82.0.1)
+Root-Is-Purelib: true
+Tag: py3-none-any

shreenath_ml_scripts-0.1.0.dist-info/top_level.txt ADDED Viewed

	@@ -0,0 +1 @@
1	+ ml_prac_scripts