soumenca
diff --git a/‎BagOfVisualWord/1_mergecsv.py‎
Lines changed: 15 additions & 0 deletions b/‎BagOfVisualWord/1_mergecsv.py‎
Lines changed: 15 additions & 0 deletions
diff --git a/‎BagOfVisualWord/2_kmean.py‎
Lines changed: 51 additions & 0 deletions b/‎BagOfVisualWord/2_kmean.py‎
Lines changed: 51 additions & 0 deletions
diff --git a/‎BagOfVisualWord/3_featureOfClaster.py‎
Lines changed: 40 additions & 0 deletions b/‎BagOfVisualWord/3_featureOfClaster.py‎
Lines changed: 40 additions & 0 deletions
diff --git a/‎BagOfVisualWord/4_knn.py‎
Lines changed: 89 additions & 0 deletions b/‎BagOfVisualWord/4_knn.py‎
Lines changed: 89 additions & 0 deletions
diff --git a/‎BagOfVisualWord/5_svm.py‎
Lines changed: 114 additions & 0 deletions b/‎BagOfVisualWord/5_svm.py‎
Lines changed: 114 additions & 0 deletions
@@ -0,0 +1,15 @@
+import glob
+import csv
+index = 0
+with open('trainData.csv', 'a') as singleFile:
+for i in range(1, 1888 + 1):
+path = '/home/soumen/Desktop/cv_new1/A2_Data_CV/train_sift_features'+ '/' + str(i) + '_train_sift' + '.csv'
+print(path)
+for csvFile in glob.glob(path):
+index = index + 1
+for line in open(csvFile, 'r'):
+ line1 = str(i) +","+line
+ singleFile.write(line1)
+ 
+
+print "Number of CSV file Read is {}".format(index)
@@ -0,0 +1,51 @@
+from copy import deepcopy
+import numpy as np
+import pandas as pd
+from matplotlib import pyplot as plt
+from sklearn.cluster import KMeans
+import csv
+from scipy.spatial import distance
+
+nc = 128
+
+# Importing the dataset
+train_data = pd.read_csv('trainData.csv', header = None)
+print("Shape of the training data is {}".format(train_data.shape))
+train_image_id = train_data.iloc[:,0:1].values
+train_image_id = train_image_id.reshape(max(train_image_id.shape),)
+
+
+test_data = pd.read_csv('testData.csv', header = None)
+print("Shape of the testing data is {}".format(test_data.shape))
+test_image_id = test_data.iloc[:,0:1].values
+test_image_id = test_image_id.reshape(max(test_image_id.shape),)
+#np.savetxt("test_image_id.csv", image_id, delimiter=",")
+
+def kmean(train_X, test_X, nc):
+# Number of clusters
+kmeans = KMeans(n_clusters=nc)
+# Fitting the input data
+kmeans = kmeans.fit(train_X)
+# Getting the cluster labels
+train_labels = kmeans.predict(train_X)
+test_labels = kmeans.predict(test_X)
+
+#labels = np.add(labels, 1)
+#np.savetxt("test_image_label.csv", labels, delimiter=",")
+# Centroid values
+#centroids = kmeans.cluster_centers_
+
+#myFile = open('train_centroid_data_8.csv', 'w')
+#with myFile:
+#	writer = csv.writer(myFile)
+ #	writer.writerows(centroids)
+return train_labels, test_labels
+
+train_image_label, test_image_label = kmean(train_data.iloc[:,5:], test_data.iloc[:,5:], nc)
+train_img_clster_map = np.column_stack((train_image_id, train_image_label))
+np.savetxt("train_image_claster_map_128.csv", train_img_clster_map, delimiter=",")
+
+test_img_clster_map = np.column_stack((test_image_id, test_image_label))
+np.savetxt("test_image_claster_map_128.csv", test_img_clster_map, delimiter=",")
+
+
@@ -0,0 +1,40 @@
+import pandas as pd
+import numpy as np
+import csv
+
+number_claster = 64
+input_data = pd.read_csv('train_image_claster_map_64.csv', header = None)
+input_data = input_data.values
+print("Shape of the input data is {}".format(input_data.shape))
+
+label_data = pd.read_csv('train_labels.csv', header = None)
+label_data = label_data.values
+print("Shape of the label data is {}".format(label_data.shape))
+
+temp_feature = np.zeros(number_claster, dtype = int)
+index = 0
+temp_feature[int(input_data[0, 1:2])] = temp_feature[int(input_data[0, 1:2])] + 1
+for i in range(1, input_data.shape[0]):
+if(input_data[(i-1), 0:1] == input_data[i, 0:1]):
+temp_feature[int(input_data[i, 1:2])] = temp_feature[int(input_data[i, 1:2])] + 1
+else:
+temp_feature = temp_feature.tolist()
+temp_feature.append(int(label_data[0, index]))
+with open("train_feature_64.csv", "a") as fp:
+ wr = csv.writer(fp, dialect='excel')
+ wr.writerow(temp_feature)
+
+temp_feature = []
+temp_feature = np.zeros(number_claster, dtype = int)
+temp_feature[int(input_data[i, 1:2])] = temp_feature[int(input_data[i, 1:2])] + 1
+index = index + 1
+
+temp_feature = temp_feature.tolist()
+temp_feature.append(int(label_data[0, index]))
+with open("train_feature_64.csv", "a") as fp:
+wr = csv.writer(fp, dialect='excel')
+wr.writerow(temp_feature)
+temp_feature = []
+
+
+
@@ -0,0 +1,89 @@
+# Example of kNN implemented from Scratch in Python
+from sklearn.metrics import confusion_matrix
+import csv
+import random
+import math
+import operator
+import pandas as pd
+
+
+number_claster = 128
+
+def loadDataset(train_filename, test_filename, trainingSet=[] , testSet=[]):
+with open(train_filename, 'rb') as csvfile:
+lines = csv.reader(csvfile)
+ dataset = list(lines)
+ for x in range(len(dataset)):
+ for y in range(number_claster):
+ dataset[x][y] = float(dataset[x][y])
+ trainingSet.append(dataset[x])
+
+with open(test_filename, 'rb') as csvfile:
+lines = csv.reader(csvfile)
+ dataset = list(lines)
+ for x in range(len(dataset)):
+ for y in range(number_claster):
+ dataset[x][y] = float(dataset[x][y])
+ testSet.append(dataset[x])
+
+
+def euclideanDistance(instance1, instance2, length):
+distance = 0
+for x in range(length):
+distance += pow((instance1[x] - instance2[x]), 2)
+return math.sqrt(distance)
+
+def getNeighbors(trainingSet, testInstance, k):
+distances = []
+length = len(testInstance)-1
+for x in range(len(trainingSet)):
+dist = euclideanDistance(testInstance, trainingSet[x], length)
+distances.append((trainingSet[x], dist))
+distances.sort(key=operator.itemgetter(1))
+neighbors = []
+for x in range(k):
+neighbors.append(distances[x][0])
+return neighbors
+
+def getResponse(neighbors):
+classVotes = {}
+for x in range(len(neighbors)):
+response = neighbors[x][-1]
+if response in classVotes:
+classVotes[response] += 1
+else:
+classVotes[response] = 1
+sortedVotes = sorted(classVotes.iteritems(), key=operator.itemgetter(1), reverse=True)
+return sortedVotes[0][0]
+
+def getAccuracy(testSet, predictions):
+correct = 0
+temp_list = []
+for x in range(len(testSet)):
+temp_list.append(testSet[x][-1])
+if testSet[x][-1] == predictions[x]:
+correct += 1
+#print("The Confusion Matrix is:")
+#print(confusion_matrix(temp_list, predictions))
+print('The length of the test set is: ' + repr(len(testSet)))
+return (correct/float(len(testSet))) * 100.0
+
+def main():
+# prepare data
+trainingSet=[]
+testSet=[]
+loadDataset('train_feature_128.csv', 'test_feature_128.csv', trainingSet, testSet)
+print 'Train set: ' + repr(len(trainingSet))
+print 'Test set: ' + repr(len(testSet))
+# generate predictions
+predictions=[]
+k = 21
+for x in range(len(testSet)):
+neighbors = getNeighbors(trainingSet, testSet[x], k)
+result = getResponse(neighbors)
+predictions.append(result)
+#print('> predicted=' + repr(result) + ', actual=' + repr(testSet[x][-1]))
+accuracy = getAccuracy(testSet, predictions)
+print('K = '+repr(k) + ' Number of Features = '+repr(number_claster) + ' Accuracy: ' + repr(accuracy) + '%')
+
+main()
@@ -0,0 +1,114 @@
+# Example of kNN implemented from Scratch in Python
+from sklearn.metrics import confusion_matrix
+import csv
+import random
+import math
+import operator
+import pandas as pd
+import numpy as np
+import matplotlib.pyplot as plt
+from matplotlib import style
+style.use("ggplot")
+from sklearn import svm
+
+number_claster = 8
+
+
+def loadDataset(train_filename, test_filename, trainingSet=[], testSet=[]):
+ with open(train_filename, 'rb') as csvfile:
+ lines = csv.reader(csvfile)
+ dataset = list(lines)
+ for x in range(len(dataset)):
+ for y in range(number_claster):
+ dataset[x][y] = float(dataset[x][y])
+ trainingSet.append(dataset[x])
+
+ with open(test_filename, 'rb') as csvfile:
+ lines = csv.reader(csvfile)
+ dataset = list(lines)
+ for x in range(len(dataset)):
+ for y in range(number_claster):
+ dataset[x][y] = float(dataset[x][y])
+ testSet.append(dataset[x])
+
+
+
+
+def getResponse(neighbors):
+ classVotes = {}
+ for x in range(len(neighbors)):
+ response = neighbors[x][-1]
+ if response in classVotes:
+ classVotes[response] += 1
+ else:
+ classVotes[response] = 1
+ sortedVotes = sorted(classVotes.iteritems(), key=operator.itemgetter(1), reverse=True)
+ return sortedVotes[0][0]
+
+
+def getAccuracy(testSet, predictions):
+ correct = 0
+ temp_list = []
+ for x in range(len(testSet)):
+ temp_list.append(testSet[x])
+ if testSet[x] == predictions[x]:
+ correct += 1
+ print("The Confusion Matrix is:")
+ print(confusion_matrix(temp_list, predictions))
+ print(len(testSet))
+ return (correct / float(len(testSet))) * 100.0
+
+
+def main():
+ # prepare data
+ trainingSet = []
+ trainingSet1 = []
+ testSet = []
+ testSet1 = []
+ testLabels = []
+ trainLabels = []
+ predictions = []
+ loadDataset('train_feature_8.csv', 'test_feature_8.csv', trainingSet, testSet)
+ print 'Train set: ' + repr(len(trainingSet))
+ print 'Test set: ' + repr(len(testSet))
+
+ # generate predictions
+ print(len(trainingSet))
+
+ for x in range(len(trainingSet)):
+ trainLabels.append(trainingSet[x][-1])
+
+ for x in range(len(trainingSet)):
+ trainingSet1.append(trainingSet[x][:-1])
+
+ for x in range(len(testSet)):
+ testLabels.append(testSet[x][-1])
+
+ for x in range(len(testSet)):
+ testSet1.append(testSet[x][:-1])
+
+ #clf = svm.LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True, intercept_scaling=1, loss='squared_hinge', max_iter=1000, multi_class='ovr', penalty='l2', random_state=None, tol=0.0001, verbose=0) # make classifier object
+ clf=svm.SVC(kernel='linear',gamma=1,C=1.0,probability=True )
+ #clf=svm.LinearSVC()
+ import time
+ t=time.time()
+ clf.fit(trainingSet1,trainLabels)
+ clf.score(trainingSet1,trainLabels)
+ t1=time.time()
+ t2=time.time()
+ for x in range(len(testSet1)):
+ result = clf.predict(testSet1[x])
+ result1=clf.decision_function(testSet1[x])
+ #result1=clf.predict_proba(testSet1[x])
+ print(result1)
+ predictions.append(result)
+ print('> predicted=' + repr(result[0]) + ', actual=' + repr(testLabels[x]))
+ t3 = time.time()
+ accuracy = getAccuracy(testLabels, predictions)
+
+ print('Accuracy: ' + repr(accuracy) + '%')
+ print("Training time:", (t1 - t))
+ print("Testing Time:", (t3 - t2))
+
+
+main()