RubyGems - tomoto - Versions diffs - 0.1.4 → 0.2.0 - Mend

tomoto 0.1.4 → 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (94) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +5 -0
data/ext/tomoto/ct.cpp +8 -4
data/ext/tomoto/dmr.cpp +10 -4
data/ext/tomoto/dt.cpp +13 -4
data/ext/tomoto/extconf.rb +1 -1
data/ext/tomoto/gdmr.cpp +14 -6
data/ext/tomoto/hdp.cpp +9 -4
data/ext/tomoto/hlda.cpp +9 -4
data/ext/tomoto/hpa.cpp +9 -4
data/ext/tomoto/lda.cpp +8 -4
data/ext/tomoto/llda.cpp +8 -4
data/ext/tomoto/mglda.cpp +11 -1
data/ext/tomoto/pa.cpp +9 -4
data/ext/tomoto/plda.cpp +8 -4
data/ext/tomoto/slda.cpp +13 -5
data/lib/tomoto/gdmr.rb +2 -2
data/lib/tomoto/version.rb +1 -1
data/vendor/EigenRand/EigenRand/Core.h +6 -1107
data/vendor/EigenRand/EigenRand/Dists/Basic.h +490 -43
data/vendor/EigenRand/EigenRand/Dists/Discrete.h +916 -285
data/vendor/EigenRand/EigenRand/Dists/GammaPoisson.h +85 -36
data/vendor/EigenRand/EigenRand/Dists/NormalExp.h +1038 -290
data/vendor/EigenRand/EigenRand/EigenRand +2 -2
data/vendor/EigenRand/EigenRand/Macro.h +4 -4
data/vendor/EigenRand/EigenRand/MorePacketMath.h +54 -22
data/vendor/EigenRand/EigenRand/MvDists/Multinomial.h +222 -0
data/vendor/EigenRand/EigenRand/MvDists/MvNormal.h +492 -0
data/vendor/EigenRand/EigenRand/PacketFilter.h +2 -2
data/vendor/EigenRand/EigenRand/PacketRandomEngine.h +2 -2
data/vendor/EigenRand/EigenRand/RandUtils.h +65 -11
data/vendor/EigenRand/EigenRand/doc.h +142 -25
data/vendor/EigenRand/LICENSE +1 -1
data/vendor/EigenRand/README.md +109 -24
data/vendor/tomotopy/README.kr.rst +27 -6
data/vendor/tomotopy/README.rst +29 -8
data/vendor/tomotopy/src/Labeling/FoRelevance.cpp +60 -12
data/vendor/tomotopy/src/Labeling/FoRelevance.h +2 -2
data/vendor/tomotopy/src/Labeling/Phraser.hpp +33 -21
data/vendor/tomotopy/src/TopicModel/CT.h +8 -5
data/vendor/tomotopy/src/TopicModel/CTModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/CTModel.hpp +29 -23
data/vendor/tomotopy/src/TopicModel/DMR.h +33 -4
data/vendor/tomotopy/src/TopicModel/DMRModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/DMRModel.hpp +231 -57
data/vendor/tomotopy/src/TopicModel/DT.h +24 -5
data/vendor/tomotopy/src/TopicModel/DTModel.cpp +2 -8
data/vendor/tomotopy/src/TopicModel/DTModel.hpp +41 -28
data/vendor/tomotopy/src/TopicModel/GDMR.h +31 -5
data/vendor/tomotopy/src/TopicModel/GDMRModel.cpp +2 -7
data/vendor/tomotopy/src/TopicModel/GDMRModel.hpp +211 -104
data/vendor/tomotopy/src/TopicModel/HDP.h +11 -2
data/vendor/tomotopy/src/TopicModel/HDPModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/HDPModel.hpp +52 -45
data/vendor/tomotopy/src/TopicModel/HLDA.h +11 -2
data/vendor/tomotopy/src/TopicModel/HLDAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/HLDAModel.hpp +13 -16
data/vendor/tomotopy/src/TopicModel/HPA.h +5 -2
data/vendor/tomotopy/src/TopicModel/HPAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/HPAModel.hpp +51 -21
data/vendor/tomotopy/src/TopicModel/LDA.h +9 -2
data/vendor/tomotopy/src/TopicModel/LDACVB0Model.hpp +8 -8
data/vendor/tomotopy/src/TopicModel/LDAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/LDAModel.hpp +70 -28
data/vendor/tomotopy/src/TopicModel/LLDA.h +1 -2
data/vendor/tomotopy/src/TopicModel/LLDAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/LLDAModel.hpp +22 -12
data/vendor/tomotopy/src/TopicModel/MGLDA.h +12 -3
data/vendor/tomotopy/src/TopicModel/MGLDAModel.cpp +2 -10
data/vendor/tomotopy/src/TopicModel/MGLDAModel.hpp +42 -19
data/vendor/tomotopy/src/TopicModel/PA.h +9 -4
data/vendor/tomotopy/src/TopicModel/PAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/PAModel.hpp +48 -25
data/vendor/tomotopy/src/TopicModel/PLDA.h +13 -2
data/vendor/tomotopy/src/TopicModel/PLDAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/PLDAModel.hpp +27 -19
data/vendor/tomotopy/src/TopicModel/PT.h +12 -5
data/vendor/tomotopy/src/TopicModel/PTModel.cpp +2 -3
data/vendor/tomotopy/src/TopicModel/PTModel.hpp +29 -14
data/vendor/tomotopy/src/TopicModel/SLDA.h +18 -6
data/vendor/tomotopy/src/TopicModel/SLDAModel.cpp +2 -10
data/vendor/tomotopy/src/TopicModel/SLDAModel.hpp +93 -43
data/vendor/tomotopy/src/TopicModel/TopicModel.hpp +58 -23
data/vendor/tomotopy/src/Utils/AliasMethod.hpp +6 -6
data/vendor/tomotopy/src/Utils/Dictionary.h +11 -0
data/vendor/tomotopy/src/Utils/SharedString.hpp +26 -1
data/vendor/tomotopy/src/Utils/Trie.hpp +46 -21
data/vendor/tomotopy/src/Utils/Utils.hpp +99 -14
data/vendor/tomotopy/src/Utils/exception.h +1 -1
data/vendor/tomotopy/src/Utils/math.h +5 -7
data/vendor/tomotopy/src/Utils/serializer.hpp +329 -201
data/vendor/tomotopy/src/Utils/text.hpp +8 -0
data/vendor/tomotopy/src/Utils/tvector.hpp +49 -7
metadata +9 -7

data/vendor/tomotopy/README.kr.rst CHANGED Viewed

@@ -32,11 +32,10 @@ tomotopy 란?
 * Hierarchical PA (`tomotopy.HPAModel`)
 * Correlated Topic Model (`tomotopy.CTModel`)
 * Dynamic Topic Model (`tomotopy.DTModel`)
+* Pseudo-document based Topic Model (`tomotopy.PTModel`)
 더 자세한 정보는 https://bab2min.github.io/tomotopy/index.kr.html 에서 확인하시길 바랍니다.
-tomotopy의 가장 최신버전은 0.10.2 입니다.
 시작하기
 ---------------
 다음과 같이 pip를 이용하면 tomotopy를 쉽게 설치할 수 있습니다.
@@ -47,10 +46,10 @@ tomotopy의 가장 최신버전은 0.10.2 입니다.
 지원하는 운영체제 및 Python 버전은 다음과 같습니다:
-* Python 3.5 이상이 설치된 Linux (x86-64)
-* Python 3.5 이상이 설치된 macOS 10.13나 그 이후 버전
-* Python 3.5 이상이 설치된 Windows 7이나 그 이후 버전 (x86, x86-64)
-* Python 3.5 이상이 설치된 다른 운영체제: 이 경우는 c++11 호환 컴파일러를 통한 소스코드 컴파일이 필요합니다.
+* Python 3.6 이상이 설치된 Linux (x86-64)
+* Python 3.6 이상이 설치된 macOS 10.13나 그 이후 버전
+* Python 3.6 이상이 설치된 Windows 7이나 그 이후 버전 (x86, x86-64)
+* Python 3.6 이상이 설치된 다른 운영체제: 이 경우는 c++14 호환 컴파일러를 통한 소스코드 컴파일이 필요합니다.
 설치가 끝난 뒤에는 다음과 같이 Python3에서 바로 import하여 tomotopy를 사용할 수 있습니다.
 ::
@@ -255,6 +254,28 @@ tomotopy의 Python3 예제 코드는 https://github.com/bab2min/tomotopy/blob/ma
 역사
 -------
+* 0.12.0 (2021-04-26)
+    * 이제 `tomotopy.DMRModel`와 `tomotopy.GDMRModel`가 다중 메타데이터를 지원합니다. (https://github.com/bab2min/tomotopy/blob/main/examples/dmr_multi_label.py 참조)
+    * `tomotopy.GDMRModel`의 성능이 개선되었습니다.
+    * 깊은 복사를 수행하는 `copy()` 메소드가 모든 토픽 모델 클래스에 추가되었습니다.
+    * `min_cf`, `min_df` 등에 의해 학습에서 제외된 단어가 잘못된 토픽id값을 가지는 문제가 해결되었습니다. 이제 제외단 단어들은 토픽id로 모두 `-1` 값을 가집니다.
+    * 이제 `tomotopy`에 의해 생성되는 예외 및 경고가 모두 Python 표준 타입을 따릅니다.
+    * 컴파일러 요구사항이 C++14로 상향되었습니다.
+* 0.11.1 (2021-03-28)
+    * 비대칭 alpha와 관련된 치명적인 버그가 수정되었습니다. 이 버그로 인해 0.11.0 버전은 릴리즈에서 삭제되었습니다.
+* 0.11.0 (2021-03-26)
+    * 짧은 텍스트를 위한 토픽 모델인 `tomotopy.PTModel`가 추가되었습니다.
+    * `tomotopy.HDPModel.infer`가 종종 segmentation fault를 발생시키는 문제가 해결되었습니다.
+    * numpy API 버전 충돌이 해결되었습니다.
+    * 이제 비대칭 문헌-토픽 사전 분포가 지원됩니다.
+    * 토픽 모델 객체를 메모리 상의 `bytes`로 직렬화하는 기능이 지원됩니다.
+    * `get_topic_dist()`, `get_topic_word_dist()`, `get_sub_topic_dist()`에 결과의 정규화 여부를 조절하는 `normalize` 인자가 추가되었습니다.
+    * `tomotopy.DMRModel.lambdas`와 `tomotopy.DMRModel.alpha`가 잘못된 값을 제공하던 문제가 해결되었습니다.
+    * `tomotopy.GDMRModel`에 범주형 메타데이터 지원이 추가되었습니다. (https://github.com/bab2min/tomotopy/blob/main/examples/gdmr_both_categorical_and_numerical.py 참조)
+    * Python3.5 지원이 종료되었습니다.
 * 0.10.2 (2021-02-16)
     * `tomotopy.CTModel.train`가 큰 K값에 대해 실패하는 문제가 수정되었습니다.
     * `tomotopy.utils.Corpus`가 `uid`값을 잃는 문제가 수정되었습니다.

data/vendor/tomotopy/README.rst CHANGED Viewed

@@ -32,12 +32,11 @@ The current version of `tomoto` supports several major topic models including
 * Pachinko Allocation (`tomotopy.PAModel`)
 * Hierarchical PA (`tomotopy.HPAModel`)
 * Correlated Topic Model (`tomotopy.CTModel`)
-* Dynamic Topic Model (`tomotopy.DTModel`).
+* Dynamic Topic Model (`tomotopy.DTModel`)
+* Pseudo-document based Topic Model (`tomotopy.PTModel`).
 Please visit https://bab2min.github.io/tomotopy to see more information.
-The most recent version of tomotopy is 0.10.2.
 Getting Started
 ---------------
 You can install tomotopy easily using pip. (https://pypi.org/project/tomotopy/)
@@ -48,10 +47,10 @@ You can install tomotopy easily using pip. (https://pypi.org/project/tomotopy/)
 The supported OS and Python versions are:
-* Linux (x86-64) with Python >= 3.5
-* macOS >= 10.13 with Python >= 3.5
-* Windows 7 or later (x86, x86-64) with Python >= 3.5
-* Other OS with Python >= 3.5: Compilation from source code required (with c++11 compatible compiler)
+* Linux (x86-64) with Python >= 3.6
+* macOS >= 10.13 with Python >= 3.6
+* Windows 7 or later (x86, x86-64) with Python >= 3.6
+* Other OS with Python >= 3.6: Compilation from source code required (with c++14 compatible compiler)
 After installing, you can start tomotopy by just importing.
 ::
@@ -261,6 +260,28 @@ meaning you can use it for any reasonable purpose and remain in complete ownersh
 History
 -------
+* 0.12.0 (2021-04-26)
+    * Now `tomotopy.DMRModel` and `tomotopy.GDMRModel` support multiple values of metadata (see https://github.com/bab2min/tomotopy/blob/main/examples/dmr_multi_label.py )
+    * The performance of `tomotopy.GDMRModel` was improved.
+    * A `copy()` method has been added for all topic models to do a deep copy.
+    * An issue was fixed where words that are excluded from training (by `min_cf`, `min_df`) have incorrect topic id. Now all excluded words have `-1` as topic id.
+    * Now all exceptions and warnings that generated by `tomotopy` follow standard Python types.
+    * Compiler requirements have been raised to C++14.
+* 0.11.1 (2021-03-28)
+    * A critical bug of asymmetric alphas was fixed. Due to this bug, version 0.11.0 has been removed from releases.
+* 0.11.0 (2021-03-26) (removed)
+    * A new topic model `tomotopy.PTModel` for short texts was added into the package.
+    * An issue was fixed where `tomotopy.HDPModel.infer` causes a segmentation fault sometimes.
+    * A mismatch of numpy API version was fixed.
+    * Now asymmetric document-topic priors are supported.
+    * Serializing topic models to `bytes` in memory is supported.
+    * An argument `normalize` was added to `get_topic_dist()`, `get_topic_word_dist()` and `get_sub_topic_dist()` for controlling normalization of results.
+    * Now `tomotopy.DMRModel.lambdas` and `tomotopy.DMRModel.alpha` give correct values.
+    * Categorical metadata supports for `tomotopy.GDMRModel` were added (see https://github.com/bab2min/tomotopy/blob/main/examples/gdmr_both_categorical_and_numerical.py ).
+    * Python3.5 support was dropped.
 * 0.10.2 (2021-02-16)
     * An issue was fixed where `tomotopy.CTModel.train` fails with large K.
     * An issue was fixed where `tomotopy.utils.Corpus` loses their `uid` values.
@@ -273,7 +294,7 @@ History
 * 0.10.0 (2020-12-19)
     * The interface of `tomotopy.utils.Corpus` and of `tomotopy.LDAModel.docs` were unified. Now you can access the document in corpus with the same manner.
-    * __getitem__ of `tomotopy.utils.Corpus` was improved. Not only indexing by int, but also by Iterable[int], slicing are supported. Also indexing by uid is supported.
+    * `__getitem__` of `tomotopy.utils.Corpus` was improved. Not only indexing by int, but also by Iterable[int], slicing are supported. Also indexing by uid is supported.
     * New methods `tomotopy.utils.Corpus.extract_ngrams` and `tomotopy.utils.Corpus.concat_ngrams` were added. They extracts n-gram collocations using PMI and concatenates them into a single words.
     * A new method `tomotopy.LDAModel.add_corpus` was added, and `tomotopy.LDAModel.infer` can receive corpus as input.
     * A new module `tomotopy.coherence` was added. It provides the way to calculate coherence of the model.

data/vendor/tomotopy/src/Labeling/FoRelevance.cpp CHANGED Viewed

@@ -6,6 +6,55 @@
 using namespace tomoto::label;
+template<bool reverse = false>
+class DocWordIterator
+{
+	const tomoto::DocumentBase* doc = nullptr;
+	size_t n = 0;
+public:
+	DocWordIterator(const tomoto::DocumentBase* _doc = nullptr, size_t _n = 0)
+		: doc{ _doc }, n{ _n }
+	{
+	}
+	tomoto::Vid operator[](size_t i) const
+	{
+		return doc->words[doc->wOrder.empty() ? (n + i) : doc->wOrder[n + i]];
+	}
+	tomoto::Vid operator*() const
+	{
+		return doc->words[doc->wOrder.empty() ? n : doc->wOrder[n]];
+	}
+	bool operator==(const DocWordIterator& o) const
+	{
+		return doc == o.doc && n == o.n;
+	}
+	bool operator!=(const DocWordIterator& o) const
+	{
+		return !operator==(o);
+	}
+	DocWordIterator& operator++()
+	{
+		if (reverse) --n;
+		else ++n;
+		return *this;
+	}
+	DocWordIterator operator+(ptrdiff_t o) const
+	{
+		return { doc, (size_t)((ptrdiff_t)n + o) };
+	}
+	DocWordIterator operator-(ptrdiff_t o) const
+	{
+		return { doc, (size_t)((ptrdiff_t)n - o) };
+	}
+};
 class DocWrapper
 {
 	const tomoto::DocumentBase* doc;
@@ -25,24 +74,24 @@ public:
 		return doc->words[doc->wOrder.empty() ? idx : doc->wOrder[idx]];
 	}
-	auto begin() const -> decltype(doc->words.begin())
+	DocWordIterator<> begin() const
 	{
-		return doc->words.begin();
+		return { doc, 0 };
 	}
-	auto end() const -> decltype(doc->words.end())
+	DocWordIterator<> end() const
 	{
-		return doc->words.end();
+		return { doc, doc->words.size() };
 	}
-	auto rbegin() const -> decltype(doc->words.rbegin())
+	DocWordIterator<true> rbegin() const
 	{
-		return doc->words.rbegin();
+		return { doc, doc->words.size() };
 	}
-	auto rend() const -> decltype(doc->words.rend())
+	DocWordIterator<true> rend() const
 	{
-		return doc->words.rend();
+		return { doc, 0 };
 	}
 };
@@ -99,7 +148,6 @@ std::vector<Candidate> PMIExtractor::extract(const tomoto::ITopicModel* tm) cons
 	return candidates;
 }
 std::vector<Candidate> tomoto::label::PMIBEExtractor::extract(const ITopicModel* tm) const
 {
 	auto& vocabFreqs = tm->getVocabCf();
@@ -217,11 +265,11 @@ void FoRelevance::estimateContexts()
 		}
 	}
-	Eigen::Matrix<Float, -1, -1> wordTopicDist{ tm->getV(), tm->getK() };
+	Matrix wordTopicDist{ tm->getV(), tm->getK() };
 	for (size_t i = 0; i < tm->getK(); ++i)
 	{
 		auto dist = tm->getWidsByTopic(i);
-		wordTopicDist.col(i) = Eigen::Map<Eigen::Matrix<Float, -1, 1>>{ dist.data(), (Eigen::Index)dist.size() };
+		wordTopicDist.col(i) = Eigen::Map<Vector>{ dist.data(), (Eigen::Index)dist.size() };
 	}
 	size_t totDocCnt = 0;
@@ -256,7 +304,7 @@ void FoRelevance::estimateContexts()
 		}
 		size_t docCnt = 0;
-		Eigen::Matrix<Float, -1, 1> wcPMI = Eigen::Matrix<Float, -1, 1>::Zero(this->tm->getV());
+		Vector wcPMI = Vector::Zero(this->tm->getV());
 		for (auto& docId : c.docIds)
 		{
 			thread_local Eigen::VectorXi bdf(this->tm->getV());

data/vendor/tomotopy/src/Labeling/FoRelevance.h CHANGED Viewed

@@ -93,8 +93,8 @@ namespace tomoto
 				if (!numWorkers) numWorkers = std::thread::hardware_concurrency();
 				if (numWorkers > 1)
 				{
-					pool = make_unique<ThreadPool>(numWorkers);
-					mtx = make_unique<std::mutex[]>(numWorkers);
+					pool = std::make_unique<ThreadPool>(numWorkers);
+					mtx = std::make_unique<std::mutex[]>(numWorkers);
 				}
 				for (; candFirst != candEnd; ++candFirst)

data/vendor/tomotopy/src/Labeling/Phraser.hpp CHANGED Viewed

@@ -1,14 +1,37 @@
 #pragma once
 #include <vector>
+#include <map>
 #include <unordered_map>
 #include "Labeler.h"
 #include "../Utils/Trie.hpp"
+#ifdef TMT_USE_BTREE
+#include "btree/map.h"
+#else
+#endif
 namespace tomoto
 {
 	namespace phraser
 	{
+#ifdef TMT_USE_BTREE
+		template<typename K, typename V> using map = btree::map<K, V>;
+#else
+		template<typename K, typename V> using map = std::map<K, V>;
+#endif
+		namespace detail
+		{
+			struct vvhash
+			{
+				size_t operator()(const std::pair<Vid, Vid>& k) const
+				{
+					return std::hash<Vid>{}(k.first) ^ std::hash<Vid>{}(k.second);
+				}
+			};
+		}
 		template<typename _DocIter>
 		void countUnigrams(std::vector<size_t>& unigramCf, std::vector<size_t>& unigramDf,
 			_DocIter docBegin, _DocIter docEnd
@@ -30,9 +53,9 @@ namespace tomoto
 			}
 		}
-		template<typename _DocIter, typename _VvHash, typename _Freqs>
-		void countBigrams(std::unordered_map<std::pair<Vid, Vid>, size_t, _VvHash>& bigramCf,
-			std::unordered_map<std::pair<Vid, Vid>, size_t, _VvHash>& bigramDf,
+		template<typename _DocIter, typename _Freqs>
+		void countBigrams(map<std::pair<Vid, Vid>, size_t>& bigramCf,
+			map<std::pair<Vid, Vid>, size_t>& bigramDf,
 			_DocIter docBegin, _DocIter docEnd,
 			_Freqs&& vocabFreqs, _Freqs&& vocabDf,
 			size_t candMinCnt, size_t candMinDf
@@ -40,7 +63,7 @@ namespace tomoto
 		{
 			for (auto docIt = docBegin; docIt != docEnd; ++docIt)
 			{
-				std::unordered_set<std::pair<Vid, Vid>, _VvHash> uniqBigram;
+				std::unordered_set<std::pair<Vid, Vid>, detail::vvhash> uniqBigram;
 				auto doc = *docIt;
 				if (!doc.size()) continue;
 				Vid prevWord = doc[0];
@@ -202,17 +225,6 @@ namespace tomoto
 			return std::move(data[0]);
 		}
-		namespace detail
-		{
-			struct vvhash
-			{
-				size_t operator()(const std::pair<Vid, Vid>& k) const
-				{
-					return std::hash<Vid>{}(k.first) ^ std::hash<Vid>{}(k.second);
-				}
-			};
-		}
 		template<typename _DocIter, typename _Freqs>
 		std::vector<label::Candidate> extractPMINgrams(_DocIter docBegin, _DocIter docEnd,
 			_Freqs&& vocabFreqs, _Freqs&& vocabDf,
@@ -221,13 +233,13 @@ namespace tomoto
 			ThreadPool* pool = nullptr)
 		{
 			// counting unigrams & bigrams
-			std::unordered_map<std::pair<Vid, Vid>, size_t, detail::vvhash> bigramCnt, bigramDf;
+			map<std::pair<Vid, Vid>, size_t> bigramCnt, bigramDf;
 			if (pool && pool->getNumWorkers() > 1)
 			{
 				using LocalCfDf = std::pair<
-					std::unordered_map<std::pair<Vid, Vid>, size_t, detail::vvhash>,
-					std::unordered_map<std::pair<Vid, Vid>, size_t, detail::vvhash>
+					decltype(bigramCnt),
+					decltype(bigramDf)
 				>;
 				std::vector<LocalCfDf> localdata(pool->getNumWorkers());
 				std::vector<std::future<void>> futures;
@@ -363,13 +375,13 @@ namespace tomoto
 			ThreadPool* pool = nullptr)
 		{
 			// counting unigrams & bigrams
-			std::unordered_map<std::pair<Vid, Vid>, size_t, detail::vvhash> bigramCnt, bigramDf;
+			map<std::pair<Vid, Vid>, size_t> bigramCnt, bigramDf;
 			if (pool && pool->getNumWorkers() > 1)
 			{
 				using LocalCfDf = std::pair<
-					std::unordered_map<std::pair<Vid, Vid>, size_t, detail::vvhash>,
-					std::unordered_map<std::pair<Vid, Vid>, size_t, detail::vvhash>
+					decltype(bigramCnt),
+					decltype(bigramDf)
 				>;
 				std::vector<LocalCfDf> localdata(pool->getNumWorkers());
 				std::vector<std::future<void>> futures;

data/vendor/tomotopy/src/TopicModel/CT.h CHANGED Viewed

@@ -8,20 +8,23 @@ namespace tomoto
 	{
 		using BaseDocument = DocumentLDA<_tw>;
 		using DocumentLDA<_tw>::DocumentLDA;
-		Eigen::Matrix<Float, -1, -1> beta; // Dim: (K, betaSample)
-		Eigen::Matrix<Float, -1, 1> smBeta; // Dim: K
+		Matrix beta; // Dim: (K, betaSample)
+		Vector smBeta; // Dim: K
 		DEFINE_SERIALIZER_AFTER_BASE_WITH_VERSION(BaseDocument, 0, smBeta);
 		DEFINE_TAGGED_SERIALIZER_AFTER_BASE_WITH_VERSION(BaseDocument, 1, 0x00010001, smBeta);
 	};
+	struct CTArgs : public LDAArgs
+	{
+	};
 	class ICTModel : public ILDAModel
 	{
 	public:
 		using DefaultDocType = DocumentCTM<TermWeight::one>;
-		static ICTModel* create(TermWeight _weight, size_t _K = 1,
-			Float smoothingAlpha = 0.1,  Float _eta = 0.01,
-			size_t seed = std::random_device{}(),
+		static ICTModel* create(TermWeight _weight, const CTArgs& args,
 			bool scalarRng = false);
 		virtual void setNumBetaSample(size_t numSample) = 0;

data/vendor/tomotopy/src/TopicModel/CTModel.cpp CHANGED Viewed

@@ -2,12 +2,8 @@
 namespace tomoto
 {
-	/*template class CTModel<TermWeight::one>;
-	template class CTModel<TermWeight::idf>;
-	template class CTModel<TermWeight::pmi>;*/
-	ICTModel* ICTModel::create(TermWeight _weight, size_t _K, Float smoothingAlpha, Float _eta, size_t seed, bool scalarRng)
+	ICTModel* ICTModel::create(TermWeight _weight, const CTArgs& args, bool scalarRng)
 	{
-		TMT_SWITCH_TW(_weight, scalarRng, CTModel, _K, smoothingAlpha, _eta, seed);
+		TMT_SWITCH_TW(_weight, scalarRng, CTModel, args);
 	}
 }

data/vendor/tomotopy/src/TopicModel/CTModel.hpp CHANGED Viewed

@@ -56,22 +56,22 @@ namespace tomoto
 		void updateBeta(_DocType& doc, _RandGen& rg) const
 		{
-			Eigen::Matrix<Float, -1, 1> pbeta, lowerBound, upperBound;
+			Vector pbeta, lowerBound, upperBound;
 			constexpr Float epsilon = 1e-8;
 			constexpr size_t burnIn = 3;
-			pbeta = lowerBound = upperBound = Eigen::Matrix<Float, -1, 1>::Zero(this->K);
+			pbeta = lowerBound = upperBound = Vector::Zero(this->K);
 			for (size_t i = 0; i < numBetaSample + burnIn; ++i)
 			{
-				if (i == 0) pbeta = Eigen::Matrix<Float, -1, 1>::Ones(this->K);
+				if (i == 0) pbeta = Vector::Ones(this->K);
 				else pbeta = doc.beta.col(i % numBetaSample).array().exp();
 				Float betaESum = pbeta.sum() + 1;
 				pbeta /= betaESum;
 				for (size_t k = 0; k < this->K; ++k)
 				{
-					Float N_k = doc.numByTopic[k] + this->alpha;
-					Float N_nk = doc.getSumWordWeight() + this->alpha * (this->K + 1) - N_k;
+					Float N_k = doc.numByTopic[k] + this->alphas[k];
+					Float N_nk = doc.getSumWordWeight() + this->alphas[k] * (this->K + 1) - N_k;
 					Float u1 = rg.uniform_real(), u2 = rg.uniform_real();
 					Float max_uk = epsilon + pow(u1, (Float)1 / N_k)  * (pbeta[k] - epsilon);
 					Float min_unk = (1 - pow(u2, (Float)1 / N_nk))
@@ -84,7 +84,7 @@ namespace tomoto
 					upperBound[k] = std::max(std::min(upperBound[k], (Float)100), (Float)-100);
 					if (lowerBound[k] > upperBound[k])
 					{
-						THROW_ERROR_WITH_INFO(exception::TrainingError,
+						THROW_ERROR_WITH_INFO(exc::TrainingError,
 							text::format("Bound Error: LB(%f) > UB(%f)\n"
 								"max_uk: %f, min_unk: %f, c: %f", lowerBound[k], upperBound[k], max_uk, min_unk, c));
 					}
@@ -96,14 +96,14 @@ namespace tomoto
 						topicPrior, lowerBound, upperBound, rg, numTMNSample);
 					if (!std::isfinite(doc.beta.col((i + 1) % numBetaSample)[0]))
-						THROW_ERROR_WITH_INFO(exception::TrainingError,
+						THROW_ERROR_WITH_INFO(exc::TrainingError,
 							text::format("doc.beta.col(%d) is %f", (i + 1) % numBetaSample,
 							doc.beta.col((i + 1) % numBetaSample)[0]));
 				}
 				catch (const std::runtime_error& e)
 				{
 					std::cerr << e.what() << std::endl;
-					THROW_ERROR_WITH_INFO(exception::TrainingError, e.what());
+					THROW_ERROR_WITH_INFO(exc::TrainingError, e.what());
 				}
 			}
@@ -157,7 +157,7 @@ namespace tomoto
 			}
 		}
-		int restoreFromTrainingError(const exception::TrainingError& e, ThreadPool& pool, _ModelState* localData, _RandGen* rgs)
+		int restoreFromTrainingError(const exc::TrainingError& e, ThreadPool& pool, _ModelState* localData, _RandGen* rgs)
 		{
 			std::cerr << "Failed to sample! Reset prior and retry!" << std::endl;
 			const size_t chStride = std::min(pool.getNumWorkers() * 8, this->docs.size());
@@ -186,7 +186,7 @@ namespace tomoto
 				return this->docs[i / numBetaSample].beta.col(i % numBetaSample);
 			}, this->docs.size() * numBetaSample);
 			if (!std::isfinite(topicPrior.mean[0]))
-				THROW_ERROR_WITH_INFO(exception::TrainingError,
+				THROW_ERROR_WITH_INFO(exc::TrainingError,
 					text::format("topicPrior.mean is %f", topicPrior.mean[0]));
 		}
@@ -194,21 +194,20 @@ namespace tomoto
 		double getLLDocs(_DocIter _first, _DocIter _last) const
 		{
 			const auto K = this->K;
-			const auto alpha = this->alpha;
 			double ll = 0;
 			for (; _first != _last; ++_first)
 			{
 				auto& doc = *_first;
-				Eigen::Matrix<Float, -1, 1> pbeta = doc.smBeta.array().log();
+				Vector pbeta = doc.smBeta.array().log();
 				Float last = pbeta[K - 1];
 				for (Tid k = 0; k < K; ++k)
 				{
-					ll += pbeta[k] * (doc.numByTopic[k] + alpha) - math::lgammaT(doc.numByTopic[k] + alpha + 1);
+					ll += pbeta[k] * (doc.numByTopic[k] + this->alphas[k]) - math::lgammaT(doc.numByTopic[k] + this->alphas[k] + 1);
 				}
 				pbeta.array() -= last;
 				ll += topicPrior.getLL(pbeta.head(this->K));
-				ll += math::lgammaT(doc.getSumWordWeight() + alpha * K + 1);
+				ll += math::lgammaT(doc.getSumWordWeight() + this->alphas.sum() + 1);
 			}
 			return ll;
 		}
@@ -216,8 +215,8 @@ namespace tomoto
 		void prepareDoc(_DocType& doc, size_t docId, size_t wordSize) const
 		{
 			BaseClass::prepareDoc(doc, docId, wordSize);
-			doc.beta = Eigen::Matrix<Float, -1, -1>::Zero(this->K, numBetaSample);
-			doc.smBeta = Eigen::Matrix<Float, -1, 1>::Constant(this->K, (Float)1 / this->K);
+			doc.beta = Matrix::Zero(this->K, numBetaSample);
+			doc.smBeta = Vector::Constant(this->K, (Float)1 / this->K);
 		}
 		void updateDocs()
@@ -225,7 +224,7 @@ namespace tomoto
 			BaseClass::updateDocs();
 			for (auto& doc : this->docs)
 			{
-				doc.beta = Eigen::Matrix<Float, -1, -1>::Zero(this->K, numBetaSample);
+				doc.beta = Matrix::Zero(this->K, numBetaSample);
 			}
 		}
@@ -242,17 +241,24 @@ namespace tomoto
 		DEFINE_SERIALIZER_AFTER_BASE_WITH_VERSION(BaseClass, 0, numBetaSample, numTMNSample, topicPrior);
 		DEFINE_TAGGED_SERIALIZER_AFTER_BASE_WITH_VERSION(BaseClass, 1, 0x00010001, numBetaSample, numTMNSample, topicPrior);
-		CTModel(size_t _K = 1, Float smoothingAlpha = 0.1, Float _eta = 0.01, size_t _rg = std::random_device{}())
-			: BaseClass(_K, smoothingAlpha, _eta, _rg)
+		CTModel(const CTArgs& args)
+			: BaseClass(args)
 		{
 			this->optimInterval = 2;
 		}
-		std::vector<Float> getTopicsByDoc(const _DocType& doc) const
+		std::vector<Float> getTopicsByDoc(const _DocType& doc, bool normalize) const
 		{
 			std::vector<Float> ret(this->K);
-			Eigen::Map<Eigen::Matrix<Float, -1, 1>>{ret.data(), this->K}.array() =
-				doc.numByTopic.array().template cast<Float>() / doc.getSumWordWeight();
+			Eigen::Map<Eigen::Array<Float, -1, 1>> m{ ret.data(), this->K };
+			if (normalize)
+			{
+				m = (doc.numByTopic.array().template cast<Float>() + this->alphas.array()) / (doc.getSumWordWeight() + this->alphas.sum());
+			}
+			else
+			{
+				m = doc.numByTopic.array().template cast<Float>() + this->alphas.array();
+			}
 			return ret;
 		}
@@ -268,7 +274,7 @@ namespace tomoto
 		std::vector<Float> getCorrelationTopic(Tid k) const override
 		{
-			Eigen::Matrix<Float, -1, 1> ret = topicPrior.cov.col(k).array() / (topicPrior.cov.diagonal().array() * topicPrior.cov(k, k)).sqrt();
+			Vector ret = topicPrior.cov.col(k).array() / (topicPrior.cov.diagonal().array() * topicPrior.cov(k, k)).sqrt();
 			return { ret.data(), ret.data() + ret.size() };
 		}