RubyGems - tomoto - Versions diffs - 0.1.4 → 0.2.0 - Mend

tomoto 0.1.4 → 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (94) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +5 -0
data/ext/tomoto/ct.cpp +8 -4
data/ext/tomoto/dmr.cpp +10 -4
data/ext/tomoto/dt.cpp +13 -4
data/ext/tomoto/extconf.rb +1 -1
data/ext/tomoto/gdmr.cpp +14 -6
data/ext/tomoto/hdp.cpp +9 -4
data/ext/tomoto/hlda.cpp +9 -4
data/ext/tomoto/hpa.cpp +9 -4
data/ext/tomoto/lda.cpp +8 -4
data/ext/tomoto/llda.cpp +8 -4
data/ext/tomoto/mglda.cpp +11 -1
data/ext/tomoto/pa.cpp +9 -4
data/ext/tomoto/plda.cpp +8 -4
data/ext/tomoto/slda.cpp +13 -5
data/lib/tomoto/gdmr.rb +2 -2
data/lib/tomoto/version.rb +1 -1
data/vendor/EigenRand/EigenRand/Core.h +6 -1107
data/vendor/EigenRand/EigenRand/Dists/Basic.h +490 -43
data/vendor/EigenRand/EigenRand/Dists/Discrete.h +916 -285
data/vendor/EigenRand/EigenRand/Dists/GammaPoisson.h +85 -36
data/vendor/EigenRand/EigenRand/Dists/NormalExp.h +1038 -290
data/vendor/EigenRand/EigenRand/EigenRand +2 -2
data/vendor/EigenRand/EigenRand/Macro.h +4 -4
data/vendor/EigenRand/EigenRand/MorePacketMath.h +54 -22
data/vendor/EigenRand/EigenRand/MvDists/Multinomial.h +222 -0
data/vendor/EigenRand/EigenRand/MvDists/MvNormal.h +492 -0
data/vendor/EigenRand/EigenRand/PacketFilter.h +2 -2
data/vendor/EigenRand/EigenRand/PacketRandomEngine.h +2 -2
data/vendor/EigenRand/EigenRand/RandUtils.h +65 -11
data/vendor/EigenRand/EigenRand/doc.h +142 -25
data/vendor/EigenRand/LICENSE +1 -1
data/vendor/EigenRand/README.md +109 -24
data/vendor/tomotopy/README.kr.rst +27 -6
data/vendor/tomotopy/README.rst +29 -8
data/vendor/tomotopy/src/Labeling/FoRelevance.cpp +60 -12
data/vendor/tomotopy/src/Labeling/FoRelevance.h +2 -2
data/vendor/tomotopy/src/Labeling/Phraser.hpp +33 -21
data/vendor/tomotopy/src/TopicModel/CT.h +8 -5
data/vendor/tomotopy/src/TopicModel/CTModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/CTModel.hpp +29 -23
data/vendor/tomotopy/src/TopicModel/DMR.h +33 -4
data/vendor/tomotopy/src/TopicModel/DMRModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/DMRModel.hpp +231 -57
data/vendor/tomotopy/src/TopicModel/DT.h +24 -5
data/vendor/tomotopy/src/TopicModel/DTModel.cpp +2 -8
data/vendor/tomotopy/src/TopicModel/DTModel.hpp +41 -28
data/vendor/tomotopy/src/TopicModel/GDMR.h +31 -5
data/vendor/tomotopy/src/TopicModel/GDMRModel.cpp +2 -7
data/vendor/tomotopy/src/TopicModel/GDMRModel.hpp +211 -104
data/vendor/tomotopy/src/TopicModel/HDP.h +11 -2
data/vendor/tomotopy/src/TopicModel/HDPModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/HDPModel.hpp +52 -45
data/vendor/tomotopy/src/TopicModel/HLDA.h +11 -2
data/vendor/tomotopy/src/TopicModel/HLDAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/HLDAModel.hpp +13 -16
data/vendor/tomotopy/src/TopicModel/HPA.h +5 -2
data/vendor/tomotopy/src/TopicModel/HPAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/HPAModel.hpp +51 -21
data/vendor/tomotopy/src/TopicModel/LDA.h +9 -2
data/vendor/tomotopy/src/TopicModel/LDACVB0Model.hpp +8 -8
data/vendor/tomotopy/src/TopicModel/LDAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/LDAModel.hpp +70 -28
data/vendor/tomotopy/src/TopicModel/LLDA.h +1 -2
data/vendor/tomotopy/src/TopicModel/LLDAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/LLDAModel.hpp +22 -12
data/vendor/tomotopy/src/TopicModel/MGLDA.h +12 -3
data/vendor/tomotopy/src/TopicModel/MGLDAModel.cpp +2 -10
data/vendor/tomotopy/src/TopicModel/MGLDAModel.hpp +42 -19
data/vendor/tomotopy/src/TopicModel/PA.h +9 -4
data/vendor/tomotopy/src/TopicModel/PAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/PAModel.hpp +48 -25
data/vendor/tomotopy/src/TopicModel/PLDA.h +13 -2
data/vendor/tomotopy/src/TopicModel/PLDAModel.cpp +2 -6
data/vendor/tomotopy/src/TopicModel/PLDAModel.hpp +27 -19
data/vendor/tomotopy/src/TopicModel/PT.h +12 -5
data/vendor/tomotopy/src/TopicModel/PTModel.cpp +2 -3
data/vendor/tomotopy/src/TopicModel/PTModel.hpp +29 -14
data/vendor/tomotopy/src/TopicModel/SLDA.h +18 -6
data/vendor/tomotopy/src/TopicModel/SLDAModel.cpp +2 -10
data/vendor/tomotopy/src/TopicModel/SLDAModel.hpp +93 -43
data/vendor/tomotopy/src/TopicModel/TopicModel.hpp +58 -23
data/vendor/tomotopy/src/Utils/AliasMethod.hpp +6 -6
data/vendor/tomotopy/src/Utils/Dictionary.h +11 -0
data/vendor/tomotopy/src/Utils/SharedString.hpp +26 -1
data/vendor/tomotopy/src/Utils/Trie.hpp +46 -21
data/vendor/tomotopy/src/Utils/Utils.hpp +99 -14
data/vendor/tomotopy/src/Utils/exception.h +1 -1
data/vendor/tomotopy/src/Utils/math.h +5 -7
data/vendor/tomotopy/src/Utils/serializer.hpp +329 -201
data/vendor/tomotopy/src/Utils/text.hpp +8 -0
data/vendor/tomotopy/src/Utils/tvector.hpp +49 -7
metadata +9 -7

data/vendor/tomotopy/src/TopicModel/DMR.h CHANGED Viewed

@@ -3,24 +3,36 @@
 namespace tomoto
 {
+	class IDMRModel;
 	template<TermWeight _tw>
 	struct DocumentDMR : public DocumentLDA<_tw>
 	{
 		using BaseDocument = DocumentLDA<_tw>;
 		using DocumentLDA<_tw>::DocumentLDA;
 		uint64_t metadata = 0;
+		std::vector<uint64_t> multiMetadata;
+		Vector mdVec;
+		size_t mdHash = (size_t)-1;
+		mutable Matrix cachedAlpha;
+		RawDoc::MiscType makeMisc(const ITopicModel* tm) const override;
 		DEFINE_SERIALIZER_AFTER_BASE_WITH_VERSION(BaseDocument, 0, metadata);
-		DEFINE_TAGGED_SERIALIZER_AFTER_BASE_WITH_VERSION(BaseDocument, 1, 0x00010001, metadata);
+		DEFINE_TAGGED_SERIALIZER_AFTER_BASE_WITH_VERSION(BaseDocument, 1, 0x00010001, metadata, multiMetadata);
+	};
+	struct DMRArgs : public LDAArgs
+	{
+		Float alphaEps = 1e-10;
+		Float sigma = 1.0;
 	};
     class IDMRModel : public ILDAModel
 	{
 	public:
 		using DefaultDocType = DocumentDMR<TermWeight::one>;
-		static IDMRModel* create(TermWeight _weight, size_t _K = 1,
-			Float defaultAlpha = 1.0, Float _sigma = 1.0, Float _eta = 0.01, Float _alphaEps = 1e-10,
-			size_t seed = std::random_device{}(),
+		static IDMRModel* create(TermWeight _weight, const DMRArgs& args,
 			bool scalarRng = false);
 		virtual void setAlphaEps(Float _alphaEps) = 0;
@@ -28,9 +40,26 @@ namespace tomoto
 		virtual void setOptimRepeat(size_t repeat) = 0;
 		virtual size_t getOptimRepeat() const = 0;
 		virtual size_t getF() const = 0;
+		virtual size_t getMdVecSize() const = 0;
 		virtual Float getSigma() const = 0;
 		virtual const Dictionary& getMetadataDict() const = 0;
+		virtual const Dictionary& getMultiMetadataDict() const = 0;
 		virtual std::vector<Float> getLambdaByMetadata(size_t metadataId) const = 0;
 		virtual std::vector<Float> getLambdaByTopic(Tid tid) const = 0;
+		virtual std::vector<Float> getTopicPrior(
+			const std::string& metadata,
+			const std::vector<std::string>& multiMetadata,
+			bool raw = false
+		) const = 0;
 	};
+	template<TermWeight _tw>
+	RawDoc::MiscType DocumentDMR<_tw>::makeMisc(const ITopicModel* tm) const
+	{
+		RawDoc::MiscType ret = DocumentLDA<_tw>::makeMisc(tm);
+		auto inst = static_cast<const IDMRModel*>(tm);
+		ret["metadata"] = inst->getMetadataDict().toWord(metadata);
+		return ret;
+	}
 }

data/vendor/tomotopy/src/TopicModel/DMRModel.cpp CHANGED Viewed

@@ -2,12 +2,8 @@
 namespace tomoto
 {
-	/*template class DMRModel<TermWeight::one>;
-	template class DMRModel<TermWeight::idf>;
-	template class DMRModel<TermWeight::pmi>;*/
-	IDMRModel* IDMRModel::create(TermWeight _weight, size_t _K, Float _defaultAlpha, Float _sigma, Float _eta, Float _alphaEps, size_t seed, bool scalarRng)
+	IDMRModel* IDMRModel::create(TermWeight _weight, const DMRArgs& args, bool scalarRng)
 	{
-		TMT_SWITCH_TW(_weight, scalarRng, DMRModel, _K, _defaultAlpha, _sigma, _eta, _alphaEps, seed);
+		TMT_SWITCH_TW(_weight, scalarRng, DMRModel, args);
 	}
 }

data/vendor/tomotopy/src/TopicModel/DMRModel.hpp CHANGED Viewed

@@ -13,7 +13,21 @@ namespace tomoto
 	template<TermWeight _tw>
 	struct ModelStateDMR : public ModelStateLDA<_tw>
 	{
-		Eigen::Matrix<Float, -1, 1> tmpK;
+		Vector tmpK;
+	};
+	struct MdHash
+	{
+		size_t operator()(std::pair<uint64_t, Vector> const& p) const
+		{
+			size_t seed = p.first;
+			for (size_t i = 0; i < p.second.size(); ++i)
+			{
+				auto elem = p.second[i];
+				seed ^= std::hash<decltype(elem)>()(elem) + 0x9e3779b9 + (seed << 6) + (seed >> 2);
+			}
+			return seed;
+		}
 	};
 	template<TermWeight _tw, typename _RandGen,
@@ -35,36 +49,37 @@ namespace tomoto
 		static constexpr char TMID[] = "DMR\0";
-		Eigen::Matrix<Float, -1, -1> lambda;
-		Eigen::Matrix<Float, -1, -1> expLambda;
+		Matrix lambda;
+		mutable std::unordered_map<std::pair<uint64_t, Vector>, size_t, MdHash> mdHashMap;
+		mutable Matrix cachedAlphas;
 		Float sigma;
-		uint32_t F = 0;
+		uint32_t F = 0, mdVecSize = 1;
 		uint32_t optimRepeat = 5;
 		Float alphaEps = 1e-10;
-		Float temperatureScale = 0;
 		static constexpr Float maxLambda = 10;
 		static constexpr size_t maxBFGSIteration = 10;
 		Dictionary metadataDict;
+		Dictionary multiMetadataDict;
 		LBFGSpp::LBFGSSolver<Float, LBFGSpp::LineSearchBracketing> solver;
-		Float getNegativeLambdaLL(Eigen::Ref<Eigen::Matrix<Float, -1, 1>> x, Eigen::Matrix<Float, -1, 1>& g) const
+		Float getNegativeLambdaLL(Eigen::Ref<Vector> x, Vector& g) const
 		{
 			g = (x.array() - log(this->alpha)) / pow(sigma, 2);
 			return (x.array() - log(this->alpha)).pow(2).sum() / 2 / pow(sigma, 2);
 		}
-		Float evaluateLambdaObj(Eigen::Ref<Eigen::Matrix<Float, -1, 1>> x, Eigen::Matrix<Float, -1, 1>& g, ThreadPool& pool, _ModelState* localData) const
+		Float evaluateLambdaObj(Eigen::Ref<Vector> x, Vector& g, ThreadPool& pool, _ModelState* localData) const
 		{
 			// if one of x is greater than maxLambda, return +inf for preventing searching more
 			if ((x.array() > maxLambda).any()) return INFINITY;
 			const auto K = this->K;
-			Float fx = - static_cast<const DerivedClass*>(this)->getNegativeLambdaLL(x, g);
-			auto alphas = (x.array().exp() + alphaEps).eval();
+			Float fx = -static_cast<const DerivedClass*>(this)->getNegativeLambdaLL(x, g);
+			Eigen::Map<Matrix> xReshaped{ x.data(), (Eigen::Index)K, (Eigen::Index)(F * mdVecSize) };
-			std::vector<std::future<Eigen::Matrix<Float, -1, 1>>> res;
+			std::vector<std::future<Eigen::Array<Float, -1, 1>>> res;
 			const size_t chStride = pool.getNumWorkers() * 8;
 			for (size_t ch = 0; ch < chStride; ++ch)
 			{
@@ -72,28 +87,28 @@ namespace tomoto
 				{
 					auto& tmpK = localData[threadId].tmpK;
 					if (!tmpK.size()) tmpK.resize(this->K);
-					Eigen::Matrix<Float, -1, 1> val = Eigen::Matrix<Float, -1, 1>::Zero(K * F + 1);
+					Eigen::Array<Float, -1, 1> val = Eigen::Array<Float, -1, 1>::Zero(K * F * mdVecSize + 1);
+					Eigen::Map<Matrix> grad{ val.data(), (Eigen::Index)K, (Eigen::Index)(F * mdVecSize) };
+					Float& fx = val[K * F * mdVecSize];
 					for (size_t docId = ch; docId < this->docs.size(); docId += chStride)
 					{
 						const auto& doc = this->docs[docId];
-						auto alphaDoc = alphas.segment(doc.metadata * K, K);
+						auto alphaDoc = ((xReshaped.middleCols(doc.metadata * mdVecSize, mdVecSize) * doc.mdVec).array().exp() + alphaEps).matrix().eval();
 						Float alphaSum = alphaDoc.sum();
 						for (Tid k = 0; k < K; ++k)
 						{
-							val[K * F] -= math::lgammaT(alphaDoc[k]) - math::lgammaT(doc.numByTopic[k] + alphaDoc[k]);
+							fx -= math::lgammaT(alphaDoc[k]) - math::lgammaT(doc.numByTopic[k] + alphaDoc[k]);
 							if (!std::isfinite(alphaDoc[k]) && alphaDoc[k] > 0) tmpK[k] = 0;
 							else tmpK[k] = -(math::digammaT(alphaDoc[k]) - math::digammaT(doc.numByTopic[k] + alphaDoc[k]));
 						}
-						//val[K * F] = -(lgammaApprox(alphaDoc.array()) - lgammaApprox(doc.numByTopic.array().cast<Float>() + alphaDoc.array())).sum();
-						//tmpK = -(digammaApprox(alphaDoc.array()) - digammaApprox(doc.numByTopic.array().cast<Float>() + alphaDoc.array()));
-						val[K * F] += math::lgammaT(alphaSum) - math::lgammaT(doc.getSumWordWeight() + alphaSum);
+						fx += math::lgammaT(alphaSum) - math::lgammaT(doc.getSumWordWeight() + alphaSum);
 						Float t = math::digammaT(alphaSum) - math::digammaT(doc.getSumWordWeight() + alphaSum);
 						if (!std::isfinite(alphaSum) && alphaSum > 0)
 						{
-							val[K * F] = -INFINITY;
+							fx = -INFINITY;
 							t = 0;
 						}
-						val.segment(doc.metadata * K, K).array() -= alphaDoc.array() * (tmpK.array() + t);
+						grad.middleCols(doc.metadata * mdVecSize, mdVecSize) -= (alphaDoc.array() * (tmpK.array() + t)).matrix() * doc.mdVec.transpose();
 					}
 					return val;
 				}));
@@ -101,8 +116,8 @@ namespace tomoto
 			for (auto& r : res)
 			{
 				auto ret = r.get();
-				fx += ret[K * F];
-				g += ret.head(K * F);
+				fx += ret[K * F * mdVecSize];
+				g += ret.head(K * F * mdVecSize).matrix();
 			}
 			// positive fx is an error from limited precision of float.
@@ -112,24 +127,24 @@ namespace tomoto
 		void initParameters()
 		{
-			auto dist = std::normal_distribution<Float>(log(this->alpha), sigma);
-			for (size_t i = 0; i < this->K; ++i) for (size_t j = 0; j < F; ++j)
+			lambda = Eigen::Rand::normalLike(lambda, this->rg, 0, sigma);
+			for (size_t f = 0; f < F; ++f)
 			{
-				lambda(i, j) = dist(this->rg);
+				lambda.col(f * mdVecSize) += this->alphas.array().log().matrix();
 			}
 		}
 		void optimizeParameters(ThreadPool& pool, _ModelState* localData, _RandGen* rgs)
 		{
-			Eigen::Matrix<Float, -1, -1> bLambda;
+			Matrix bLambda;
 			Float fx = 0, bestFx = INFINITY;
 			for (size_t i = 0; i < optimRepeat; ++i)
 			{
 				static_cast<DerivedClass*>(this)->initParameters();
-				int ret = solver.minimize([this, &pool, localData](Eigen::Ref<Eigen::Matrix<Float, -1, 1>> x, Eigen::Matrix<Float, -1, 1>& g)
+				int ret = solver.minimize([this, &pool, localData](Eigen::Ref<Vector> x, Vector& g)
 				{
 					return static_cast<DerivedClass*>(this)->evaluateLambdaObj(x, g, pool, localData);
-				}, Eigen::Map<Eigen::Matrix<Float, -1, 1>>(lambda.data(), lambda.size()), fx);
+				}, Eigen::Map<Vector>(lambda.data(), lambda.size()), fx);
 				if (fx < bestFx)
 				{
@@ -140,44 +155,60 @@ namespace tomoto
 			}
 			if (!std::isfinite(bestFx))
 			{
-				throw exception::TrainingError{ "optimizing parameters has been failed!" };
+				throw exc::TrainingError{ "optimizing parameters has been failed!" };
 			}
 			lambda = bLambda;
+			updateCachedAlphas();
 			//std::cerr << fx << std::endl;
-			expLambda = lambda.array().exp() + alphaEps;
 		}
-		int restoreFromTrainingError(const exception::TrainingError& e, ThreadPool& pool, _ModelState* localData, _RandGen* rgs)
+		int restoreFromTrainingError(const exc::TrainingError& e, ThreadPool& pool, _ModelState* localData, _RandGen* rgs)
 		{
 			std::cerr << "Failed to optimize! Reset prior and retry!" << std::endl;
 			lambda.setZero();
-			expLambda = lambda.array().exp() + alphaEps;
+			updateCachedAlphas();
 			return 0;
 		}
+		auto getCachedAlpha(const _DocType& doc) const
+		{
+			if (doc.mdHash < cachedAlphas.cols())
+			{
+				return cachedAlphas.col(doc.mdHash);
+			}
+			else
+			{
+				if (!doc.cachedAlpha.size())
+				{
+					doc.cachedAlpha = (lambda.middleCols(doc.metadata * mdVecSize, mdVecSize) * doc.mdVec).array().exp() + alphaEps;
+				}
+				return doc.cachedAlpha.col(0);
+			}
+		}
 		template<bool _asymEta>
 		Float* getZLikelihoods(_ModelState& ld, const _DocType& doc, size_t docId, size_t vid) const
 		{
 			const size_t V = this->realV;
 			assert(vid < V);
 			auto etaHelper = this->template getEtaHelper<_asymEta>();
+			auto alphas = getCachedAlpha(doc);
 			auto& zLikelihood = ld.zLikelihood;
-			zLikelihood = (doc.numByTopic.array().template cast<Float>() + this->expLambda.col(doc.metadata).array())
+			zLikelihood = (doc.numByTopic.array().template cast<Float>() + alphas.array())
 				* (ld.numByTopicWord.col(vid).array().template cast<Float>() + etaHelper.getEta(vid))
 				/ (ld.numByTopic.array().template cast<Float>() + etaHelper.getEtaSum());
 			sample::prefixSum(zLikelihood.data(), this->K);
 			return &zLikelihood[0];
 		}
 		double getLLDocTopic(const _DocType& doc) const
 		{
 			const size_t V = this->realV;
 			const auto K = this->K;
-			auto alphaDoc = expLambda.col(doc.metadata);
+			auto alphaDoc = getCachedAlpha(doc);
 			Float ll = 0;
 			Float alphaSum = alphaDoc.sum();
 			for (Tid k = 0; k < K; ++k)
@@ -199,7 +230,7 @@ namespace tomoto
 			for (; _first != _last; ++_first)
 			{
 				auto& doc = *_first;
-				auto alphaDoc = expLambda.col(doc.metadata);
+				auto alphaDoc = getCachedAlpha(doc);
 				Float alphaSum = alphaDoc.sum();
 				for (Tid k = 0; k < K; ++k)
@@ -234,45 +265,133 @@ namespace tomoto
 			return ll;
 		}
+		void updateCachedAlphas() const
+		{
+			cachedAlphas.resize(this->K, mdHashMap.size());
+			for (auto& p : mdHashMap)
+			{
+				cachedAlphas.col(p.second) = (lambda.middleCols(p.first.first * mdVecSize, mdVecSize) * p.first.second).array().exp() + alphaEps;
+			}
+		}
+		void prepareDoc(_DocType& doc, size_t docId, size_t wordSize) const
+		{
+			BaseClass::prepareDoc(doc, docId, wordSize);
+			doc.mdVec = Vector::Zero(mdVecSize);
+			doc.mdVec[0] = 1;
+			for (auto x : doc.multiMetadata)
+			{
+				doc.mdVec[x + 1] = 1;
+			}
+			auto p = std::make_pair(doc.metadata, doc.mdVec);
+			auto it = mdHashMap.find(p);
+			if (it == mdHashMap.end())
+			{
+				it = mdHashMap.emplace(p, mdHashMap.size()).first;
+			}
+			doc.mdHash = it->second;
+		}
 		void initGlobalState(bool initDocs)
 		{
 			BaseClass::initGlobalState(initDocs);
-			this->globalState.tmpK = Eigen::Matrix<Float, -1, 1>::Zero(this->K);
+			this->globalState.tmpK = Vector::Zero(this->K);
 			F = metadataDict.size();
+			mdVecSize = multiMetadataDict.size() + 1;
 			if (initDocs)
 			{
-				lambda = Eigen::Matrix<Float, -1, -1>::Constant(this->K, F, log(this->alpha));
+				lambda.resize(this->K, F * mdVecSize);
+				for (size_t f = 0; f < F; ++f)
+				{
+					lambda.col(f * mdVecSize) = this->alphas.array().log();
+					lambda.middleCols(f * mdVecSize + 1, mdVecSize - 1).setZero();
+				}
 			}
+			else
+			{
+				for (auto& doc : this->docs)
+				{
+					if (doc.mdVec.size() == mdVecSize) continue;
+					doc.mdVec = Vector::Zero(mdVecSize);
+					doc.mdVec[0] = 1;
+					for (auto x : doc.multiMetadata)
+					{
+						doc.mdVec[x + 1] = 1;
+					}
+					auto p = std::make_pair(doc.metadata, doc.mdVec);
+					auto it = this->mdHashMap.find(p);
+					if (it == this->mdHashMap.end())
+					{
+						it = this->mdHashMap.emplace(p, mdHashMap.size()).first;
+					}
+					doc.mdHash = it->second;
+				}
+			}
 			if (_Flags & flags::continuous_doc_data) this->numByTopicDoc = Eigen::Matrix<WeightType, -1, -1>::Zero(this->K, this->docs.size());
-			expLambda = lambda.array().exp();
 			LBFGSpp::LBFGSParam<Float> param;
 			param.max_iterations = maxBFGSIteration;
 			solver = decltype(solver){ param };
 		}
+		void prepareShared()
+		{
+			BaseClass::prepareShared();
+			for (auto doc : this->docs)
+			{
+				if (doc.mdHash != (size_t)-1) continue;
+				auto p = std::make_pair(doc.metadata, doc.mdVec);
+				auto it = mdHashMap.find(p);
+				if (it == mdHashMap.end())
+				{
+					it = mdHashMap.emplace(p, mdHashMap.size()).first;
+				}
+				doc.mdHash = it->second;
+			}
+			updateCachedAlphas();
+		}
 	public:
 		DEFINE_SERIALIZER_AFTER_BASE_WITH_VERSION(BaseClass, 0, sigma, alphaEps, metadataDict, lambda);
-		DEFINE_TAGGED_SERIALIZER_AFTER_BASE_WITH_VERSION(BaseClass, 1, 0x00010001, sigma, alphaEps, metadataDict, lambda);
+		DEFINE_TAGGED_SERIALIZER_AFTER_BASE_WITH_VERSION(BaseClass, 1, 0x00010001, sigma, alphaEps, metadataDict, lambda, multiMetadataDict);
-		DMRModel(size_t _K = 1, Float defaultAlpha = 1.0, Float _sigma = 1.0, Float _eta = 0.01,
-			Float _alphaEps = 0, size_t _rg = std::random_device{}())
-			: BaseClass(_K, defaultAlpha, _eta, _rg), sigma(_sigma), alphaEps(_alphaEps)
+		DMRModel(const DMRArgs& args)
+			: BaseClass(args), sigma(args.sigma), alphaEps(args.alphaEps)
 		{
-			if (_sigma <= 0) THROW_ERROR_WITH_INFO(std::runtime_error, text::format("wrong sigma value (sigma = %f)", _sigma));
+			if (sigma <= 0) THROW_ERROR_WITH_INFO(exc::InvalidArgument, text::format("wrong sigma value (sigma = %f)", sigma));
 		}
 		template<bool _const = false>
-		_DocType& _updateDoc(_DocType& doc, const std::string& metadata)
+		_DocType& _updateDoc(_DocType& doc, const std::string& metadata, const std::vector<std::string>& mdVec = {})
 		{
 			Vid xid;
 			if (_const)
 			{
 				xid = metadataDict.toWid(metadata);
-				if (xid == (Vid)-1) throw std::invalid_argument("unknown metadata");
+				if (xid == (Vid)-1) throw exc::InvalidArgument("unknown metadata '" + metadata + "'");
+				for (auto& m : mdVec)
+				{
+					Vid x = multiMetadataDict.toWid(m);
+					if (x == (Vid)-1) throw exc::InvalidArgument("unknown multi_metadata '" + m + "'");
+					doc.multiMetadata.emplace_back(x);
+				}
 			}
 			else
 			{
 				xid = metadataDict.add(metadata);
+				for (auto& m : mdVec)
+				{
+					doc.multiMetadata.emplace_back(multiMetadataDict.add(m));
+				}
 			}
 			doc.metadata = xid;
 			return doc;
@@ -281,28 +400,41 @@ namespace tomoto
 		size_t addDoc(const RawDoc& rawDoc, const RawDocTokenizer::Factory& tokenizer) override
 		{
 			auto doc = this->template _makeFromRawDoc<false>(rawDoc, tokenizer);
-			return this->_addDoc(_updateDoc(doc, rawDoc.template getMisc<std::string>("metadata")));
+			return this->_addDoc(_updateDoc(doc,
+				rawDoc.template getMisc<std::string>("metadata"),
+				rawDoc.template getMiscDefault<std::vector<std::string>>("multi_metadata")
+			));
 		}
 		std::unique_ptr<DocumentBase> makeDoc(const RawDoc& rawDoc, const RawDocTokenizer::Factory& tokenizer) const override
 		{
 			auto doc = as_mutable(this)->template _makeFromRawDoc<true>(rawDoc, tokenizer);
-			return make_unique<_DocType>(as_mutable(this)->template _updateDoc<true>(doc, rawDoc.template getMisc<std::string>("metadata")));
+			return std::make_unique<_DocType>(as_mutable(this)->template _updateDoc<true>(doc,
+				rawDoc.template getMisc<std::string>("metadata"),
+				rawDoc.template getMiscDefault<std::vector<std::string>>("multi_metadata")
+			));
 		}
 		size_t addDoc(const RawDoc& rawDoc) override
 		{
 			auto doc = this->_makeFromRawDoc(rawDoc);
-			return this->_addDoc(_updateDoc(doc, rawDoc.template getMisc<std::string>("metadata")));
+			return this->_addDoc(_updateDoc(doc,
+				rawDoc.template getMisc<std::string>("metadata"),
+				rawDoc.template getMiscDefault<std::vector<std::string>>("multi_metadata")
+			));
 		}
 		std::unique_ptr<DocumentBase> makeDoc(const RawDoc& rawDoc) const override
 		{
 			auto doc = as_mutable(this)->template _makeFromRawDoc<true>(rawDoc);
-			return make_unique<_DocType>(as_mutable(this)->template _updateDoc<true>(doc, rawDoc.template getMisc<std::string>("metadata")));
+			return std::make_unique<_DocType>(as_mutable(this)->template _updateDoc<true>(doc,
+				rawDoc.template getMisc<std::string>("metadata"),
+				rawDoc.template getMiscDefault<std::vector<std::string>>("multi_metadata")
+			));
 		}
 		GETTER(F, size_t, F);
+		GETTER(MdVecSize, size_t, mdVecSize);
 		GETTER(Sigma, Float, sigma);
 		GETTER(AlphaEps, Float, alphaEps);
 		GETTER(OptimRepeat, size_t, optimRepeat);
@@ -317,12 +449,19 @@ namespace tomoto
 			optimRepeat = _optimRepeat;
 		}
-		std::vector<Float> getTopicsByDoc(const _DocType& doc) const
+		std::vector<Float> getTopicsByDoc(const _DocType& doc, bool normalize) const
 		{
 			std::vector<Float> ret(this->K);
-			auto alphaDoc = expLambda.col(doc.metadata);
-			Eigen::Map<Eigen::Matrix<Float, -1, 1>>{ret.data(), this->K}.array() =
-				(doc.numByTopic.array().template cast<Float>() + alphaDoc.array()) / (doc.getSumWordWeight() + alphaDoc.sum());
+			auto alphaDoc = getCachedAlpha(doc);
+			Eigen::Map<Eigen::Array<Float, -1, 1>> m{ ret.data(), this->K };
+			if (normalize)
+			{
+				m = (doc.numByTopic.array().template cast<Float>() + alphaDoc.array()) / (doc.getSumWordWeight() + alphaDoc.sum());
+			}
+			else
+			{
+				m = doc.numByTopic.array().template cast<Float>() + alphaDoc.array();
+			}
 			return ret;
 		}
@@ -330,17 +469,52 @@ namespace tomoto
 		{
 			assert(metadataId < metadataDict.size());
 			auto l = lambda.col(metadataId);
-			return { l.data(), l.data() + this->K };
+			return { l.data(), l.data() + l.size() };
 		}
 		std::vector<Float> getLambdaByTopic(Tid tid) const override
 		{
-			assert(tid < this->K);
-			auto l = lambda.row(tid);
-			return { l.data(), l.data() + F };
+			std::vector<Float> ret(F * mdVecSize);
+			if (this->lambda.size())
+			{
+				Eigen::Map<Vector>{ ret.data(), (Eigen::Index)ret.size() } = this->lambda.row(tid);
+			}
+			return ret;
+		}
+		std::vector<Float> getTopicPrior(const std::string& metadata,
+			const std::vector<std::string>& mdVec,
+			bool raw = false
+		) const override
+		{
+			Vid xid = metadataDict.toWid(metadata);
+			if (xid == (Vid)-1) throw exc::InvalidArgument("unknown metadata '" + metadata + "'");
+			Vector xs = Vector::Zero(mdVecSize);
+			xs[0] = 1;
+			for (auto& m : mdVec)
+			{
+				Vid x = multiMetadataDict.toWid(m);
+				if (x == (Vid)-1) throw exc::InvalidArgument("unknown multi_metadata '" + m + "'");
+				xs[x + 1] = 1;
+			}
+			std::vector<Float> ret(this->K);
+			Eigen::Map<Vector> map{ ret.data(), (Eigen::Index)ret.size() };
+			if (raw)
+			{
+				map = lambda.middleCols(xid * mdVecSize, mdVecSize) * xs;
+			}
+			else
+			{
+				map = (lambda.middleCols(xid * mdVecSize, mdVecSize) * xs).array().exp() + alphaEps;
+			}
+			return ret;
 		}
 		const Dictionary& getMetadataDict() const override { return metadataDict; }
+		const Dictionary& getMultiMetadataDict() const override { return multiMetadataDict; }
 	};
 	/* This is for preventing 'undefined symbol' problem in compiling by clang. */