Gensim är ett open-source bibliotek för Python som skapats med syftet att extrahera semantisk information från råa, ostrukturerade, digitala texter som webbplatser, bloggar, e-böcker, artiklar, etc. Den baseras på ett antal framstående algoritmer inom maskininlärning och naturlig språkbehandling, såsom Latent Semantic Analysis (LSA), Random Projections (RP), Hierarchical Dirichlet Process (HDP) och Latent Dirichlet Allocation (LDA).
Gensims huvudfunktion är att skapa semantiska modeller av stora textkorpora. Det kan användas för att upptäcka dolda teman, gruppera liknande dokument, utföra dokumentindexering och till och med för att bygga upp en rekommenderad motor. Gensim är både effektivt och skalbart, och kan därför hantera textkorpusar med miljoner av dokument och tiotals miljoner av unika token.
Ett exempel på hur Gensim kan användas är med Word2Vec, en populär modell för ord inbäddning. Denna modell tränas på stora mängder text data och genererar vektorrepresentationer för ord, där semantiskt relaterade ord gruppas nära varandra. Detta möjliggör allt från att bedöma likheten mellan två dokument till att utföra mer komplexa uppgifter som att upptäcka ironi, sarkasm, eller känslomässig ton i texter.