SimString

Documentation for SimString.

A native Julia implementation of the CPMerge algorithm, which is designed for approximate string matching. This package is be particulary useful for natural language processing tasks which require the retrieval of strings/texts from a very large corpora (big amounts of texts). Currently, this package supports both Character and Word based N-grams feature generations and there are plans to open the package up for custom user defined feature generation methods.

CPMerge Paper: https://aclanthology.org/C10-1096/

Features

[X] Fast algorithm for string matching
[X] 100% exact retrieval
[X] Support for unicodes
[X] Support for building databases directly from text files
[X] Mecab-based tokenizer support for Japanese
[ ] Support for persistent databases like MongoDB

Suported String Similarity Measures

[X] Dice coefficient
[X] Jaccard coefficient
[X] Cosine coefficient
[X] Overlap coefficient
[X] Exact match

Installation

You can grab the latest stable version of this package from Julia registries by simply running;

NB: Don't forget to invoke Julia's package manager with ]

pkg> add SimString

The few (and selected) brave ones can simply grab the current experimental features by simply adding the master branch to your development environment after invoking the package manager with ]:

pkg> add SimString#master

You are good to go with bleeding edge features and breakages!

To revert to a stable version, you can simply run:

pkg> free SimString

Usage

using SimString

# Inilisate database and some strings
db = DictDB(CharacterNGrams(2, " ")); 
# OR: db = DictDB(WordNGrams(2, " ")); for word based ngrams 
# OR  db = DictDB(MecabNGrams(2, " ", Mecab())) for Japanese ngrams. Requires installation of Mecab
push!(db, "foo");
push!(db, "bar");
push!(db, "fooo");

# Convinient approach is to use an array of strings for multiple entries: `append!(db, ["foo", "bar", "fooo"]);`

# OR: Build database from text files: `append!(db, "YOUR_FILE_NAME.txt");

# Retrieve the closest match(es)
res = search(Dice(), db, "foo"; α=0.8, ranked=true)
# 2-element Vector{Tuple{String, Float64}}:
#  ("foo", 1.0)
#  ("fooo", 0.8888888888888888)

# Describe a working database collection
desc = describe_collection(db)
# (total_collection = 3, avg_size_ngrams = 4.5, total_ngrams = 13)

TODO: Benchmarks

Release History

0.1.0 Initial release.
0.2.0 Added support for unicodes
0.3.0 Added Japanese support via Mecab

SimString.AbstractSimStringDB
SimString.AbstractSimilarityMeasure
SimString.CharacterNGrams
SimString.Cosine
SimString.Dice
SimString.DictDB
SimString.DictDB
SimString.DictDB
SimString.DictDB
SimString.ExactMatch
SimString.FeatureExtractor
SimString.Jaccard
SimString.MecabNGrams
SimString.Overlap
SimString.WordNGrams
Base.append!
Base.append!
Base.push!
Base.show
SimString.cummulative_ngram_count
SimString.describe_collection
SimString.extract_features
SimString.extract_features
SimString.extract_features
SimString.generate_base_dict_db
SimString.init_ngrams
SimString.init_ngrams
SimString.lookup_feature_set_by_size_feature
SimString.make_zero_index_circular_array
SimString.maximum_feature_size
SimString.maximum_feature_size
SimString.maximum_feature_size
SimString.maximum_feature_size
SimString.maximum_feature_size
SimString.minimum_feature_size
SimString.minimum_feature_size
SimString.minimum_feature_size
SimString.minimum_feature_size
SimString.minimum_feature_size
SimString.minimum_overlap
SimString.minimum_overlap
SimString.minimum_overlap
SimString.minimum_overlap
SimString.minimum_overlap
SimString.n_grams
SimString.overlap_join
SimString.pad_string
SimString.pad_string
SimString.rank_search_results
SimString.search
SimString.search!
SimString.similarity_score
SimString.similarity_score
SimString.similarity_score
SimString.similarity_score
SimString.similarity_score
SimString.tokenize

SimString.AbstractSimStringDB — Type

Base type for all custom db collections.