Asian Languages Now Working, Library Updated

Hans-Peter,

I did not realize it was you. We do not have the experience with the Asian languages that you have. Is there some way we can work with you on our Asian languages?

You have a great site by the way.

Steve, thank you, but: 哪裡, 哪裡! :wink:

I’m not exactly sure how their word splitting algorithms work but we used mmseg MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm for Chinese and MeCab http://bit.ly/1PM4ws for Japanese. Feel free to take a look at how they work. We may be able to remove spacing in the texts or at least make it optional. The word boundaries, however, are determined by these two algorithms.

The algorithm I sketched above is the “Maximum matching” algorithm.

Mark, do you use a lexicon with simplified or traditional characters?
When I import a text with traditional characters, the splitting result seems poor.
I did not try it with simplified characters until now.

I just tried “ChineseLingQ Beginner - (Eating Out), Part 5”

Original LingQ lesson (manually splitted):
你 以前 来 过 这家 饭馆 吗 ?
是的 , 我 以前 来 过 。
你 多长 时间 来 一次 ?
什么 ?
你 以前 一共 来 过 几次 ?
我 至少 来 过 五次 。
你 说 什么 ?
我 来 过 很多 次 。
服务员 来 了 。 我们 点菜 吧 。
好 , 那 我们 找 服务员 要 一份 菜单 吧 。
你好 , 我 是 你们 今晚 的 服务员 。
你好 。
你们 要 点 些 什么 吗 ?
请 把 菜单 给 我们 。
在 菜单 拿来 之前 , 你们 想要 喝 点 什么 吗 ?
好 啊 , 我 要 一杯 啤酒 。 你 呢 ? 刘 京 京 ?
我 不要 了 , 我 现在 正 合适 。 通常 我 只 喝 一杯 啤酒 。

Simplified (own import):
你 以前 来过 这家 饭馆 吗 ?
是的 ,我 以前 来过 。
你多 长时间 来 一次 ?
什么 ?
你 以前 一共 来过 几次 ?
我 至少 来过 五次 。
你说 什么 ?
我 来过 很 多次 。
服务员 来 了 。我们 点菜 吧 。
好 ,那 我们 找 服务员 要 一份 菜单 吧 。
你好 ,我是 你们 今晚 的 服务员 。
你好 。
你们 要点 些 什么 吗 ?
请 把 菜单 给我 们 。
在 菜单 拿来 之前 ,你们 想要 喝点 什么 吗 ?
好啊 ,我要 一杯 啤酒 。你 呢 ?刘 京 京 ?
我 不要 了 ,我 现在 正合适 。通常 我 只 喝 一杯 啤酒 。

Traditional (own import):
你 以前 來 過 這 家 飯 館 嗎 ?
是的 ,我 以前 來 過 。
你多 長 時 間 來 一次 ?
什 麼 ?
你 以前 一共 來 過 幾 次 ?
我 至少 來 過 五次 。
你 說 什 麼 ?
我 來 過 很 多次 。
服 務 員 來 了 。我 們 點 菜 吧 。
好 ,那 我 們 找 服 務 員 要 一份 菜 單 吧 。
你好 ,我 是你 們 今晚 的 服 務 員 。
你好 。
你 們 要 點 些 什 麼 嗎 ?
請 把 菜 單 給 我 們 。
在 菜 單 拿 來 之前 ,你 們 想要 喝 點 什 麼 嗎 ?
好啊 ,我要 一杯 啤酒 。你 呢 ?劉 京 京 ?
我 不要 了 ,我 現 在 正 合 適 。通常 我 只 喝 一杯 啤酒 。

Conclusion: The splitting result of texts in trad. characters is poor.
e.g. 服 務 員 is not recognized as one word.

It looks like you are right and the splitter may not work properly with Traditional Characters. We will look into it.

By the way, we just pushed an update that allows you to remove the spacing in Asian language texts. You will see the “Show/Hide Spacing” control beside the Back to Lesson link under the lesson title on the Lesson page.