皆様
LingQで英語を学び始めた当初より、少しずつ、"The Linguist: A personal guide to language learning"を、聴いて、読んで、LingQし、ようやく一通り終えました。今の私の英語力で挫折せずに、最後まで到達できたのは、以下の理由があると思います。
①音声とtranscriptが両方揃っていること
②内容に興味があったこと
③適度に細切れになっていて、少しずつ進められたこと
④Online dictionaryのおかげで、copy & pasteで単語帳が作成できること
⑤vocabularyでreviewすることで、単語が身に付き、次に出てきたときに覚えている可能性が高いこと
⑥全ての作業が、インターネットに繋がったパソコンさえあればできること
⑦Steveの声がpleasingであったこと
これまでも、辞書を片手に、洋書にチャレンジしたことはありますが、
①手書きで単語帳を作るのは面倒くさい
②単語帳を作っても、作りっぱなしで、Flashcardのように便利でなく、復習しない
③洋書、辞書が揃っていないと読み進められない
などの理由で、「この本は、きちんと内容を理解して読み切った」と言える経験はありませんでした。
Known wordsの数も目に見えて増え、私にとっては、ちょっとした成功体験というか、1冊きっちり終えたことで、自信に繋がりました(大袈裟ですいません)。
ここからが本題ですが、上記のようなことに気を良くして、10年以上前、学生時代に翻訳で読んだ本を、英語で、LingQシステムを用いて読めないだろうか?聴けないだろうか?LingQできないだろうか?と考えています。
ネット上のニュース記事などは、importして利用していますが、市販されている本の内容を、何らかの方法でimportすることはできるのでしょうか?電子書籍などを利用すれば可能なのでしょうか?それとも、業者に依頼して、本をまるごとPDF化してからなら可能なのでしょうか?
著作権の問題があるため、個人での利用に限られると思いますが、御存知の方、もしくは同様なことをしている方がいらっしゃれば教えて頂ければ幸いです。
nobuo
2
hirohideさん、こんにちは。
市販の本をまるごとLingQにインポートして使ったことはありません。 手持ちのペーパーバックをテキストエディターにタイプして、それをコピー&貼り付けしてLingQに個人利用としてインポートしているものはあります。 でもこれタイピングだけで疲れますよね。
Kindle for PCでネイティブの小学生が読むような本を購入してはパソコンで読んでいるのですが残念ながらLingQにはコピー&貼り付けできません。
今回のご質問でいいヒントをいただきました。 本をまるごとPDF化してくれる業者がないか検索してみたらいろいろありました。
http://bookpdf.jp/index.php
手持ちの本を業者に送って、PDFファイルをダウンロードで受け取って、本は業者が廃棄処分するみたいです。
スキャナで自分でもできると思いますが本まるごととなると面倒ですからね。 料金もそんなに高くないです。
LingQにインポートするとなるとテキストのコピー&貼り付けが必要になってくると思うのでOCRの処理が必要になると思います。上記の業者はOCR処理も別料金ですがやってくれるようです。 まあPDFファイルがあれば市販のソフトでテキストに変換できるようです。
http://www.sourcenext.com/titles/use/116440/
私も大人が読むペーパーバックはなかなか最後までたどりつきません。英語力がへぼいうえに、老眼傾向で(トホホ)ペーパーバックや英字新聞の小さな字を読むのがつらく続きません。 パソコンとくにLingQのサイトで読むと文字もブラウザーで大きくできるし、電子辞書はすぐ使えるし、語句の管理やレビューもできるし便利ですよね。 言われてみれば短いチャプターごとに区切ると 途中で挫折せず最後まで読めるかも。
その点 パソコンに取り込んで、できればLingQにまるごとインポートできれば長いものでも読み終えることが出来るかもしれませんね。 部屋のどこかさがせば最後までよめずにほったらかしにしているペーパーバックとお蔵入りしているカセットテープのaudio-bookもあると思うので、一度試しに うえの業者にペーパーバック1~2冊まるごとPDF化をお願いしてみようかと思います。
nobuoさん
いつも、詳細なお返事をありがとうございます。
自分は、電子書籍は詳しくなく、もしかしたら、簡単にcopy & pasteが可能かと期待していたのですが、そうでもないようですね。
また、PDF化しても、さらにテキストにしなければならないわけですね。
少し手間がかかりそうですが、一旦テキスト化して、LingQシステムで精読するとなると、自分の場合は、1冊の本がしばらくもちそうなので、前向きに検討してみようと思います。
もしnobuoさんの方が先に実現したら、途中経過報告・結果報告して貰えたら大変助かります。
nobuo
4
hirohideさん、
昨日リンクを紹介した本をまるごと裁断して、スキャンして、PDF化してOCR処理してテキストにしてくれる業者「@スキャン」に朝 手持ちのペーパーバック2冊分を見積もり依頼しました。400ページ弱1冊と170ページぐらいのもの1冊。昼頃に見積もり金額がメールで来てOCR処理のオプションも含めて合計1000円ということでした。
今回はお試しみたいなもんなのでさっそく郵便で2冊ともその業者に送り、業者指定の銀行口座に代金を支払いました。 業者が私のペーパーバックを受け取ったら、すぐ処理をして電子化したファイルが出来上がったらダウンロードできるサイトをメールで案内してくれるようです。
長年ほったらかしにしていたペーパーバックなのでLingQにインポートできて少しずつでも読んでいって最後まで読めたら嬉しいです。またその後ちゃんとインポートできたか報告します。
nobuo
5
連続投稿のメッセージで失礼します。
よく考えてみたら市販されてる本をLingQにインポートして使うならPDF化しなくても、スキャナで画像形式でスキャンして、その画像ファイルをスキャナ付属のOCRソフトでテキスト化したらいいんじゃないかということに気づきました。
それで今日 時間があるときにあれこれ試してみました。
エプソンのフラットスキャナーはあったのですが故障したまま修理せずほったらかしだったので、安物のHPのプリンター複合機があったのでこれで試してみました。 いままでこれで印刷物をOCR(テキスト化)とかやったことなかったです。
ドキュメントスキャンという項目で「白黒」、解像度は300dpiをを選択し、OCRもするを選び、日本語と英語の選択肢があったので英語を選びました。
手持ちの英語のペパーバック(子供向けなのでちょっと大き目のフォントサイズ)の適当なページを開いて、手で上から押さえながらスキャン実行。数秒でスキャンできて、これを10ページほど繰り返しました。 本を見開きで上から押さえないといけないので、これが面倒。
スキャン後 保存のオプションがいくつかあったのでワードもあったので ワードを選ぶ。 するとワードが開いてスキャンした文字が現れました。 若干 ちゃんと読み取れていないところもありましたが95%ぐらいはちゃんと正しく読み取れていました。 間違って読み込まれたところを手入力で訂正して、ワードファイルでパソコンに保存。
あとはLingQにインポートするには簡単。 ワードでそのファイルを開いてコピーしてLingQのインポート画面で貼り付けるだけ。 著作権関係で個人使用になります。
HPのスキャナじゃなくても、エプソンやキャノンのスキャナやスキャナ機能が搭載されている複合機なら同じことができると思います。 OCRのソフトも付属されているはず。 でもやっぱり何百ページとなるとスキャンするときにずっと本を手で押さえていないといけないので、面倒だし時間もかかります。 文字の手直しもちょっと面倒。
少しずつインポートしてはLingQで少しずつ読むんだったら、この方法でもいいかも。
nobuo
6
またまた連続投稿で失礼します。
他の方法でも試してみました。 参考になればと紹介します。 ペーパーバックの適当なページを開き、デジカメで1ページずつ撮影。 デジカメは300万画素の古い機械です。 これも10ページほど撮影しました。
写真をパソコンに転送。
画像ファイル(JPG)をフリーソフト(VIX)でトリミング。つまり文字が写っているいる以外の余分なところを切り取り。 画質を明るさ、コントラスト調整して白い紙ではっきり文字が見えるように調整。(簡単な操作です)
これを上書き保存。(JPGファイル)
ちなみに1ページの写真サイズは1252×1712ドットでした。 これはもっと小さくてもいいみたいです。
英文をOCRできるフリーソフトはないかなあと探したらFreeOCR version3.0 というのがあったのでこれをダウンロードしてインストール。(Windows XPを使っています)
このソフト英語説明、英語表示ですが使い方は超簡単でした。
メニューからOPENというところを選ぶ。
↓
先ほど保存した画像ファイル(JPGファイル)を選んで開く。
↓
OCRというところをクリック。
↓
右の窓にOCR化(テキスト化)されたものが表示されます。 私が試したものではほぼ100%正確にテキスト化されました。手入力で手直しもほとんどいらなかったです。
↓
同じ要領で他のページも読み込んでいくと、右の窓にはテキスト化されたものがどんどん追加されていきます。
↓
Copy all Text to Clipboard というアイコンをクリック
↓
あとはLingQのインポート画面で貼り付けるだけです。
この方法ならスキャナやプリンタ複合機を持っていない人でも わりあい簡単にLingQにインポートできます。 まあ各ページをデジカメで撮影したり、写真加工したりで何百ページもあるとちょっと面倒ですが。
一度 どなたか試してみてください。 外国の雑誌で自分の興味ある記事なんかもデジカメで取ってLingQに取り込むのもいいかも。
nobuo
7
先ほどのメッセージで紹介したフリーの英文OCRソフト FreeOCR version3.0 がダウンロードできるサイトのリンクです。 Windows用のようです。
http://www.paperfile.net/
nobuoさん
たくさんの情報ありがとうございます。
私には、自分であれこれするのは出来そうにないので、そう高価でもないようですので、業者に依頼する方で検討してみたいと思います。
nobuo
9
hirohideさん、
@スキャンという業者にペーパーバック2冊のPDF化およびOCR処理を先日依頼した件の経過報告です。
本日の夕方 メールで作業完了しました、次のところよりダウンロードしてください。 というダウンロードの際に必要なパスワードを記載したメールが送られてきました。
さっそく先ほど自分のパソコンにダウンロードしました。1冊分が1つのPDF形式のファイルになっています。
その一つのファイルをダブルクリックするとAdobe Readerが起動してファイルが開きました。 文字が小さくて私にはとても読みづらかった各ページが、モニターいっぱいに約2倍に拡大されて表示されました。 もちろんソフトで読むときの拡大率は変更できますが、ペーパーバックの1ページが17インチのモニターいっぱいの幅で拡大表示されているのでとても見やすいです。それにさすがプロのスキャナは性能がいいのか、きれいにスキャンされています。 ちょっと感動もんでした。
オプションでOCR処理も依頼しているのでPDFとは別にテキストファイルもあるのかと思いましたが そうではありませんでした。
PDFファイルにOCR処理がほどこされているという感じのようです。 業者サイトの説明にあったように「文字がテキストとして認識され閲覧の際に検索が可能となります。」 この文字検索はAdobe Readerで確かにできました。
ただ肝心の LingQへインポートするためにはテキストのコピー&貼り付けができなくてはなりません。 一括してできないかとAdobe Readerのメニューで 編集→すべてを選択 して それからコピー&貼り付けをやってみましたが すごい文字化けで使い物になりませんでした。
しかたなくワードへ 編集→形式を選択して貼り付け→テキスト でやってみましたが これも文字化けと 文字間のスペースがない のでうまくいきませんでした。
ヤフー知恵袋などで他の人が質問しているのを検索してみるといっぱい出てきました。 市販の別のソフトがいるみたいです。 はたしてそれでもうまくいくかどうか・・・
来週にでも業者にも問い合わせてみます。
LingQへのインポートはうまくいっていないという経過報告でした。 簡単にできると思っていましたが、なかなか道は険しいです。
LingQ関係なしでAdobe Readerで読むだけならとても読みやすく、業者にお金を出して本をまるごと読み取りに出した値打ちはあると思います。 iPadなんかを持っている人ならペーパーバックを何冊でも入れて、大きな文字で外でかっこよく読めると思います。
他の方でなにかヒントやいいやり方あれば教えてください。
nobuoさん
経過報告、ありがとうございます。私も、1冊注文するところだったのですが、もう少し待ってみます。
また、進展があれば教えて頂ければ幸いです。
nobuo
11
hirohideさん、
本をまるごとテキスト化してLingQに個人使用でインポートする件の経過報告 続きです。
PDF化、OCR処理を依頼した業者@スキャンにメールで「PDFは鮮明に読めて満足していますが、OCR処理されているようですが、テキストをコピー&貼り付けすると 文字化けがひどく文字間のスペースもつまって表示される。なんとかなりませんか?何か方法あれば教えてください。」 と問い合わせました。
本日の夕方に返事があり「前回は一般(通常)のOCRをかけていました。今回は英語(UAS)OCRと 白黒で文字をハッキリさせてOCRに認識(英字OCR)と2通りかけてみました。」 ということで やり直しのPDFファイルをまたダウンロードしました。
細かいことを書くとややこしいので省きますが 結論から言いますと
「うまくLingQにインポートできることができました!」
LingQにインポートする手順です。
業者からダウンロードしたファイルをダブルクリックで開く。
↓
Adobe Reader 9 が起動してファイルが開く
↓
メニューから ファイル→テキストとして保存 を選びパソコンにテキストファイルとして保存する。
↓
LingQのインポート画面を表示する
↓
さきほどのテキストファイルの適当なところをマウスで選択して 右クリック→コピー
↓
LingQのインポート画面 テキスト欄に貼り付け
↓
各ページの本のタイトルやらページ番号など不要なものを削除。 各行が強制的に改行されているのでこれを修正。(行末でデリートキー)
↓
あとはタイトルなど適当につけてセーブ
何百ページもあるペーパーバックを1レッスンではとてもむりなので 自分の好きなページ数ごとに分けてインポートするといいと思います。 ちなみにさきほど400ページ弱の本のファイルを10ページごとぐらいにわけて100ページほどインポートしてみました。 改行を手直しするのがちょっと面倒です。 でも十年近くも読めずにほったらかしにしていた本が こういうかたちで復活してくれてとても嬉しいです。
1レッスン分(約10ページ)でLingQの語数カウントによると約2000文字ぐらいです。 この文字をカウントしてくれるのも嬉しいです。
実はこのペーパーバックは別にe-bayで買ったカセットテープですがオーディオテープがあるんです。ごく最初しかデジタルファイル(MP3ファイル)にしてないんで もうデジタル化するの面倒なので古~いプレイヤーでも出してきて聞きながらLingQで読む予定です。 最後までたどりつきますように。
hirohideさんもぜひチャレンジしてください。
nobuo
12
hirohideさん、 追記です。
業者@スキャンに依頼するときは オプションのOCR処理もしてもらう、また備考のところで 「英文テキストをコピー&貼り付けして利用したいので そのように処理お願いします。」 と書いておくといいと思います。 念のために本を送るときに そのメモをつけておくと確実です。
nobuoさん
本当にありがとうございます。
早速、注文しました。私は福岡ですので、地元の業者へ、明日、配達予定です。
翻訳本で繰り返し読んで、洋書、audio CDも買った代物ですが、洋書、audio CDはgive upしていたものです。
LingQで少しずつであれば、完読・完聴できるのではないかと思っています。