PDF中のテキストをコピーして貼り付けると、改行がめちゃくちゃになっていて困った経験はありませんか?改行と単語途中のハイフネーションをいちいち確認しながら手動で修正するのは面倒です。
DelHyphen」は、そんなPDF中の余分な改行を自動で削除するための便利なツールです。みなさんの普段の作業が少しでも快適になれば幸いです!!
キャプチャ

DelHyphenのダウンロード

【動作環境】 Windows 7 / 8 / 10
【バージョン】 1.0.0
【最終更新日】 2021/09/14

【ダウンロード】
以下のリンクから、最新版DelHyphenをダウンロードすることができます。

Windows版 (exe形式)のDownload

【免責】
本ソフトウェアは十分なテストを行っていますが、動作に関してなんらかの保証をするものではなく、いかなる運用結果についても一切の責任を負いません。あらかじめご了承ください。

【アンインストール】
ダウンロードしたフォルダごと削除して下さい。本ソフトウェアはユーザーが直接指定しない限りフォルダ外へのファイルの作成はおこないません。また、レジストリの変更も行いません。

【旧版のダウンロード】 
過去のバージョンはGitHubより入手できます。また、Python スクリプト版も以下より入手できます。
GitHub DelHyphen

DelHyphenとは?

DelHyphenは、コピーしたテキスト中の改行を自動で削除するためのソフトウエアです。単語途中の改行時に用いるハイフネーションにも対応しています。当然、ハイフネーション以外の改行に関係ないハイフンは削除されないので安心してください。

例えば、PDF中の外国語をコピーして翻訳サイトに貼り付ける際に、改行がめちゃくちゃだと当然、おかしな翻訳結果になってしまいます。そんな時にDelHyphenを活用すると便利だと思います。

GUI(グラフィカルユーザインターフェース)を備えたバージョンと、GUIの表示されないワンクリック型が用意されているのでお好きな方をお使いください。

【主な機能 】
・ テキスト文書の改行削除
・ ハイフネーションの削除
・ 文献番号の削除(OC2β版のみ)

【変更履歴】
・2021/09/14 Ver.1.0.0公開

DelHyphenのインストール方法

ダウンロードしたzipファイルを、適当なフォルダに解凍すればインストール完了です。DelHyphenフォルダ中の「DelHyphen.exe」がソフトウェア本体になります。

同梱の関連ファイルを削除したり、ソフトウェア本体をファイル外へ移動したりすると正常に動作しなくなるので注意してください。DelHyphen.exeのショートカットを好きな場所に作成して利用することをおすすめします。

また、DelHyphenOCフォルダ中の「DelHyphenOC.exe」はGUIを持たないワンクリック型のアプリケーションです。こちらも、同梱の関連ファイルを削除したり、ソフトウェア本体をファイル外へ移動したりすると正常に動作しなくなるので注意してください。

DelHyphenの使い方

難しい操作は一切必要ありません。まず、DelHyphen.exeを起動すると以下のような画面が表示されるので、テキストエリアにPDFからコピーしたテキストを貼り付けてください。
cap_1
あとは、テキストエリア下の[Here we go!!]ボタンをクリックするだけです。
以下は、テキスト中の改行とハイフネーションが修正された結果です。
cap_2
ツールバーの[Edit]ボタンに一応コピーとペーストの機能を実装していますが、Windowsのショートカットキー(コピー:Ctrl+C, ペースト:Ctrl+V)を利用したほうが効率的だと思います。

一方、ワンクリック型の「DelHyphenOC」はPDFからテキストをコピーした後に、「DelHyphenOC.exe」を起動してください。クリップボード中のテキストを処理したら自動で終了します。後は、お好きなところにペーストするだけです。
fm_004
試してみたい方のためにサンプルファイルを用意したので、以下からダウンロードして試してみてください。

サンプルファイルのダウンロード
https://github.com/RyokoKuga/DelHyphen/raw/main/testFiles/Test.pdf
https://raw.githubusercontent.com/RyokoKuga/DelHyphen/main/testFiles/Test.txt

PDFの改行を簡単に削除する他のアイディア 

ハイフネーションが存在しない場合、最も簡単なのはWebブラウザのアドレスバーにテキストを貼り付けてから、再度コピーする方法です。この方法は、制御文字が簡単にクリアできるので、活用されている方も多いと思います。

ただし、当然ハイフネーションは削除されないので注意が必要です。
fm_005
翻訳が目的で、改行とハイフネーションを削除してDeepLにすぐさま翻訳させたいという方には、以下のShaperというサイトがおすすめです。実は、DelHyphenにも翻訳サイトが公開しているAPIを用いて翻訳機能を実装しようとしていたんですが、Shaperの存在を知りペンディングしました。
sh_001
Shaper
https://dream-exp.net/shaper/

文献番号も削除したい場合は?

コピーしたテキストの文献番号も削除したいという方のために、角括弧の文献番号の削除機能を追加したDelHyphenOC2βを公開しています。角括弧直前の半角スペースの有無と角括弧内の番号はコンマ区切り(ex.:[1,5])及び連番(ex.:[1-5])に対応しています。

文献番号はジャーナルの種類やオーサーの好みによって統一されていないので、現時点では角括弧型の文献番号のみに限定したベータ版としています。使い方は、DelHyphenOCと同じワンクリック型です。

以下のリンクから、DelHyphenOC2βをダウンロードすることができます。

Windows版 (exe形式)のDownload

(サンプルファイルのダウンロード)
https://github.com/RyokoKuga/DelHyphen/raw/main/testFiles/Test(OC2%CE%B2).pdf
https://raw.githubusercontent.com/RyokoKuga/DelHyphen/main/testFiles/Test(OC2%CE%B2).txt

おわりに

PDFで、ちょっと気になった箇所を翻訳しようとコピペしたら改行がめちゃくちゃな時て、地味に修正が面倒なんですよね。そういった際に、DelHyphenが少しでもお役に立てれば幸いです!!

文献番号に対応したDelHyphenOC2βは、色々な形式に対応できるように少しずつアップデートしていく予定です。なにかいいアイディアがあればコメントいただけると助かります。

余談ですが、DelHyphenはPythonで作成しています。Pythonでデスクトップアプリを作りたい場合は、ブログの連載記事「Pythonではじめるアプリ開発」を参照してみてください。また、書籍「Pythonではじめるデスクトップアプリ開発入門」では、さらに詳しいデスクトップアプリの開発方法を解説しています。興味がある方は、お手に取っていただければ幸いです!!