JustSystems ATOK総合スレ Part105

1名無しさん@お腹いっぱい。 (ワッチョイ 13b5-4w2R)
垢版 |
2025/05/02(金) 23:09:48.23ID:XrXqy+Wu0
!extend:checked:vvvvv:1000:512
↑冒頭にこれを2行重ねてスレ立てして下さい
(1行目は消えます)

ジャストシステムが開発・販売しているATOK総合スレです

ATOK.com
http://www.atok.com/

無料試用版
http://www.atok.com/try/

ATOK変換改善パートナー
https://atok.com/partner/

※前スレ
JustSystems ATOK総合スレ Part104
https://egg.5ch.net/test/read.cgi/software/1710342648/
VIPQ2_EXTDAT: checked:vvvvv:1000:512:: EXT was configured
2025/05/04(日) 14:00:00.70ID:4sgBEZ7C0
>>9
> Mozc (およびGoogle日本語) 用に作成した脳領域名の日本語変換辞書
mozc_brain_atlas.txt
・読み:全角
・文字エンコード:UTF-8
・改行コード:LF
読みが全角(ひらがなのみ)なのでATOK用に変換してみた
nkf -w16L -c mozc_brain_atlas.txt > mozc_brain_atlas_atok.txt
辞書ユーティリティで登録したら一部を除き(*1)登録できた
(*1)!!単語コメントがすでに登録されています。
ししょう/びじょうかく/ひかく/たんそうきゅう/かいば
Webサイトでは88個となっておりATOK登録も88個 → txtファイルに重複
2025/05/04(日) 14:06:40.20ID:4sgBEZ7C0
mozc_brain_atlas_atok.txtをatok_brain_atlas.txtに変更し重複部分を削除した
2025/05/05(月) 19:04:40.84ID:tIuWbSFEd0505
>>7
> DMiME 医学医療用語変換辞書
DMiME-1.1.txt
・読み:半角英数字/記号/全角ひらがな混在
・文字エンコード:UTF-8
・改行コード:LF
"DMiME ATOK"で検索したらmacでATOK用に変換するスクリプトが見つかった(awk/uconv/paste/gsed)
Windows用コマンド(アプリ)を探したが一部が見つからなかった
そこで思いついたのがexcel利用だった -> 読みの全角変換はJIS関数
失敗:Web版excel -> csvとして書き出す(エクスポート)と全角文字は文字化け("?")する
成功:デスクトップ版excel
あとは品詞などを修正した
辞書ユーティリティで登録したら一部を除き(*1)登録できた
(*1)!!読みに不適切な文字が含まれています。
  !!読みが長すぎます。32文字以内で入力します。
  !!単語に不適切な文字が含まれています。
4万2千語の内30語がエラー
2025/05/06(火) 04:55:10.18ID:rTv8p96Pd
誤:4万2千語の内30語がエラー
正:4万2千語の内300語がエラー
2025/05/06(火) 18:10:12.98ID:joKRUHbt0
> 4万2千語の内300語がエラー
これはUTF-16変換(nkf)に誤りがあった -> 全角ハイフンマイナスを半角ハイフンマイナスに変換
・nkfを使用せずメモ帳で書き込み時にUTF-16LEを指定
・読みが全角英文字で単語が半角英文字 -> 日本語変換の意味なし -> 削除
・読みが32文字を超えている場合は32文字以内に収める
上記の対策で辞書ユーティリティで登録したら1個エラーになった -> !!単語に不適切な文字が含まれています。
単語を修正しても改善せず -> 原因は読みに"、"が含まれていた
→!!読みに不適切な文字が含まれています。 エラーにならなかったので気づくのが遅れた
42,254語を登録完了
2025/05/07(水) 06:30:23.75ID:WMPRwodZ0
off topic
削除したけど w
へんかんほうこくする   <URL:DMiME 語句登録、要望フォーム>   固有名詞
2025/05/07(水) 13:02:04.98ID:2L57a+lOd
DMiME 医学医療用語変換辞書
macのスクリプト
(1)awkで行最初の単語を取り出しuconvで全角変換後col1.txtに格納
(2)awkで行最初の単語を削除しcol2-3.txtに格納
 (1)(2)はDMiME-1.1.txtについて全行で行われる
(3)pasteでcol1.txtとcol2-3.txtをマージしmerge.txtに格納
(4)gsedで"短縮よみ"を"短縮読み"に置換
(5)gsedで"ゔ"を"う゛"に置換
(6)gsedで"サジェストのみ"を含む行を削除
(7)gsedで"*"を削除
 (4)(5)(6)(7)はmerge.txtについて全行で行われる
(8)nkfでmerge.txtをUTF-16/CR変換しDMiME-atok.txtに格納
(9)col1.txt col2-3.txt merged.txtを削除
2025/05/07(水) 13:37:35.06ID:WMPRwodZ0
DMiME 医学医療用語変換辞書
Winの作業
(1)DMiME-1.1.txtをメモ帳で開き全てをコピー
(2)デスクトップ版excelで新規bookを開き(1)をペースト -> A列に読み B列に単語 C列に品詞
(3)D列に=JIS(A$)を記入 -> A列の全角変換内容
(4)D列全てをコピーしA列に値をペースト
(5)excelでtxt(タブ区切り)としてDMiME-atok.txtに格納
(6)DMiME-atok.txtをメモ帳で開き[置換]で各種操作
(7)UTF-16LEを指定し保存
2025/05/07(水) 13:39:37.28ID:WMPRwodZ0
追記
(4.5)D列を削除
レスを投稿する

大学生アイラと影の怪物と戦うリョウが、深夜3時3分の静止した世界で交錯する超常スリラーの概要

ニューススポーツなんでも実況