src/jdk.charsets/share/classes/sun/nio/cs/ext/JISAutoDetect.java

Print this page




  62                 || (cs instanceof EUC_JP)
  63                 || (cs instanceof ISO2022_JP));
  64     }
  65 
  66     public boolean canEncode() {
  67         return false;
  68     }
  69 
  70     public CharsetDecoder newDecoder() {
  71         return new Decoder(this);
  72     }
  73 
  74     public String historicalName() {
  75         return "JISAutoDetect";
  76     }
  77 
  78     public CharsetEncoder newEncoder() {
  79         throw new UnsupportedOperationException();
  80     }
  81 
  82     /**
  83      * accessor methods used to share byte masking tables
  84      * with the sun.io JISAutoDetect implementation
  85      */
  86 
  87     public static byte[] getByteMask1() {
  88         return Decoder.maskTable1;
  89     }
  90 
  91     public static byte[] getByteMask2() {
  92         return Decoder.maskTable2;
  93     }
  94 
  95     public final static boolean canBeSJIS1B(int mask) {
  96         return (mask & SJIS1B_MASK) != 0;
  97     }
  98 
  99     public final static boolean canBeEUCJP(int mask) {
 100         return (mask & EUCJP_MASK) != 0;
 101     }
 102 
 103     public final static boolean canBeEUCKana(int mask1, int mask2) {
 104         return ((mask1 & EUCJP_KANA1_MASK) != 0)
 105             && ((mask2 & EUCJP_KANA2_MASK) != 0);
 106     }
 107 
 108     // A heuristic algorithm for guessing if EUC-decoded text really
 109     // might be Japanese text.  Better heuristics are possible...
 110     private static boolean looksLikeJapanese(CharBuffer cb) {
 111         int hiragana = 0;       // Fullwidth Hiragana
 112         int katakana = 0;       // Halfwidth Katakana
 113         while (cb.hasRemaining()) {
 114             char c = cb.get();
 115             if (0x3040 <= c && c <= 0x309f && ++hiragana > 1) return true;
 116             if (0xff65 <= c && c <= 0xff9f && ++katakana > 1) return true;
 117         }
 118         return false;
 119     }
 120 
 121     private static class Decoder extends CharsetDecoder {
 122         private final static String osName = AccessController.doPrivileged(
 123             (PrivilegedAction<String>) () -> System.getProperty("os.name"));
 124 
 125         private final static String SJISName = getSJISName();
 126         private final static String EUCJPName = getEUCJPName();
 127         private DelegatableDecoder detectedDecoder = null;
 128 
 129         public Decoder(Charset cs) {
 130             super(cs, 0.5f, 1.0f);
 131         }
 132 
 133         private static boolean isPlainASCII(byte b) {
 134             return b >= 0 && b != 0x1b;
 135         }
 136 
 137         private static void copyLeadingASCII(ByteBuffer src, CharBuffer dst) {
 138             int start = src.position();
 139             int limit = start + Math.min(src.remaining(), dst.remaining());
 140             int p;
 141             byte b;
 142             for (p = start; p < limit && isPlainASCII(b = src.get(p)); p++)
 143                 dst.put((char)(b & 0xff));
 144             src.position(p);
 145         }
 146 
 147         private CoderResult decodeLoop(Charset cs,
 148                                        ByteBuffer src, CharBuffer dst) {
 149             detectedDecoder = (DelegatableDecoder) cs.newDecoder();

 150             return detectedDecoder.decodeLoop(src, dst);
 151         }
 152 
 153         protected CoderResult decodeLoop(ByteBuffer src, CharBuffer dst) {
 154             if (detectedDecoder == null) {
 155                 copyLeadingASCII(src, dst);
 156 
 157                 // All ASCII?
 158                 if (! src.hasRemaining())
 159                     return CoderResult.UNDERFLOW;
 160                 if (! dst.hasRemaining())


 161                     return CoderResult.OVERFLOW;
 162 
 163                 // We need to perform double, not float, arithmetic; otherwise
 164                 // we lose low order bits when src is larger than 2**24.
 165                 int cbufsiz = (int)(src.limit() * (double)maxCharsPerByte());
 166                 CharBuffer sandbox = CharBuffer.allocate(cbufsiz);
 167 
 168                 // First try ISO-2022-JP, since there is no ambiguity
 169                 Charset cs2022 = Charset.forName("ISO-2022-JP");
 170                 DelegatableDecoder dd2022
 171                     = (DelegatableDecoder) cs2022.newDecoder();
 172                 ByteBuffer src2022 = src.asReadOnlyBuffer();
 173                 CoderResult res2022 = dd2022.decodeLoop(src2022, sandbox);
 174                 if (! res2022.isError())
 175                     return decodeLoop(cs2022, src, dst);
 176 
 177                 // We must choose between EUC and SJIS
 178                 Charset csEUCJ = Charset.forName(EUCJPName);
 179                 Charset csSJIS = Charset.forName(SJISName);
 180 
 181                 DelegatableDecoder ddEUCJ
 182                     = (DelegatableDecoder) csEUCJ.newDecoder();



 183                 ByteBuffer srcEUCJ = src.asReadOnlyBuffer();
 184                 sandbox.clear();
 185                 CoderResult resEUCJ = ddEUCJ.decodeLoop(srcEUCJ, sandbox);
 186                 // If EUC decoding fails, must be SJIS
 187                 if (resEUCJ.isError())
 188                     return decodeLoop(csSJIS, src, dst);
 189 
 190                 DelegatableDecoder ddSJIS
 191                     = (DelegatableDecoder) csSJIS.newDecoder();
 192                 ByteBuffer srcSJIS = src.asReadOnlyBuffer();
 193                 CharBuffer sandboxSJIS = CharBuffer.allocate(cbufsiz);
 194                 CoderResult resSJIS = ddSJIS.decodeLoop(srcSJIS, sandboxSJIS);
 195                 // If SJIS decoding fails, must be EUC
 196                 if (resSJIS.isError())
 197                     return decodeLoop(csEUCJ, src, dst);
 198 
 199                 // From here on, we have some ambiguity, and must guess.
 200 
 201                 // We prefer input that does not appear to end mid-character.
 202                 if (srcEUCJ.position() > srcSJIS.position())
 203                     return decodeLoop(csEUCJ, src, dst);
 204 
 205                 if (srcEUCJ.position() < srcSJIS.position())
 206                     return decodeLoop(csSJIS, src, dst);
 207 
 208                 // end-of-input is after the first byte of the first char?
 209                 if (src.position() == srcEUCJ.position())
 210                     return CoderResult.UNDERFLOW;
 211 
 212                 // Use heuristic knowledge of typical Japanese text
 213                 sandbox.flip();
 214                 Charset guess = looksLikeJapanese(sandbox) ? csEUCJ : csSJIS;
 215                 return decodeLoop(guess, src, dst);
 216             }
 217 
 218             return detectedDecoder.decodeLoop(src, dst);
 219         }
 220 
 221         protected void implReset() {
 222             detectedDecoder = null;
 223         }
 224 
 225         protected CoderResult implFlush(CharBuffer out) {
 226             if (detectedDecoder != null)
 227                 return detectedDecoder.implFlush(out);
 228             else
 229                 return super.implFlush(out);
 230         }
 231 
 232         public boolean isAutoDetecting() {
 233             return true;
 234         }
 235 


 250         private static String getSJISName() {
 251             if (osName.equals("Solaris") || osName.equals("SunOS"))
 252                 return("PCK");
 253             else if (osName.startsWith("Windows"))
 254                 return("windows-31J");
 255             else
 256                 return("Shift_JIS");
 257         }
 258 
 259         /**
 260          * Returned EUC-JP Charset name is OS dependent
 261          */
 262 
 263         private static String getEUCJPName() {
 264             if (osName.equals("Solaris") || osName.equals("SunOS"))
 265                 return("x-eucjp-open");
 266             else
 267                 return("EUC_JP");
 268         }
 269 
 270         // Mask tables - each entry indicates possibility of first or
 271         // second byte being SJIS or EUC_JP
 272         private static final byte maskTable1[] = {
 273             0, 0, 0, 0, // 0x00 - 0x03
 274             0, 0, 0, 0, // 0x04 - 0x07
 275             0, 0, 0, 0, // 0x08 - 0x0b
 276             0, 0, 0, 0, // 0x0c - 0x0f
 277             0, 0, 0, 0, // 0x10 - 0x13
 278             0, 0, 0, 0, // 0x14 - 0x17
 279             0, 0, 0, 0, // 0x18 - 0x1b
 280             0, 0, 0, 0, // 0x1c - 0x1f
 281             0, 0, 0, 0, // 0x20 - 0x23
 282             0, 0, 0, 0, // 0x24 - 0x27
 283             0, 0, 0, 0, // 0x28 - 0x2b
 284             0, 0, 0, 0, // 0x2c - 0x2f
 285             0, 0, 0, 0, // 0x30 - 0x33
 286             0, 0, 0, 0, // 0x34 - 0x37
 287             0, 0, 0, 0, // 0x38 - 0x3b
 288             0, 0, 0, 0, // 0x3c - 0x3f
 289             0, 0, 0, 0, // 0x40 - 0x43
 290             0, 0, 0, 0, // 0x44 - 0x47
 291             0, 0, 0, 0, // 0x48 - 0x4b
 292             0, 0, 0, 0, // 0x4c - 0x4f
 293             0, 0, 0, 0, // 0x50 - 0x53
 294             0, 0, 0, 0, // 0x54 - 0x57
 295             0, 0, 0, 0, // 0x58 - 0x5b
 296             0, 0, 0, 0, // 0x5c - 0x5f
 297             0, 0, 0, 0, // 0x60 - 0x63
 298             0, 0, 0, 0, // 0x64 - 0x67
 299             0, 0, 0, 0, // 0x68 - 0x6b
 300             0, 0, 0, 0, // 0x6c - 0x6f
 301             0, 0, 0, 0, // 0x70 - 0x73
 302             0, 0, 0, 0, // 0x74 - 0x77
 303             0, 0, 0, 0, // 0x78 - 0x7b
 304             0, 0, 0, 0, // 0x7c - 0x7f
 305             0, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK,   // 0x80 - 0x83
 306             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x84 - 0x87
 307             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x88 - 0x8b
 308             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK,   // 0x8c - 0x8f
 309             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x90 - 0x93
 310             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x94 - 0x97
 311             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x98 - 0x9b
 312             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x9c - 0x9f
 313             0, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,  // 0xa0 - 0xa3
 314             SJIS1B_MASK|EUCJP_MASK|EUCJP_KANA1_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,    // 0xa4 - 0xa7
 315             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xa8 - 0xab
 316             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xac - 0xaf
 317             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xb0 - 0xb3
 318             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xb4 - 0xb7
 319             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xb8 - 0xbb
 320             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xbc - 0xbf
 321             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xc0 - 0xc3
 322             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xc4 - 0xc7
 323             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xc8 - 0xcb
 324             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xcc - 0xcf
 325             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xd0 - 0xd3
 326             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xd4 - 0xd7
 327             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xd8 - 0xdb
 328             SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK, SJIS1B_MASK|EUCJP_MASK,     // 0xdc - 0xdf
 329             SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK,     // 0xe0 - 0xe3
 330             SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK,     // 0xe4 - 0xe7
 331             SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK,     // 0xe8 - 0xeb
 332             SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK,     // 0xec - 0xef
 333             SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK,     // 0xf0 - 0xf3
 334             SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK,     // 0xf4 - 0xf7
 335             SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK,     // 0xf8 - 0xfb
 336             SJIS2B_MASK|EUCJP_MASK, EUCJP_MASK, EUCJP_MASK, 0   // 0xfc - 0xff
 337         };
 338 
 339         private static final byte maskTable2[] = {
 340             0, 0, 0, 0, // 0x00 - 0x03
 341             0, 0, 0, 0, // 0x04 - 0x07
 342             0, 0, 0, 0, // 0x08 - 0x0b
 343             0, 0, 0, 0, // 0x0c - 0x0f
 344             0, 0, 0, 0, // 0x10 - 0x13
 345             0, 0, 0, 0, // 0x14 - 0x17
 346             0, 0, 0, 0, // 0x18 - 0x1b
 347             0, 0, 0, 0, // 0x1c - 0x1f
 348             0, 0, 0, 0, // 0x20 - 0x23
 349             0, 0, 0, 0, // 0x24 - 0x27
 350             0, 0, 0, 0, // 0x28 - 0x2b
 351             0, 0, 0, 0, // 0x2c - 0x2f
 352             0, 0, 0, 0, // 0x30 - 0x33
 353             0, 0, 0, 0, // 0x34 - 0x37
 354             0, 0, 0, 0, // 0x38 - 0x3b
 355             0, 0, 0, 0, // 0x3c - 0x3f
 356             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x40 - 0x43
 357             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x44 - 0x47
 358             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x48 - 0x4b
 359             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x4c - 0x4f
 360             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x50 - 0x53
 361             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x54 - 0x57
 362             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x58 - 0x5b
 363             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x5c - 0x5f
 364             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x60 - 0x63
 365             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x64 - 0x67
 366             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x68 - 0x6b
 367             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x6c - 0x6f
 368             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x70 - 0x73
 369             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x74 - 0x77
 370             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x78 - 0x7b
 371             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, 0,   // 0x7c - 0x7f
 372             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x80 - 0x83
 373             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x84 - 0x87
 374             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x88 - 0x8b
 375             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x8c - 0x8f
 376             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x90 - 0x93
 377             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x94 - 0x97
 378             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x98 - 0x9b
 379             SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, SJIS2B_MASK, // 0x9c - 0x9f
 380             SJIS2B_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xa0 - 0xa3
 381             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xa4 - 0xa7
 382             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xa8 - 0xab
 383             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xac - 0xaf
 384             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xb0 - 0xb3
 385             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xb4 - 0xb7
 386             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xb8 - 0xbb
 387             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xbc - 0xbf
 388             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xc0 - 0xc3
 389             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xc4 - 0xc7
 390             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xc8 - 0xcb
 391             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xcc - 0xcf
 392             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xd0 - 0xd3
 393             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xd4 - 0xd7
 394             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xd8 - 0xdb
 395             SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS1B_MASK|SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xdc - 0xdf
 396             SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xe0 - 0xe3
 397             SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xe4 - 0xe7
 398             SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xe8 - 0xeb
 399             SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xec - 0xef
 400             SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, SJIS2B_MASK|EUCJP_MASK|EUCJP_KANA2_MASK, // 0xf0 - 0xf3
 401             SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK,     // 0xf4 - 0xf7
 402             SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK, SJIS2B_MASK|EUCJP_MASK,     // 0xf8 - 0xfb
 403             SJIS2B_MASK|EUCJP_MASK, EUCJP_MASK, EUCJP_MASK, 0   // 0xfc - 0xff
 404         };
 405     }
 406 }


  62                 || (cs instanceof EUC_JP)
  63                 || (cs instanceof ISO2022_JP));
  64     }
  65 
  66     public boolean canEncode() {
  67         return false;
  68     }
  69 
  70     public CharsetDecoder newDecoder() {
  71         return new Decoder(this);
  72     }
  73 
  74     public String historicalName() {
  75         return "JISAutoDetect";
  76     }
  77 
  78     public CharsetEncoder newEncoder() {
  79         throw new UnsupportedOperationException();
  80     }
  81 


























  82     // A heuristic algorithm for guessing if EUC-decoded text really
  83     // might be Japanese text.  Better heuristics are possible...
  84     private static boolean looksLikeJapanese(CharBuffer cb) {
  85         int hiragana = 0;       // Fullwidth Hiragana
  86         int katakana = 0;       // Halfwidth Katakana
  87         while (cb.hasRemaining()) {
  88             char c = cb.get();
  89             if (0x3040 <= c && c <= 0x309f && ++hiragana > 1) return true;
  90             if (0xff65 <= c && c <= 0xff9f && ++katakana > 1) return true;
  91         }
  92         return false;
  93     }
  94 
  95     private static class Decoder extends CharsetDecoder {
  96         private final static String osName = AccessController.doPrivileged(
  97             (PrivilegedAction<String>) () -> System.getProperty("os.name"));
  98 
  99         private final static String SJISName = getSJISName();
 100         private final static String EUCJPName = getEUCJPName();
 101         private DelegatableDecoder detectedDecoder = null;
 102 
 103         public Decoder(Charset cs) {
 104             super(cs, 0.5f, 1.0f);
 105         }
 106 
 107         private static boolean isPlainASCII(byte b) {
 108             return b >= 0 && b != 0x1b;
 109         }
 110 
 111         private static void copyLeadingASCII(ByteBuffer src, CharBuffer dst) {
 112             int start = src.position();
 113             int limit = start + Math.min(src.remaining(), dst.remaining());
 114             int p;
 115             byte b;
 116             for (p = start; p < limit && isPlainASCII(b = src.get(p)); p++)
 117                 dst.put((char)(b & 0xff));
 118             src.position(p);
 119         }
 120 
 121         private CoderResult decodeLoop(DelegatableDecoder decoder,
 122                                        ByteBuffer src, CharBuffer dst) {
 123             ((CharsetDecoder)decoder).reset();
 124             detectedDecoder = decoder;
 125             return detectedDecoder.decodeLoop(src, dst);
 126         }
 127 
 128         protected CoderResult decodeLoop(ByteBuffer src, CharBuffer dst) {
 129             if (detectedDecoder == null) {
 130                 copyLeadingASCII(src, dst);
 131 
 132                 // All ASCII?
 133                 if (! src.hasRemaining())
 134                     return CoderResult.UNDERFLOW;
 135                 // Overflow only if there is still ascii but no out buffer.
 136                 if (!dst.hasRemaining() &&
 137                     isPlainASCII(src.get(src.position())))
 138                     return CoderResult.OVERFLOW;
 139 
 140                 // We need to perform double, not float, arithmetic; otherwise
 141                 // we lose low order bits when src is larger than 2**24.
 142                 int cbufsiz = (int)(src.limit() * (double)maxCharsPerByte());
 143                 CharBuffer sandbox = CharBuffer.allocate(cbufsiz);
 144 
 145                 // First try ISO-2022-JP, since there is no ambiguity
 146                 Charset cs2022 = Charset.forName("ISO-2022-JP");
 147                 DelegatableDecoder dd2022
 148                     = (DelegatableDecoder) cs2022.newDecoder();
 149                 ByteBuffer src2022 = src.asReadOnlyBuffer();
 150                 CoderResult res2022 = dd2022.decodeLoop(src2022, sandbox);
 151                 if (! res2022.isError())
 152                     return decodeLoop(dd2022, src, dst);
 153 
 154                 // We must choose between EUC and SJIS
 155                 Charset csEUCJ = Charset.forName(EUCJPName);
 156                 Charset csSJIS = Charset.forName(SJISName);
 157 
 158                 DelegatableDecoder ddEUCJ
 159                     = (DelegatableDecoder) csEUCJ.newDecoder();
 160                 DelegatableDecoder ddSJIS
 161                     = (DelegatableDecoder) csSJIS.newDecoder();
 162 
 163                 ByteBuffer srcEUCJ = src.asReadOnlyBuffer();
 164                 sandbox.clear();
 165                 CoderResult resEUCJ = ddEUCJ.decodeLoop(srcEUCJ, sandbox);
 166                 // If EUC decoding fails, must be SJIS
 167                 if (resEUCJ.isError())
 168                     return decodeLoop(ddSJIS, src, dst);



 169                 ByteBuffer srcSJIS = src.asReadOnlyBuffer();
 170                 CharBuffer sandboxSJIS = CharBuffer.allocate(cbufsiz);
 171                 CoderResult resSJIS = ddSJIS.decodeLoop(srcSJIS, sandboxSJIS);
 172                 // If SJIS decoding fails, must be EUC
 173                 if (resSJIS.isError())
 174                     return decodeLoop(ddEUCJ, src, dst);
 175 
 176                 // From here on, we have some ambiguity, and must guess.
 177 
 178                 // We prefer input that does not appear to end mid-character.
 179                 if (srcEUCJ.position() > srcSJIS.position())
 180                     return decodeLoop(ddEUCJ, src, dst);
 181 
 182                 if (srcEUCJ.position() < srcSJIS.position())
 183                     return decodeLoop(ddSJIS, src, dst);
 184 
 185                 // end-of-input is after the first byte of the first char?
 186                 if (src.position() == srcEUCJ.position())
 187                     return CoderResult.UNDERFLOW;
 188 
 189                 // Use heuristic knowledge of typical Japanese text
 190                 sandbox.flip();
 191                 return decodeLoop(looksLikeJapanese(sandbox) ? ddEUCJ : ddSJIS,
 192                                   src, dst);
 193             }
 194 
 195             return detectedDecoder.decodeLoop(src, dst);
 196         }
 197 
 198         protected void implReset() {
 199             detectedDecoder = null;
 200         }
 201 
 202         protected CoderResult implFlush(CharBuffer out) {
 203             if (detectedDecoder != null)
 204                 return detectedDecoder.implFlush(out);
 205             else
 206                 return super.implFlush(out);
 207         }
 208 
 209         public boolean isAutoDetecting() {
 210             return true;
 211         }
 212 


 227         private static String getSJISName() {
 228             if (osName.equals("Solaris") || osName.equals("SunOS"))
 229                 return("PCK");
 230             else if (osName.startsWith("Windows"))
 231                 return("windows-31J");
 232             else
 233                 return("Shift_JIS");
 234         }
 235 
 236         /**
 237          * Returned EUC-JP Charset name is OS dependent
 238          */
 239 
 240         private static String getEUCJPName() {
 241             if (osName.equals("Solaris") || osName.equals("SunOS"))
 242                 return("x-eucjp-open");
 243             else
 244                 return("EUC_JP");
 245         }
 246 







































































































































 247     }
 248 }