小怪兽么么表情包更新

前文: http://kaikai.info/love-monmon-the-godzilla/

么么出了第二个表情包,另外在 2015 贺年表情中也露了一次脸。现在她有了陪伴,体形也越发可爱,大概这是一个美好的结局吧。依然,我还是找不到作者,不知道哪里有卖衍生品。

么么2:monmon2

肉肉哒

肉肉哒

陪着你

陪着你

抱抱

抱抱

不理你

不理你

不要啦

不要啦

新年快乐

新年快乐

我要减肥

我要减肥

都怪你

都怪你

好无聊

好无聊

摸摸头

摸摸头

嗨

我错了

我错了

亲亲

亲亲

点赞

点赞

圣诞快乐

圣诞快乐

没问题

没问题

 

 

然后是新年萌物表情包,只有一部分是么么:5f656f4dacb0cee887adc091619380c8

恭喜发财

恭喜发财

元宵快乐

元宵快乐

羊年大吉

羊年大吉

新春快乐

新春快乐

福到

福到

发发发

发发发

身体健康

身体健康

暖洋洋

暖洋洋

万事兴

万事兴

 

剩下是同一表情包里无么么的表情:
吃吃吃

吃吃吃

心想事成

心想事成

年年有余

年年有余

红红火火

红红火火

喜气洋洋

喜气洋洋

十全十美

十全十美

发红包

发红包

吉星高照

吉星高照

同乐

同乐

万事如意

万事如意

抢红包

抢红包

财源滚滚

财源滚滚

一帆风顺

一帆风顺

恭贺新禧

恭贺新禧

过年啦

过年啦

C 酱近况通报

Hi, 我又来发文耽误大家阅读时间了。C 酱小组最近又有了很多进展,只是暂时还没有在界面上体现出来。正因为如此,更要好好地讲讲。

运营数据

国庆七天长假是秋天以下的又一波 cosplay 大高峰。C 酱作为 cosplay 的二手交易搜索站,也很直接地体会到了 coser 们『展前急求购,展后苦出售』的种种悲剧,对此 C 酱只能说……吃不上饭的都是真爱 (≖ ‿ ≖)✧

言归正传。

目前 http://cosjiaoyi.com/ 过去 30 天数据依然保持大约 5500 PV,UV 略有下降,900 多不到 1K。但回头客(回访率)有所上升,到了 31%。

大致的结论是,我们『真正的』用户数依然在稳定增长。我一直在做一些简单的运营,也偶尔与用户有私下的交流,对网站的『有用』有比数据更直观的感受。这些大多来自于用户的直接反馈,有赞美,也有抱怨。每次我都很开心,那并不是罗列数据所能展现的,但却是更本质的东西……因为用户八成都是萌妹子……≖‿≖✧

言归正传。

因为 cosplay 本身的周期因素——也就是天气冷了、要考试了、漫展少了等因素,总访问量受到一些影响,没有如预期一样继续稳步增长。另一个因素是,用来做微博转发推广的帐号遭遇了一些小困难,导致大约半个月时间微博无法如以往一样进行常规推广,也损失了一些访问数。

单从数据上讲,微博粉丝日平均增长量和日 PV 数较为相关。在微博帐号异常的那几天,粉丝数量停滞不前,日 PV 数也日渐下降,当重新开始转发后,PV 数也回升到正常情况。更详细的分析没有什么意义,毕竟一天一两百的 PV,随机波动影响较大,难说跟国庆后退潮期有什么关系。

常规的每天半到一小时的微博转发,大致能带来的流量基本稳定。如果没有活动和奖励刺激,会保持一个稳定缓慢增加的状态。我一开始就有计划做一些活动,但目前网站已经上线的部分仍显单薄,强行推活动当然也会带来增长,只是未必能稳定留存用户,我们还是先来谈谈别的。

社团人员

从发过招募后,我又各处去拉了壮丁。现在算上神隐的已有九人,可以骄傲地称之为小团队了。如招募时所说,因为是业余社团性质,有团员暂时处于离线状态,主程战力三人,运营一人,外加酱油三人。当然,都是周末贡献一天时间。如前所言,每周预期四小时,最多八小时,如果忙,请先忙。

凑几个人,做一点事情。我没有宏大理想和甚高逼格,只要能做好一个小站,让它可以自己循环养活自己,就够了。我觉得这是我的优点。有无穷多的资源,可以做无限大的事情,如果没有,我们也能做点东西出来。

我们现在依然缺设计和前端,很遗憾地,虽然我鼓动过两三位,但也许是不得法吧,最后还是没了回应。所以设计还是我自己在做,(`・ω・´),前端小团队配合着做。摆在列表上的工作有:新版界面、网站 Logo、三大功能界面、手机版界面、网站吉祥物等等,顺序分先后,嗯。

我在鼓动萌妹子、设计师、萌妹子+设计师方面实在是很手足无措智商捉急,所以如果你愿意来,能不能先教我一下怎么鼓动你,你会愿意来?我们的用户大多都是非常可爱的萌妹子,剩下的也都是非常可爱的伪娘妹子……我们小社团自己也有两周一次的女仆餐厅聚餐,我们还有……呃……我大概明白为什么木有设计师了(>_<。)。

哦对,我现在实在是没法提供全职工作机会,我真没想到会有朋友向我投简历求工作,(=゚Д゚=),非常抱歉,希望将来有缘。

现在进展

我们做了很多工作,只是暂时没有在界面上体现出来。

  • 我们花了很多时间改进了微博数据的处理,包括清理过期微博、过滤僵尸粉、改进链接速度、改善搜索结果等等;
  • 我们研究了如何扩大搜索源,已经通过了初步测试,未来可以搜索的源会更多一些;
  • 我们设计了一个新功能,帮助用户及时发现他想要的东西。这个功能分三个环节,第一个环节已经基本完成等待测试了;
  • 哦,还有另一个新功能带你勾搭带你飞,所谓的 C 酱三大功能的第三功能。也进展顺利;
  • 新的界面也已经在后台整装待发;
  • 为了让界面更好看,我们还在研究如何服务器端判断 UA;
  • 然后,我在尽力做着不擅长的事情,做设计,画 Logo,并学习手绘萌妹图;
  • 当然,每两周一次的聚餐依然尽力。

基本资料

我们做的,现在是 cosplay 二手服装道具的搜索,短期定位为『好用的工具』,中期是为 coser 服务的优质功能小站,长期不提。

羞羞的招募

这段时间来,我逐渐认识到一个道理。

要做好一件事情,最不能的就是藏着掖着。曝晒在阳光下,让众人评判,让有兴趣的人一起努力,才是最好的办法。靠着私下时有时无的业余时间,没法快速推进。

讲道理都会,真落到自己身上,还是要花费许多时光去接受。即使是现在,也还是有很多担忧。

如果招募连一个回应都没有怎办?如果主意被别人抄走了怎办?付出了辛苦却回报不了大家怎办?如果做不成辜负了大家怎办?如果理解不同争执冲突怎办?如果做得不够完美到不了自己的预期怎办?如果期望太高伤害了大家怎办?如果最后连朋友都做不成怎办?……

有太多不能保证的东西,让人害怕承诺。我总能侃谈构思想法,却每每在盈利模式前语塞。并不是因为没有想过,只是在通往终点的路上有太多太多可能的变数,让我自己都觉得吐出口的,都会变成谎言。

你要知道,有 99% 的项目都会以失败告终,我只能保证我会坚持到最后。

所以请原谅我,然后请帮助我,最后,请再原谅我。我甚至不能保证你们的劳动会有相应的物质金钱回报,我只能说,希望一起来做一件我自觉有趣、有希望、也许还有那么一点点前途的事情。我想靠这个就把你们骗上船,希望能成功。

关于现状:

http://cosjiaoyi.com 现在版本
http://bs.cosjiaoyi.com 未上线版本的 HTML+CSS 原型,还在一点点添加。

使用 Github 管理代码库(私有库),使用 trello 管理任务,使用 SSH 公私钥登录服务器。

目前是淡季,每月大约 5000 PV,高峰也曾到过 600pv/d。新访:回访为 7:3。对一个只有微博转发简单推广,无抽奖无大V互动无漫展现场挂易拉宝的个人小站来说,我觉得已经不错了。这个网站真的是有人在用的,我们也已经真的小小做到了一些事情。这已让我欣喜不已,因此也更加迫不及待。

现在在做的是 Cosplay 服装与周边二手信息的采集与搜索。整体定位是 cos 同好者手边的一个“好用的工具”。作为工具,不需要什么消磨时间的特性,只要需要时被想起就够了。

就像见到雨雪想起的折伞,见到脑残想起的板砖。

我需要后端、前端、设计师、推广:

  1. 你喜欢动漫,现在还喜欢。或者你喜欢我,ヽ(✿゚▽゚)ノ,也行。
  2. python、node.js、php,MySQL,Ubuntu。网站已备案,个人。暂时没注册公司,没有必要,但也不是问题。
  3. 我只会完成基本的 HTML+CSS,速度很慢,也不会 js 和各种框架。我需要前端。
  4. 产品经理也是我。动漫爱好者,理科生,少年时不学无术却想改变世界,现在努力学习只希望能做成一样事情。选择 Cosplay 二手搜索只是切入点,最终梦想不止于此,希望能看它慢慢递进。
  5. 算法常用伪代码,有时也用文档。用 HTML+CSS 写原型,只因无前端。常用 Axure 和 Sketch,但最喜欢还是纸与笔。
  6. 绘画是我曾满心向往而后最终放弃的,所以我明白完成设计稿的辛苦。
  7. 穷是推广的大敌。我们暂时打不过敌人,战略性躲着走。( ̄△ ̄;) 但漫展门票钱传单印刷钱还是有的。
  8. 我花了很多时间学这学那,最终也只是为了去理解别人编码画稿伏案写作的困难与辛苦。而很多人的才能我甚至无法想像,只能仰仗他们的自荐。我相信奇遇,希望你也是。

关于时间安排:

  • 希望你一周有四小时的闲余时间想找事打发,考虑到沟通不畅、理解有误、bug 返工等意外,可能会再占用一周四个小时的生活时间。也就是,预计四小时,能接受极限八小时。
  • 当然,不是每个任务都能拆得那么细,很多还是需要几个周期才能完成。
  • 因为是业余项目,我们一周的周期会从周六开始。
  • 我们都希望进度尽可能快,但也请接受松散业余小团体的各种意外与延误。
  • 进入随意,退出随意,请告诉一声。如果你已经接了一个任务但有急事没时间做也没关系,希望你不介意我把同一个任务再请别人来做。
  • 即使失联几个月,依旧欢迎随时回归。如果不好意思,暗示我一下,我来个喜迎苏武。

交流方式:

主要是 QQ 群交流。之前需要实时语音时,会在 YY 开房间。对的,就是上市公司欢聚时代的里面有好多美女妹子半夜不睡觉卖萌吼歌的著名语音视频聊天工具 YY ——当然,我们不需要视频。不过 YY 用得真的很少,不装也没事,我会打电话给你。

每两周周日晚聚餐一次,聊聊近况,我买单。这个属于每周四小时的部分。也就是说,如果你时间有限,请先安排给聚餐。

每隔一周,我都为找好吃的店头痛不已。这句话的意思是地点每次都会变,不是说一定有多好吃。

如果你不在北京,我会在幸运的日子去找你,无论你在奥兹国,还是在永无岛。

关于回报

“我希望你能为我白干活,还不损害我们的交情,也没法给什么对结果的承诺。”

居然胆敢真的提出这样的要求,实在还是惶恐忐忑,纠结不安。

希望读到这文字的每一个你,都能给我一个机会,让我彻彻底底地忽悠你一次。(* ̄3 ̄)╭ 这样,也许你会想着“反正闲着也是闲着,听着还算靠谱,干吧”。如果你觉得累了,决定彻底退出以前,也麻烦务必再让我忽悠一次,也许就能多坚持两周。

说不定呢,谁知道呢,阿里都搞出史上最大 IPO 了。

但还是希望你能把它当成是像同好社团一样的玩艺儿。我们会有贡献名单,会有定期的聚餐。更重要的是,会有偶而打开看看,咦,现在做得不错了的小小感叹。这样的微小的愉悦,我想我还是能坚持着保证的。当然,万一真的搞大了,自然会尽量让大家更满意。只是在我自己也看不到终点时,还是诚实地说,但尽其事,莫问前程吧。

每个想做一些事情的人都必须有自己的忽悠风格,我把我的风格称之为“诚实的忽悠”,希望你能上当。

我曾发起过一些公益性项目,大多惨淡收场,但也偶有成功。

虽然这次不算公益,但还是希望运气也能不错。

上船吧,水手。

联系方式

开开

企鹅:151493994

微信:kaikaiiiiiii

很是喜欢这个微信表情包:小哥斯拉么么

icon   ヾ(^▽^o)+

特别喜欢这个微信表情包,然后就从微信安装包里弄出来了。么么的英文名叫 monmon,monster 的 mon。这是官方表情包解压出来时的文件夹名字。还有,难道只有我一个人注意到,流汗那张,么么拿直升机其实是拿反了?风是往反方向吹的。

 

一开始觉得,这个粉红色小恐龙是个挺女性化的表情包,可是看得多了,忽然觉得这个小哥斯拉很孤单,非常孤独。

没人陪伴,全套表情都是它在孤独地自娱自乐。

想拥抱时,只有摩天大楼,看它紧紧抱着,脸一蹭一蹭,小嘴撅起,很用力的样子,那是得有多孤独;好玩的,是跑大桥上找两辆车玩对撞,一如小时候被关在家里的独子,围着满地的玩具一边哭一边告诉自己这些够玩了;它甚至还有一个专门的表情,叫作“自己玩”,这……无语言说的孤单,直让人心中一揪。

天变冷了,别的表情包里,好冷的图案都是与亲朋的温暖相依,而它只能围着围巾戴上手套,给自己一个用力的环抱;在生病虚弱时,也只能自己裹着棉被含着温度计默默地忍受,有谁会去照看它?

它看起来无忧无虑,那真是不懂有朋友陪伴时心中的温暖。或者其实它懂,只是既不能他解,就只好孤单自解。它把所有想要的温暖,都寄托在周围的环境中,寄付在人类的创造物中,如此,大概能缓解一些它的孤单。

可是人类会不会因为它的破坏行为而攻击它逼迫它离开,大概是一定会的吧。真的是难以想像,最后当它被无数武器攻击而被迫离开时,得有怎样的泪水和委屈。连最后那点自娱自乐的场所,都不被允许拥有。

 

我叙述这些,是因为这些都是童年的孤单。在一个人成长的过程中,太多东西在不经意间失去,或者是从未拥有过。孩子的心灵并不是感受不到,只是不懂得怎么去叙说痛苦,每每回忆起那些片段,总是泪满盈框。

只希望么么不要长大,大概能减轻一些它的痛苦,无心无肺地坚强着。

 

抱紧

抱紧

好崇拜

好崇拜

不会吧

不会吧

泪流成河

泪流成河

流汗

流汗

发呆

发呆

自己玩

自己玩

开心

开心

晕倒

晕倒

嘤嘤

嘤嘤

怒吼

怒吼

好冷

好冷

飞吻

飞吻

真好玩

真好玩

呼呼

呼呼

虚弱

虚弱

 

我在网上查了不少时间,但一直找不到这个套图的作者是谁。也找不到相关的版权出处,或者更多的衍生作品、产品等。我想,把系列作品免费提供给微信表情,通常也是希望有一定影响力以后,通过其它相关衍生品赚钱吧,如果有谁知道,请告诉我。

COS 交易酱的简易分词算法

http://cosjiaoyi.com 是个针对 cosplay 交易信息的搜索引擎,目前基本完成了对新浪微博特定信息的采集和入库,以及基于拼接 mysql 查询语句的搜索功能。

接下来还有很多要做的事情,包括扩展采集来源、改善垃圾信息过滤、优化前端等工作。不过今天先来讲一下打算做的自制分词算法。

对于动漫这一特定领域,很多常规的分词算法没有多大意义了。因为动漫圈存在大量的仅仅因为“好玩”而产生的各种昵称、诡称、简称。比如 “身陷” 指的是衣服的尺码,包括身高、三围等数据;比如 “穹妹” 指的是动画《缘之空》中的女主角兼主角他妹;比如 “面交” 当然是指当面交易的简称;比如 “炮萝” “秀萝” “叽萝” “咩萝” “丐萝” 都是网游剑网三里的职业人物角色的简称,哦,剑三又别称 “基三”,等等等等……还有一大现象是中英文数字合并成为一个词汇,比如 “PO主”。另外,又因为拼音输入法的原因,会出现“身限”=“身陷” 等现象。由于本来这些词汇也就是圈子生造词,也难以适用词汇纠错的方法。

wordsegment

普通分词算法结果

对于业务场景而言,这里面的很多词汇都是没有多大意义的。而“黑猫”、“弹丸”、“小天使”之类的词能成为高频词,也仅仅是因为它们更接近于“普通词汇”,可以被常规的分词算法认出来。而剑三当中的 “X萝” 系列,甚至剑三这个词汇本身,都因为被分词算法切分,而没有进入这个图表中。

当然,技术上来说,只要有合理的分词词库,辅以相应的参数调整,还是可以做出一套适用于动漫分词的,但考虑到分词算法往往有几百个核心词汇、几千个附加词汇,每个词汇还都有词性标注,想想就算了……

在之前没考虑过这个问题,一是因为没有实际的业务数据积累,其实也没有考虑到这个问题,经过一段时间的推广和数据积累,现在可以研究了。二是因为对于 mySQL 的 like %…% 语法,尽管效率不高,但在目前的场景下,也没有遭受到多少压力。三是因为,呃,忙,呃,之前没时间做,呃,之后其实也不一定有时间做……

那简易分词打算怎么做呢?

现阶段的核心目的,还是在尽可能减少时间的前提下,能正确理解用户输入的“穹妹旗袍” 是指 “穹妹”+“旗袍”,这两个词汇不一定需要放在一起,只要在同一条微博中出现即可。

  1. 只考虑对 QueryRequest 的 wordstring 进行处理,而不考虑入库数据。内部查询在没有遇到性能问题前,依然使用 like %…%。目的仅仅是为了正确理解用户输入的查询,不至于因为用户输入“剑三的炮萝” 因为无法整串匹配到而搜不到结果,这种情况下应当可以正确处理为“剑三”+“炮萝”
  2. 只分析已经记录在服务器的 SearchQuery 表,不考虑对正文文本的分析。
  3. 和普通分词一样,还是基于词汇表,以及替代词汇表。先考虑分词,再考虑戳憋字。
  4. 基于业务,其实有大量的词汇是不需要的,比如“小天使”、“帮扩”等。对于用户而言,进入到本网站,场景就是搜索需要的东西,因而都是以具像物名词为主。没人会在搜索框里填 “小天使”、“随便” 这类词汇。甚至 “二手” 这个词都基本不会出现。

所以简易规则如下,可以覆盖 99% 的实际需求,计算量很小。

  1. 先对 querystring 根据 devide-word-list 进行切分,devide-word-list 包括 “ ”(半角空格)、“ ”(全角空格)、“的”,可能还会添加。但注意,没有“和”。因为在动漫中,“和”字会经常作为成词字或者人物姓名字出现,不能定义为分隔符。“日和” “和服” 等。由于并不是真的基于语义的分词,所以无法判断是成词字还是分隔字,根据历史搜索统计,只有 4% 的“和”是分隔词,交给用户自己调整没有问题。由于 devide-word-list 的数据量非常少,添加也很谨慎,所以可以直接写进代码里。
  2. 对结果的 querystring[] 根据 known-word-list,切分为 已知词块 未知词块 的数组。known-word-list 的生成办法下述。
  3. 对于未知词块,根据词块长度,反复循环,进行简单切分,直到最细:
    • 词块中有英文串的,当英文串字母小于等于两个时,视为一个汉字,不切分。
    • 当英文串大于两个汉字的,视为一个词,对其前后切分,分为三段。
    • 当有数字现出时,视为一个词,对其前后切分,分为三段。
    • 对大于等于四字的词块,直接按两个字一词进行切分。(注意之前把1/2 个英文字母视作一个汉字,这里和中文等同视之)。
  4. 将结果的 querystring[] 数组,按每词之间 and 关系,对数据库进行查询。

比如:求黑子的篮球的火神大我红毛 私信po我。

  1. 变为 [求黑子,篮球,火神大我红毛,私信po我] (“的”和“空格”为分隔词)
  2. 变为 [求,黑子,篮球,火神大我红,毛,私信po我](“求”和“毛”为定义的已知词。
  3. 变为 [求,黑子,篮球,火神,大我,红,毛,私信,po我](“po”视为一个汉字)
  4. 实际 Search Request 即 求+黑子+篮球+火神+大我+红+毛+私信+po我

当然,通常没有这么长的需求,更多的是如下的:

剑三定国炮萝160包邮

  1. 还是 [剑三定国炮萝160包邮],因为没有分隔。
  2. [剑三,定国炮萝160,包邮],剑三和包邮应该会加作已知词。
  3. [剑三,定国炮萝,160,包邮],160 是数字单独成词。
  4. [剑三,定国,炮萝,160,包邮],“定国炮萝” 四字切分为两字两字。这就是最后的搜索请求词组了。

当然,在这种规则下,“雪露女武神”,会变成 “雪露”、“女武”、“神”,但又有什么关系呢,如果一个词汇真的必须是三字词,我使用两字“女武”+一字“神”,依然可以搜到库中的正确结果,这就足够了。

接下来说说怎么做已知词汇表。

  1. 人工整理,优先满足历史搜索词汇表。
  2. 暴力分词法:
    1. 直接把采集数据的正文部分全部提取。
    2. 把空格串、数字串、大于两字的英文串、符号串、链接地址、转发标志、“的” 等都视为分隔符替换掉,形成最初的文本块。
    3. 暴力地把所有文本块全部循环切分成两字一组,然后统计相同词汇并排序。注意是循环切分,比如“小天使”块应当切分成“小天”和“天使” 两部分。
    4. 再暴力地把所有文本块全部切分成三字一组,然后统计相同词汇并排序。
    5. 人工筛选排序最前的 1000 组词汇,足够了。

这个当然也有缺点,但在具体的场景下也已经够用了。动漫词汇尽管创意繁多,但基于交流之用,最常用的词汇还是排名比较靠前的。再通过人工筛选过滤掉通用但无用的词汇,就可以获得有效的 know-word-list 了。这种暴力切分法并不是我第一个用,http://www.guokr.com/blog/76814/ 这篇文章就讲到了用暴力切分法去切分古文词汇。其实还是挺实用的,毕竟我这里最后有个人工筛选过程。

====================下面是严肃的分割线=====================

其实中文分语无非两个部分:

  1. 句子匹配已登录词时,多种匹配方式如何选取最优?
  2. 未登录词如何鉴别词性?这中间又细分为如何通过大量文本收录未登录词,转为已登录词;以及在某段文本中确切出现的未登录词,如何进行处理两种情况。

而以上方案,按分词原则来看,其实都有些反其道而行:

  • 故意适当缩小已登录词,相对扩大未登录词范围。——这个是由业务实际情况经取舍后决定的。确实业务中只需要登录掉大部分 “专属通用词” 即可达到需要的效果。
  • 未登录词一律视为双字词。——这个是实际统计结果后决定的。
  • 把输入的正确性,以及由此导致的结果的正确性,责任全部交给用户自己去解决。——也是业务实际,以及以上两项得到的。

这些简化的前提,最重要的一点在于,Cos 交易酱并不需要真的去处理分词以后的结果,只需要确保分词结果能正确地,范围合适地在库中搜索到用户需要的数据即可。

Cos交易酱搜索优化计划

COS 酱的核心功能是促成 cosplay 交易信息的交换流通,所以对信息的采集、整理和优化是最重要的部分。

经过一段时间的数据积累,目前数据库中已有 60000 多余条微博数据,过滤掉的垃圾信息已经有 20000 多条。我们使用最简单的规则过滤掉了三分之一的无用信息,这些信息绝大部分来自于机器控制的僵尸帐号微博。但目前而言,过滤完的信息依然有不少可以定义为重复、垃圾的信息,所以接下来准备对过滤规则进行一些改进。

1. 微博中有“微话题主持人”这样一种角色,我完全不知道有什么存在意义。他们做的唯一的工作就是把同话题下大量的微博重新转发一下,并在转发时再次添加同一个话题,比如 #cos 二手#。由于本站对微博采集就是基于话题、关键词等方式进行的。因而这些无用的微博也会被搜索到。接下来打算通过帐号黑名单方式过滤这一类需求。

2. 热门微博的多次转发。在最初设计这个网站时,考虑过是否采集转发的,最后确定是包括转发也采集。因为存在二手信息发布者通过转发微博的方式提供一些补充信息,比如 “xx 已经出售,还剩 yy、zz” 等。但当初考虑不周的是,某些粉丝众多的红人 cos 的微博存在大量转发,会导致采集到的数据也出现 “刷屏”。另一种是专业转发号在某一时段大量转发,也会出现类似的情况。基于此,接下来需要添加一些入库规则过滤。

2.1 如果一条转发微博的原微博不在库内,则转发微博和原微博都入库。
2.2 如果原微博已有,转发微博用户和原微博用户相同,则视为对原微博的“补充说明”,也入库。
2.3 如果原微博已有,转发用户非原博用户,则入库标记为垃圾微博。
2.4 如果原微博已有,转发微博用户和原微博用户相同,且转发内容为“转发微博”,则入库标记为垃圾微博。

——以上:原则是,对于搜索引擎而言,多条相同信息是无意义的,只需要保留确实有意义的内容即可。

3. 对于搜索请求,由于动漫这个特定领域的分词非常难做。目前网站的搜索是没有分词的,于是导致“火神毛”的搜索请求并没有表达用户本来的意思 “火神+毛”。接下来会研究一下如何变通地实现这个需求。

 

所以说翻译永远是个被原作者坑死的角

弹丸论破中,作为主角反派之一的黑白熊,其名字来自于日文モノクマ (monokuma) 。

kuma 好理解,就是熊。但 mono 略奇怪一点,因为 mono 直接对应词汇是“物” 也就是 “东西”。具体而言比中文的“东西”意义更广泛一点,是构成各种词的常用结构。比如 bakemono(怪物),monogatari(物语)等。

宫崎骏有部电影叫《Mononoke hime(幽灵公主)》,其中 mononoke 的本意也是 “事物的灵魂”,基本上,日本人把大到自然灾害、小到头疼的一切无法解释的事情都归咎于Mononoke。Mononoke可以是像轮子那样非生命体的灵魂,死人的灵魂,活人的灵魂,动物,小妖精,怪物的灵魂,或是一个自然的妖精。所以中文译成了幽灵。

但 monokuma 为什么不是 “物熊” 而是黑白熊呢?

这事要说起来就更扯了…… 因为这个 mono 是英文 ╮( ̄▽ ̄)╭

看一下这个单词吧:

monochrome

英 [ˈmɔnəˌkrəʊm]美 [ˈmɑnəˌkrom]

n.

adj.

1. Monochrome reproductions of natural daylight scenes are totally unnatural in appearance.
天然光照射下的景物若以黑白方式来重现,看起来总感到不够自然。
2. In monochrome maps, of course, colour variation cannot be employed at all.
当然,单色地图根本不可能采用颜色的变化。
3. The sun was down and the room fading to monochrome.
夕阳西下,房间黯淡下来,周围变成了一幅单色画。
4. Few monochrome television engineers found it necessary to be knowledgeable about the subject of “light”.
在从事黑白电视工作的技术人员中,很少有人感到必须具备有关光学方面的知识。
5. Monochrome machine belongs to the overprinter of wet-dry stack.
单色机属于干叠潮套印。

然后再看一下人物形象:
03087bf40ad162d9f88f4dd210dfa9ec8b13cd9e

 

原意是单色熊,形象又是黑白,其实翻译作单色熊反而不太正常,毕竟黑与白都是颜色,叫单色熊会被吐槽致死吧。英文的 mono 再理解一下,确实应该是单一、唯一的意思,但在光学成像上,它的意义更多地是 “单色着色/染色”,所以,在不染时,是有另外一个“底色”存在的。mono 描述的,是着色唯一,也就是动作的施与者唯一,和中文的 “单色” 有那么点容易忽视的细微的差别,所以翻译成 “黑白熊” 确实更好一些。

无一不符合 信 达 雅 俗 四字,大巧不工,至高境界。

……

……

……

……

境界,也就撑了不到半年。

因为弹丸2又出来一新货,名叫 monomi。mi 这个尾缀也有一定的典故(neta)的,比如多啦A梦(doraemon)他妹就叫多啦咪(dorami),所以你从这个名字上就直观地能知道这货是黑白熊他妹,简称黑白妹

你将继续延续神一般的翻译水准,直到——

……

……

这货的形象是这样的:

ckfvrvbzlf0

你看吧!

是 mono 的吧!

是他妹的 mi 的吧!

让你再翻译成黑白妹!

你去用俗得要死的粉白妹吧!

还不如叫白富妹呢!

所以说,所以说,

你知道做翻译的,为什么永远是个被原作者坑死的角了么?

 

WordPress 引用 Bilibili.tv 视频方法更新

update:现在 bilibili 官方已提供分享链接功能,这篇文章已经过时。

从业产品经理一年有余,虽非主业,前端知识也多少了解了下。今天发现有人评论老文章《吉原哀歌 外一篇( WordPress 引用 Bilibili.tv 视频方法)》,反映开启 Adblock 以后会有错位现象。这个我当时也是知道的,使用<iframe>也确属无奈,但在当时而言没有什么好办法,就在 Adblock 给自己的博客加了白名单。

现在再回过头来简单看了一下,发现有更简单的办法,不知道是 Bilibili 更新还是当时看不懂,总之…… 先 Test 一下。

Test 通过

——————

讲方法,一句话:

其中 337840 为视频地址中数字代码,也就是视频 id。从浏览器地址栏就可以得到。bilibili-video-url-example

Bilibili 的播放器原始分辨率大小为 569*440,等比例可选大小为 620*480 或者 640*495。比如我博客就是 640 像素宽的。

——————

讲过程,也是一句话:

在页面原代码里搜索 .swf 就发现了以下代码——

其中有效的其实也就是

这一句了。static.hdslb.com 很明显是静态资源的 CDN 服务器域名,后面自然就是参数了。那么 aid 就是视频 id,page 猜想可能是合集第二页吧,试了一下,果然。http://www.bilibili.tv/video/av672893/index_2.html

于是直接<embed> 到网页原代码里就可以执行了。Wordpress 会自动把它整理成更符合规范的代码,不用管了。

以上,大功告成。

——————–

更新:

使用 <embed> 嵌入 Flash 视频是因为我博客有自动转码,如果你没有,以下是真正的完整代码:

 

——————–
更新

Bilibili 作了少量调整,现在即使非合集/剧集的孤立视频,也必须添加 &page=1 参数了。

近期动画列表

1. 虽然是哥哥但有爱就没有问题了吧……

槽点满满,无从吐起。

标题是这几年轻小说开始流行起来的长标题……貌似始作俑者就是那个《我的妹妹不可能那么可爱》

总之是部无节操片,无能男主的后宫剧,唯一的区别是正宫是妹妹。更没节操的是,十二集中 11.99 集男主都在宣称女主是实妹不能这个那个,但最后还非得峰回路转一下,说实际上不是实妹,只是男主一直把持自己而已……

把持你妹啊 (╯`□′)╯┴—┴

……终于还是升华成一个新的人渣男主了……

嗯,画风也无特色,妹主角还行。

观看倍速: 2.0-2.5

 

2. 男子高中生的日常

本来就是装傻博笑的片子,不过笑果不佳。——这种评价很主观,于是我加了一些比较级修饰:

这个片子的笑果不如《日常》,也不如《南家》。

动画的笑果理念更相似于蜡笔小新,经常把那些通常不好意思说的事情拉出来,人为制造一些笑料而已。

这类笑料比起《日常》里的,就真的差上半到一个层次。

观看倍速:2.0

 

3. 《天才外挂麻将少女——阿知贺篇》,倍速:1.6-2.0

Part.A

这个片子,包括原作,从人物能力设定上就更无力吐槽了,也许当作披着麻将外衣的超能力美少女战斗片看更好一些。

不过至少是披着竞技外皮的,而且把四人围一桌搭砖修墙偶尔互瞪默不作声的桌面游戏画得着实激动,也确实非常出色了,摔牌很燃啊~~

嗯,倒是占了相当大的篇幅去描写一个本来是配角的病弱超能力妹子的二重技能觉醒……一层未来视觉不够用,上二层,最后大爆发上三层……

超超超级赛亚人么……

反倒是主角没什么戏份了,比起外挂少女原作中主角从最强走向更强,这个外传篇相对偏向于由弱到强。

但是关于“强”的设定没有做得很好,或者说没有很好地传达给观众,虽然已经很努力描写了,但最后的翻盘还是感觉太过于运气而非主角的坚持、实力与成长。

嗯,不过麻将嘛,本来就是这样,随机性很强,作者好编,再大的差距用个主角光环加身 XX 番来一把就行了(不知这个漫画里承不承认天胡)

Part.B

我一贯秉承的原则是“最有效率地浪费时间”,所以通常在看这种类似背景的动漫时,都试图顺便了解一点相关知识。

嗯,其实这也不是什么个性,很多孩子不都是这样的么?看见个什么东西看燃了就缠着父母要去学。——至少我已经不用缠父母了,我自学。

比如看《棋魂》同步学围棋,

看灌篮高手同步了解点篮球知识,

看网球王子同步跑去打了几趟,

看死亡笔记同步学写日记……咦?

看名侦探柯南同步学死人……咦咦!咦!?

目前还没开始看海贼王,因为晕船不想长期蹲海上。

这个片子也类似,不过学习效果不佳……两个原因:

第一个是片长不够,无法持续燃起,你看不管棋魂还是灌篮,都至少是年番起,足够伴随你越过学习最无聊的入门阶段,

但是这片太短了,麻将里那些诡异的术语又那么多,片子看完了,基础入门知识还没学齐。

不学了,就这样吧,反正学完了也没地方用,知道什么是相公就够用了。

嗯,总结一下,这片还算是好片,所以才能多说几句。

萌妹子们也都不错,

最不希望出现的是,这帮萌妹子们万千征战终于打下全国冠军,被几个来自中国某小区居委会大妈们秒杀……

剧情如此演化就太毁三观了,虽然棋魂是出现过。

吉原哀歌(吉原ラメント)

非常有感的一首歌。吉原是日本最古老的红灯区,调调定的就是柳永般的红粉哀歌,MV 首段黑屏文字也提示歌词有性描写……所以,你懂的!

不过,作为一个外骚内纯的文艺青年,显然我是不会把一曲艳歌挂博客的(放硬盘就可以了),之所以放上来,是觉得,你若能听完,至少也会把它归在“好听的歌”那一类里。而在我这里,这是能归到“洗脑循环反复听”级别的。

于是来兴趣去查了一下:

这首歌是 UTAU 制作的电子音乐,如果你知道 Vocaloid 系 初音未来 曾红极一时的江南 Style 甩葱歌,你就知道这歌也是类似的电音合成人声歌曲了。Vocaloid 本就设计为代替人类演唱,以降低音乐制作成本,这为那些无名新人的音乐制作人提供了极大的方便。事实上,在 iTunes 日本商店里,就能购买到原版电子音乐合成唱声版,只要 150 円哦。

iTunes 链接:https://itunes.apple.com/jp/album/yoshiwara-lamento-single/id570906509

与甩葱歌不同,这首歌是原创歌曲,作者在 MV 里也露了个名:亚绘。而另一位在 MV 里写为小山乃舞世的,则是一位非常技术宅的少女,活跃于动漫网站,至今也只有 19 岁。她一手包办了 MV 的绘画、动画,包办了 UTAU 的电音制作,(事实上 UTAU 的配音也是她……)最后才有了这个神级的 MV。自始至终,两人而已。

于是万般皆备,唯缺唱腔。相比于漂亮的旋律,唯美的 MV,机器发声的歌词就显得非常单薄了。不过,要知道优秀的东西永远不会被埋没,自从这个 MV 被公布到 niconico 上,便立刻引发了各大牌小牌的翻唱风,终于让它近乎完美。巧合的是,公认最好版本的翻唱者 96 猫,也是个 19 岁少女。

96 猫 翻唱版

众头牌混音合唱版( 2 分 45 秒你懂的!)

上歌词:

阴郁天空下 吉原的店家
白色提灯点亮 夜幕垂下
端坐镜前梳妆 红唇描画
有求必应 逆来顺受
那朵闪亮 橙红光芒的花
我曾如此憧憬 渴望着她
不知不觉变成 青蓝的花
即便如此 我也并不廉价

[其实我本想要做一朵 只为你一人独自绽放的花] [然而 命运却夺取了我的自由] [它的车轮将我无情地碾压]

明知是充满虚假的恋爱
你也要拥抱着我吗
逢场作戏的哀伤呀
今夜吉原 雨在下
这位大人您喜欢的话
可否就这样将我买下
屋檐外朵朵盛放伞花
湿透的我心中 雨在下

车水马龙行人 各自嬉笑怒骂
姐妹互相安慰 轻舔伤疤
其实我的心中 只有一个想法
有谁能够带我 离开这鸟笼吗

其实 我早已失去了可以回去的家
在这鸟笼里 看到的风景
不知何时却成了 我心里唯一的慰藉

即便这恋爱充满了虚假
也一定要这样买下我吗
在我身上盛开的花朵啊
露珠滴落 如雨下
大人请你与我沉醉在
这仅限一夜的云雨吧
伤痕一道一道刻下
心中一曲哀歌 无处洒
染上忧郁颜色的花渴望着 枯萎了

[欢迎光临]

玩着恋人游戏的那些夜
喘息着「啊啊」做回答
逢场作戏的哀伤呀
今夜吉原 雨在下

明知是充满虚假的恋爱
你也要拥抱着我吗
逢场作戏的哀伤呀
今夜吉原 雨在下

这位大人您喜欢的话
就请这样将我买下吧
屋檐外朵朵盛放伞花
湿透的我心中 雨在下